Что такое интеллектуальный анализ данных (data mining)?
Сбор данных — это извлечение полезной информации из больших наборов данных с помощью машинного обучения и других инструментов для обнаружения шаблонов, аномалий и аналитических данных для принятия решений.
default
{}
default
{}
primary
default
{}
secondary
Обзор сбора данных
В цифровую эпоху организации, естественно, накапливают все большие объемы данных, и сегодня многие руководители рассматривают их как сокровищницу ценной информации. Итак, что такое сбор данных и как он упрощает извлечение ценной информации из наборов данных? Сбор данных — это процесс обнаружения полезной информации из накопления данных, часто из хранилища данных или набора связанных наборов данных. Сбор данных может включать машинное обучение, статистический анализ и другие мощные аналитические инструменты, используемые для просеивания больших наборов данных для выявления тенденций, скрытых закономерностей, аномалий и отношений для поддержки обоснованного принятия решений и планирования.
Одним из менее очевидных преимуществ интеллектуального анализа данных и одной из основных причин, по которой сбор данных сегодня важен, является то, что он превращает накопление данных, которое часто сопровождается цифровизацией, в преимущество. По мере того, как организации все чаще модернизируют и переходят в цифровую форму своей деятельности, они стремятся генерировать и накапливать все больше и больше данных. Таким образом, для крупного предприятия, имеющего большие наборы данных, сбор данных позволяет эффективно использовать большой объем информации, которой они уже обладают.
Почему сбор данных важен?
Сбор данных важен, поскольку он превращает данные организации в ключевой компонент бизнес-аналитики. Инструменты сбора данных встроены в информационные панели руководителей, собирающие ценную информацию из больших данных, включая данные из социальных сетей, каналов датчиков Интернета вещей (IoT), устройств с поддержкой местоположения, неструктурированного текста, видео и т. д. Современный сбор данных основан на облачных и виртуальных вычислениях, а также базах данных in-memory для экономичного управления данными из многих источников и масштабирования по запросу.
Какую бизнес-ценность может принести сбор данных? Основным преимуществом сбора данных является его способность определять закономерности и взаимосвязи в больших объемах данных из различных источников, включая социальные сети, удаленные датчики и другое контрольное оборудование, все более подробные отчеты о движении продуктов и рыночной активности и, что крайне важно, приложения и другое программное обеспечение, используемое организацией.
Это означает две вещи. Сбор данных может помочь людям, выполняющим различные роли в различных отраслях, мыслить нестандартно, опираясь на широкий спектр источников и выявляя неочевидные связи и закономерности в, казалось бы, несвязанных кусочках информации. Это делает сбор данных важным для крупных организаций, особенно для предприятий, где информация, как правило, разрозненна.
Более того, преимущества сбора данных распространяются не только на продажи, но и на другие бизнес-сферы: благодаря этой возможности для устранения разрозненности она может расширить возможности широкого круга ролей. Инженеры и проектировщики могут анализировать эффективность изменений продукта и искать возможные причины успеха или неудачи продукта. Сервисные и ремонтные операции позволяют лучше планировать запасы запчастей и укомплектование персоналом. Организации сферы профессиональных услуг могут использовать сбор данных для выявления новых возможностей, создаваемых изменением экономических тенденций и демографических сдвигов. Сбор данных может даже помочь обнаружить мошенничество, особенно в таких отраслях, как финансы, розничная торговля и здравоохранение.
Другими словами, потенциальные преимущества сбора данных охватывают весь спектр бизнес-функций: от повышения выручки и сокращения затрат до улучшения отношений с клиентами, предотвращения мошенничества и точной настройки прогнозирования продаж.
Сбор данных важен, поскольку он может принести существенную бизнес-ценность для ряда целей, например:
- Получайте ценную аналитическую информацию, помогающую принимать обоснованные решения на основе данных
- Предоставление дополнительного контекста для повышения точности планирования и прогнозирования продаж
- Выявление возможностей сокращения затрат, сокращения ненужных расходов и устранения узких мест и неэффективности процессов
- Выявление закономерностей мошенничества и выявление уязвимостей до их использования
- Персонализация маркетинга и улучшение клиентского опыта благодаря более глубокому пониманию поведения клиентов
Как работает сбор данных?
Проще говоря, сбор данных работает с помощью машинного обучения, статистического анализа и других аналитических инструментов для синтаксического анализа больших наборов необработанных данных и выявления скрытых закономерностей, которые можно использовать для получения ценной информации. Фактические методы и шаги сбора данных зависят от типа задаваемых вопросов, а также от содержимого и организации базы данных или наборов данных, предоставляющих сырье для поиска и анализа. Таким образом, есть несколько шагов, которые обычно включает в себя процесс сбора данных.
5-шаговый процесс сбора данных
1. Сбор данных:
- Определите, какую проблему или область запроса вы изучаете.
- Подумайте о том, какие внешние и внутренние факторы могут быть релевантны для предмета исследования.
- Соберите необработанные данные из различных источников, включая базу данных организации и внешние данные, которые являются частью операций, такие как данные продаж и обслуживания на местах, Интернет вещей или данные социальных сетей.
2. Предварительная обработка данных:
- Просмотрите собранные источники данных и убедитесь, что у вас есть права на доступ и использование внешних данных, включая демографические, экономические данные и рыночную аналитику, такие как отраслевые тенденции и финансовые эталоны от торговых ассоциаций и правительств; положения о конфиденциальности данных могут значительно различаться в зависимости от региона и могут меняться, поэтому это важный шаг.
- Привлекайте тематических экспертов для определения, категоризации и организации данных. Эту часть процесса иногда называют преобразованием и очисткой данных.
- Очистка собранных данных, удаление дубликатов, противоречий, неполных записей или устаревших форматов.
3. Построение модели:
- Выберите релевантные алгоритмы и методы (такие как деревья принятия решений, регрессия или кластеризация — подробнее о методах сбора данных ниже).
- Обучение нескольких моделей на предварительно обработанных данных или точная настройка их параметров для оптимизации производительности.
- Проверка точности модели с использованием методов проверки для обеспечения надежной производительности новых данных.
- Сравните различные подходы к моделированию и определите оптимальный вариант для достижения конкретных целей.
4. Оценка:
- Оценка надежности модели по ключевым показателям, таким как точность, точность и доля ошибок.
- Выявление потенциальных проблем, таких как смещение, переобучение или проблемы с качеством данных.
5. Толкование:
- Определите, какие факторы данных наиболее сильно влияют на прогнозы и результаты. Это поможет объяснить ключевые результаты заинтересованным лицам.
- В зависимости от структуры группы может потребоваться преобразовать результаты модели в аналитическую информацию и предоставить отчеты или визуализации, которые сделают результаты понятными лицам, принимающим нетехнические решения, и другим заинтересованным лицам в организации.
- Сформулируйте конкретные, действенные рекомендации по бизнес-стратегии, операциям и процессам на основе обнаруженных шаблонов.
- Выбор релевантных показателей и разработка плана для измерения влияния реализации рекомендаций, полученных в ходе сбора данных.
Ключевые методы сбора данных
Классификация
Один из распространенных методов сбора данных включает сортировку новых данных по предварительно определенным категориям на основе шаблонов, полученных из исторических данных: например, группирование клиентов на основе вероятности возврата путем анализа моделей покупок, истории платежей и уровней вовлеченности. Это поможет не только различать важные сегменты клиентов, но и углублять понимание отношений с клиентами.
Обнаружение аномалий
Обнаружение аномалий особенно важно для таких целей, как предотвращение мошенничества, сетевая безопасность и проверка идентичности. Например, этот метод сбора данных помогает выявить необычные операции по кредитным картам, отличающиеся от типичного использования клиента, на основе таких факторов, как неожиданные местоположения, необычные онлайн-покупки или нехарактерно большие суммы. Однако методы сбора данных также помогают находить новые предикторы, которые не столь очевидны, что позволяет перейти к следующему методу сбора данных.
Кластеризация
Кластеризация — это метод сбора данных, направленный на обнаружение естественных группировок, основанных на сходстве данных, а не на предопределенных предположениях (в отличие от классификации), в конечном итоге выявляя скрытые закономерности и взаимоотношения. В примере с кредитной картой кластеризация может выявить дополнительные флаги подозрительной деятельности. Например, исторические данные из аккаунтов, которые страдали от мошенников, могут показать, что статистически значимая часть из них имеет другое сходство: возможно, все они показали закономерность небольших тестовых покупок у конкретного торговца, за которыми следуют крупные сделки. Затем в будущем эту модель можно будет использовать для обнаружения мошеннической деятельности в реальном времени.
Правила ассоциации
Другим ключевым методом сбора данных является сбор правил ассоциации: связывание двух, казалось бы, несвязанных событий или операций. Представьте, что вы пытаетесь оптимизировать размещение продуктов в супермаркете, чтобы максимизировать продажи. Не требуется сбор данных, чтобы предполагать, что, скажем, клиенты, которые покупают подгузники, также, скорее всего, купят другие детские продукты, такие как детские салфетки. Но этот метод сбора данных может обнаружить другие, менее очевидные возможности кросс-селлинга: возможно, вы заметите, что клиенты, которые летом запасают на одноразовые столовые приборы, также чаще покупают средства от насекомых и зефиры. Эти продукты, как правило, находятся на разных островах продуктов, но сбор данных может указывать на сезонную закупочную миссию: получение поставок для проведения времени на открытом воздухе. В этом сценарии метод сбора данных правил ассоциации поможет розничному торговцу использовать эту сезонную возможность.
Регрессия
Один из методов сбора математических данных, регрессионный анализ прогнозирует число на основе исторических закономерностей. Это классический инструмент, используемый во многих областях и контекстах, включая прогнозирование продаж, прогнозирование цен на акции и финансовый анализ.
Обратите внимание, что это всего лишь несколько наиболее распространенных типов методов сбора данных, часто доступных в наборах инструментов для сбора данных.
Приложения и примеры сбора данных
К примерам использования сбора данных относятся анализ настроений, оптимизация цен, маркетинг баз данных, управление кредитными рисками, обучение и поддержка, выявление мошенничества, медицинские и медицинские диагнозы, оценка рисков, системы рекомендаций по кросс-селлингу и апселлингу и многое другое. И это может быть эффективным инструментом в любой отрасли — от розничной и оптовой торговли до производства, здравоохранения и финансов.
Ключевые сценарии использования сбора данных
Разработка продукции
Компании, которые проектируют, производят или распространяют физические продукты, могут использовать сбор данных для выявления возможностей более эффективной нацеленности на свои продукты путем анализа моделей закупок в сочетании с экономическими и демографическими данными. Дизайнеры и инженеры также могут ссылаться на отзывы клиентов и пользователей, записи ремонта и другие данные для определения возможностей улучшения продукта. А лица, принимающие бизнес-решения, могут даже выбирать, какие новые типы продуктов следует представить, исходя из того, что клиенты обычно ищут для покупки вместе с текущими продуктами.
Примеры сбора данных, используемого для руководства разработкой продукта:
- Анализ данных о покупках клиентов показывает ассоциацию: при покупке фитнес-трекеров клиенты также могут приобрести другие аксессуары, такие как бутылки с водой или одежда для тренировок. Это дает возможность для производителя фитнес-трекера начать предлагать фирменные бутылки с водой или сотрудничать с брендом фитнес-одежды для эксклюзивной брендовой линии одежды, тоже.
- Данные об использовании умного домашнего устройства показывают, что очень немногие клиенты используют премиум-функцию этого продукта, в то время как опросы клиентов показывают, что многим трудно определить, какая кнопка включает эту функцию. Изменение дизайна устройства, чтобы сделать кнопку более заметной, может стимулировать больше клиентов использовать функцию премиум и, как следствие, улучшить их восприятие стоимости продукта для денег.
Производство
Производители могут отслеживать тенденции качества, данные по ремонту, объемы производства и данные о производительности продукции на местах для выявления проблем, связанных с производством. Они также могут распознавать возможные обновления процессов, которые улучшают качество, экономят время и ресурсы, повышают производительность продукта и указывают на необходимость нового или более качественного заводского оборудования.
Примеры сбора данных, используемого для оптимизации производственных процессов:
- Анализ истории сервисных заявок показывает, что в холодные месяцы происходят сбои оборудования, что позволяет предположить, что некоторые аппараты могут быть чувствительны к колебаниям температуры. Инвестирование в более эффективный контроль температуры на производственном участке может сократить простои и сэкономить время выездных технических специалистов.
- Точный анализ исторической потребности в запасных частях и других данных, связанных с поставками, может прогнозировать периоды вероятного дефицита критических деталей, что позволяет производителям заблаговременно пополнять запасы.
Отрасли обслуживания
В сфере услуг компании могут найти похожие возможности для улучшения обслуживания, используя перекрестные ссылки на отзывы клиентов (прямые или из социальных сетей или других источников) с определенными сервисами, каналами, случаями поддержки клиентов, данными о производительности конкурентов, регионами, ценами, демографическими данными, экономическими данными и другими факторами.
Примеры сбора данных, используемые для обеспечения персонализации клиентов в сфере услуг:
- Используя перекрестные ссылки на данные о клиентах, записи о визитах и настройки отношений с клиентами, поставщик медицинских услуг обнаруживает, что ставки неявки на встречи различаются по возрастным группам клиентов в зависимости от того, какие каналы используются для напоминаний о встречах. Персонализация коммуникации о предстоящих визитах в каждую возрастную группу поможет большему числу клиентов перейти на встречи.
- Анализ запросов поддержки клиентов показывает, что пациенты, ожидающие пополнения определенных видов лекарств, чаще обращаются в службу поддержки для обновления статуса на пополнении. Если поставщик медицинских услуг заранее нацелен на этих пациентов с автоматическими уведомлениями о пополнении, эта персонализированная коммуникация может как повысить удовлетворенность клиентов, так и снизить нагрузку на поддержку клиентов.
- Анализ взаимодействия с клиентами с помощью сервиса цифровой подписки показывает, что определенное падение использования прогнозирует отмену подписки в течение тридцати дней. Повторное взаимодействие с пользователем с пользовательскими рекомендациями, советами по оптимизации использования или даже персонализированными скидками может помочь улучшить восприятие использования и ценности и, в конечном итоге, удержать клиента.
Прогнозирование продаж
Независимо от отрасли сбор данных бесценен для прогнозирования и планирования продаж. Аналитика на основе данных позволяет прогнозировать колебания спроса, уточнять анализ рынка, прогнозировать изменения цен и многое другое.
Примеры сбора данных, используемые для уточнения прогнозирования продаж:
- Страховая компания анализирует широкий спектр наборов данных, как внутренних, так и внешних, и обнаруживает, что условия вождения, по прогнозам, ухудшатся в определенный период, когда ожидается непогода — и в то же время возникает временный дефицит зимних шин. Эта информация помогает им составить более точный прогноз продаж автострахования на основе ожидаемого увеличения спроса.
- Производитель потребительского продукта среднего класса анализирует рынок и выясняет, что несколько конкурентов внедряют линейки роскошных продуктов, продаваемых с премией. Некоторые из их клиентов разочарованы изменениями и решают заняться бизнесом в другом месте, рассматривая предложения среднего уровня. Этот производитель может скорректировать свою стратегию продаж, чтобы попытаться воспользоваться этой возможностью, чтобы обойти этих клиентов.
Обнаружение мошенничества
Сбор данных широко используется в выявлении мошенничества — приведенный выше пример кредитной карты является лишь одним из многих случаев предотвращения мошенничества при сборе данных. Метод обнаружения аномалий помогает помечать подозрительные выбросы, но и другие методы сбора данных также полезны, помогая выявлять новые закономерности и постоянно совершенствовать меры по предотвращению мошенничества.
Примеры сбора данных, используемые для улучшения выявления мошенничества:
- Продавец цифровых товаров замечает необычные покупки в учетных записях, доступ к которым осуществляется из нового местоположения. Чтобы сократить несанкционированный доступ к учетной записи, компания может связаться с владельцами счетов при возникновении такой модели, отметить эти операции и предложить простой способ отмены покупок или обновления безопасности учетной записи.
- Организация может обучить модель для фильтрации фишинговых электронных сообщений с помощью метода сбора данных классификации, чтобы связать определенные лингвистические маркеры (язык срочности, орфографические ошибки и т. д.) с меткой «фишинг» и предотвратить попадание их даже во входящую почту пользователей.
Преимущества и проблемы сбора данных
Большинство недостатков сбора данных перевешиваются его преимуществами, но есть определенные проблемы, связанные с сбором данных, о которых организациям необходимо знать.
Большие данные
Преимущество: все больше и больше данных генерируется, предлагая все больше возможностей для сбора данных и, как следствие, более эффективного принятия решений.
Проблема: из-за большого объема, высокой скорости и широкого спектра структур данных, а также растущей распространенности неструктурированных данных существующие системы испытывают трудности с обработкой, хранением и использованием этого потока входных данных. Таким образом, для извлечения смысла из больших данных компаниям необходимо соответствующее мощное программное обеспечение.
Компетенция пользователя
Преимущества. Инструменты сбора и анализа данных помогают пользователям и другим заинтересованным лицам принимать более обоснованные решения на основе данных.
Задача: Несмотря на то, что инструменты, используемые для сбора данных, стали гораздо более удобными для пользователей, для их использования в полной мере требуется обучение. Пользователям необходимо понимать, какие данные доступны, иметь хотя бы общее представление о том, как работает сбор данных, и быть опытными в бизнес-контексте, а также соблюдать нормативные и нормативные требования, связанные с использованием данных — все это требует определенного обучения пользователей.
Конфиденциальность данных и контроль нормативных требований
Преимущество: персонализация, обеспечиваемая аналитикой на основе данных, может улучшить клиентский опыт.
Задача. Данные, особенно данные пользователей, принадлежащие частным лицам, подлежат надзору со стороны регуляторов. Однако фактические методы и нормативные акты в области защиты данных различаются в зависимости от региона и по-прежнему подвержены изменениям, поэтому организации, обрабатывающие данные, могут оставаться в курсе событий.
Качество и доступность данных
Преимущества. Все более крупные объемы и разнообразие доступных данных делают сбор данных более важным, чем когда-либо.
Проблема. Объем новых данных также содержит множество неполных, некорректных, вводящих в заблуждение, мошеннических, поврежденных или просто неиспользуемых данных. Пользователи должны всегда знать источник данных, их достоверность и надежность, а также проблемы конфиденциальности и защиты данных; организации должны нести ответственность за защиту своих, а также данных своих клиентов от нарушений и других ненадлежащих обращений.
Сбор данных и связанные концепции
Сбор данных и машинное обучение
Разница между сбором данных и машинным обучением заключается в том, что машинное обучение представляет собой набор инструментов и алгоритмов, обученных находить закономерности и корреляции в больших наборах данных, в то время как сбор данных — это процесс извлечения полезной информации из накопления данных. Машинное обучение — это один из инструментов, используемых в сборе данных для построения прогнозных моделей, но это не единственный инструмент, ни сбор данных не является единственным приложением машинного обучения.
Сбор данных и аналитика
Существует тонкое различие между сбором и аналитикой данных. Анализ или анализ данных — это общие термины для широкого набора практик, ориентированных на выявление полезной информации, ее оценку и предоставление конкретных ответов. Сбор данных — это один из типов анализа данных, предназначенный для сбора больших объединенных наборов данных для выявления закономерностей, трендов и отношений, которые могут привести к анализу и прогнозированию.
Сбор данных и анализ данных
Интеллектуальная обработка данных — это не то же самое, что сбор данных, но концепции связаны между собой. Наука о данных — это термин, который включает в себя множество информационных технологий, включая статистику, математику и сложные вычислительные методы, применяемые к данным. Сбор данных — это сценарий использования науки о данных, ориентированный на анализ больших наборов данных из широкого спектра источников с целью получения полезной информации.
Сбор данных и хранилище данных
Хранилище данных представляет собой совокупность данных, как правило, из нескольких источников (ERP, CRM и т. д.), которые компания будет объединять в хранилище для архивного хранения и широкого анализа, например, сбора данных.
Часто задаваемые вопросы
SAP PRODUCT
Повышение ценности ИИ за счет данных
Используйте данные для обеспечения надежной и масштабируемой производительности с помощью SAP Business Data Cloud.