flex-height
text-black

Данные биржи

Что такое интеллектуальный анализ данных (data mining)?

Сбор данных — это извлечение полезной информации из больших наборов данных с помощью машинного обучения и других инструментов для обнаружения шаблонов, аномалий и аналитических данных для принятия решений.

default

{}

default

{}

primary

default

{}

secondary

Обзор сбора данных

В цифровую эпоху организации, естественно, накапливают все большие объемы данных, и сегодня многие руководители рассматривают их как сокровищницу ценной информации. Итак, что такое сбор данных и как он упрощает извлечение ценной информации из наборов данных? Сбор данных — это процесс обнаружения полезной информации из накопления данных, часто из хранилища данных или набора связанных наборов данных. Сбор данных может включать машинное обучение, статистический анализ и другие мощные аналитические инструменты, используемые для просеивания больших наборов данных для выявления тенденций, скрытых закономерностей, аномалий и отношений для поддержки обоснованного принятия решений и планирования.

Одним из менее очевидных преимуществ интеллектуального анализа данных и одной из основных причин, по которой сбор данных сегодня важен, является то, что он превращает накопление данных, которое часто сопровождается цифровизацией, в преимущество. По мере того, как организации все чаще модернизируют и переходят в цифровую форму своей деятельности, они стремятся генерировать и накапливать все больше и больше данных. Таким образом, для крупного предприятия, имеющего большие наборы данных, сбор данных позволяет эффективно использовать большой объем информации, которой они уже обладают.

Почему сбор данных важен?

Сбор данных важен, поскольку он превращает данные организации в ключевой компонент бизнес-аналитики. Инструменты сбора данных встроены в информационные панели руководителей, собирающие ценную информацию из больших данных, включая данные из социальных сетей, каналов датчиков Интернета вещей (IoT), устройств с поддержкой местоположения, неструктурированного текста, видео и т. д. Современный сбор данных основан на облачных и виртуальных вычислениях, а также базах данных in-memory для экономичного управления данными из многих источников и масштабирования по запросу.

Какую бизнес-ценность может принести сбор данных? Основным преимуществом сбора данных является его способность определять закономерности и взаимосвязи в больших объемах данных из различных источников, включая социальные сети, удаленные датчики и другое контрольное оборудование, все более подробные отчеты о движении продуктов и рыночной активности и, что крайне важно, приложения и другое программное обеспечение, используемое организацией.

Это означает две вещи. Сбор данных может помочь людям, выполняющим различные роли в различных отраслях, мыслить нестандартно, опираясь на широкий спектр источников и выявляя неочевидные связи и закономерности в, казалось бы, несвязанных кусочках информации. Это делает сбор данных важным для крупных организаций, особенно для предприятий, где информация, как правило, разрозненна.

Более того, преимущества сбора данных распространяются не только на продажи, но и на другие бизнес-сферы: благодаря этой возможности для устранения разрозненности она может расширить возможности широкого круга ролей. Инженеры и проектировщики могут анализировать эффективность изменений продукта и искать возможные причины успеха или неудачи продукта. Сервисные и ремонтные операции позволяют лучше планировать запасы запчастей и укомплектование персоналом. Организации сферы профессиональных услуг могут использовать сбор данных для выявления новых возможностей, создаваемых изменением экономических тенденций и демографических сдвигов. Сбор данных может даже помочь обнаружить мошенничество, особенно в таких отраслях, как финансы, розничная торговля и здравоохранение.

Другими словами, потенциальные преимущества сбора данных охватывают весь спектр бизнес-функций: от повышения выручки и сокращения затрат до улучшения отношений с клиентами, предотвращения мошенничества и точной настройки прогнозирования продаж.

Сбор данных важен, поскольку он может принести существенную бизнес-ценность для ряда целей, например:

Как работает сбор данных?

Проще говоря, сбор данных работает с помощью машинного обучения, статистического анализа и других аналитических инструментов для синтаксического анализа больших наборов необработанных данных и выявления скрытых закономерностей, которые можно использовать для получения ценной информации. Фактические методы и шаги сбора данных зависят от типа задаваемых вопросов, а также от содержимого и организации базы данных или наборов данных, предоставляющих сырье для поиска и анализа. Таким образом, есть несколько шагов, которые обычно включает в себя процесс сбора данных.

5-шаговый процесс сбора данных

1. Сбор данных:

2. Предварительная обработка данных:

3. Построение модели:

4. Оценка:

5. Толкование:

Ключевые методы сбора данных

Классификация

Один из распространенных методов сбора данных включает сортировку новых данных по предварительно определенным категориям на основе шаблонов, полученных из исторических данных: например, группирование клиентов на основе вероятности возврата путем анализа моделей покупок, истории платежей и уровней вовлеченности. Это поможет не только различать важные сегменты клиентов, но и углублять понимание отношений с клиентами.

Обнаружение аномалий

Обнаружение аномалий особенно важно для таких целей, как предотвращение мошенничества, сетевая безопасность и проверка идентичности. Например, этот метод сбора данных помогает выявить необычные операции по кредитным картам, отличающиеся от типичного использования клиента, на основе таких факторов, как неожиданные местоположения, необычные онлайн-покупки или нехарактерно большие суммы. Однако методы сбора данных также помогают находить новые предикторы, которые не столь очевидны, что позволяет перейти к следующему методу сбора данных.

Кластеризация

Кластеризация — это метод сбора данных, направленный на обнаружение естественных группировок, основанных на сходстве данных, а не на предопределенных предположениях (в отличие от классификации), в конечном итоге выявляя скрытые закономерности и взаимоотношения. В примере с кредитной картой кластеризация может выявить дополнительные флаги подозрительной деятельности. Например, исторические данные из аккаунтов, которые страдали от мошенников, могут показать, что статистически значимая часть из них имеет другое сходство: возможно, все они показали закономерность небольших тестовых покупок у конкретного торговца, за которыми следуют крупные сделки. Затем в будущем эту модель можно будет использовать для обнаружения мошеннической деятельности в реальном времени.

Правила ассоциации

Другим ключевым методом сбора данных является сбор правил ассоциации: связывание двух, казалось бы, несвязанных событий или операций. Представьте, что вы пытаетесь оптимизировать размещение продуктов в супермаркете, чтобы максимизировать продажи. Не требуется сбор данных, чтобы предполагать, что, скажем, клиенты, которые покупают подгузники, также, скорее всего, купят другие детские продукты, такие как детские салфетки. Но этот метод сбора данных может обнаружить другие, менее очевидные возможности кросс-селлинга: возможно, вы заметите, что клиенты, которые летом запасают на одноразовые столовые приборы, также чаще покупают средства от насекомых и зефиры. Эти продукты, как правило, находятся на разных островах продуктов, но сбор данных может указывать на сезонную закупочную миссию: получение поставок для проведения времени на открытом воздухе. В этом сценарии метод сбора данных правил ассоциации поможет розничному торговцу использовать эту сезонную возможность.

Регрессия

Один из методов сбора математических данных, регрессионный анализ прогнозирует число на основе исторических закономерностей. Это классический инструмент, используемый во многих областях и контекстах, включая прогнозирование продаж, прогнозирование цен на акции и финансовый анализ.

Обратите внимание, что это всего лишь несколько наиболее распространенных типов методов сбора данных, часто доступных в наборах инструментов для сбора данных.

Приложения и примеры сбора данных

К примерам использования сбора данных относятся анализ настроений, оптимизация цен, маркетинг баз данных, управление кредитными рисками, обучение и поддержка, выявление мошенничества, медицинские и медицинские диагнозы, оценка рисков, системы рекомендаций по кросс-селлингу и апселлингу и многое другое. И это может быть эффективным инструментом в любой отрасли — от розничной и оптовой торговли до производства, здравоохранения и финансов.

Ключевые сценарии использования сбора данных

Разработка продукции

Компании, которые проектируют, производят или распространяют физические продукты, могут использовать сбор данных для выявления возможностей более эффективной нацеленности на свои продукты путем анализа моделей закупок в сочетании с экономическими и демографическими данными. Дизайнеры и инженеры также могут ссылаться на отзывы клиентов и пользователей, записи ремонта и другие данные для определения возможностей улучшения продукта. А лица, принимающие бизнес-решения, могут даже выбирать, какие новые типы продуктов следует представить, исходя из того, что клиенты обычно ищут для покупки вместе с текущими продуктами.

Примеры сбора данных, используемого для руководства разработкой продукта:

Производство

Производители могут отслеживать тенденции качества, данные по ремонту, объемы производства и данные о производительности продукции на местах для выявления проблем, связанных с производством. Они также могут распознавать возможные обновления процессов, которые улучшают качество, экономят время и ресурсы, повышают производительность продукта и указывают на необходимость нового или более качественного заводского оборудования.

Примеры сбора данных, используемого для оптимизации производственных процессов:

Отрасли обслуживания

В сфере услуг компании могут найти похожие возможности для улучшения обслуживания, используя перекрестные ссылки на отзывы клиентов (прямые или из социальных сетей или других источников) с определенными сервисами, каналами, случаями поддержки клиентов, данными о производительности конкурентов, регионами, ценами, демографическими данными, экономическими данными и другими факторами.

Примеры сбора данных, используемые для обеспечения персонализации клиентов в сфере услуг:

Прогнозирование продаж

Независимо от отрасли сбор данных бесценен для прогнозирования и планирования продаж. Аналитика на основе данных позволяет прогнозировать колебания спроса, уточнять анализ рынка, прогнозировать изменения цен и многое другое.

Примеры сбора данных, используемые для уточнения прогнозирования продаж:

Обнаружение мошенничества

Сбор данных широко используется в выявлении мошенничества — приведенный выше пример кредитной карты является лишь одним из многих случаев предотвращения мошенничества при сборе данных. Метод обнаружения аномалий помогает помечать подозрительные выбросы, но и другие методы сбора данных также полезны, помогая выявлять новые закономерности и постоянно совершенствовать меры по предотвращению мошенничества.

Примеры сбора данных, используемые для улучшения выявления мошенничества:

Преимущества и проблемы сбора данных

Большинство недостатков сбора данных перевешиваются его преимуществами, но есть определенные проблемы, связанные с сбором данных, о которых организациям необходимо знать.

Большие данные

Преимущество: все больше и больше данных генерируется, предлагая все больше возможностей для сбора данных и, как следствие, более эффективного принятия решений.

Проблема: из-за большого объема, высокой скорости и широкого спектра структур данных, а также растущей распространенности неструктурированных данных существующие системы испытывают трудности с обработкой, хранением и использованием этого потока входных данных. Таким образом, для извлечения смысла из больших данных компаниям необходимо соответствующее мощное программное обеспечение.

Компетенция пользователя

Преимущества. Инструменты сбора и анализа данных помогают пользователям и другим заинтересованным лицам принимать более обоснованные решения на основе данных.

Задача: Несмотря на то, что инструменты, используемые для сбора данных, стали гораздо более удобными для пользователей, для их использования в полной мере требуется обучение. Пользователям необходимо понимать, какие данные доступны, иметь хотя бы общее представление о том, как работает сбор данных, и быть опытными в бизнес-контексте, а также соблюдать нормативные и нормативные требования, связанные с использованием данных — все это требует определенного обучения пользователей.

Конфиденциальность данных и контроль нормативных требований

Преимущество: персонализация, обеспечиваемая аналитикой на основе данных, может улучшить клиентский опыт.

Задача. Данные, особенно данные пользователей, принадлежащие частным лицам, подлежат надзору со стороны регуляторов. Однако фактические методы и нормативные акты в области защиты данных различаются в зависимости от региона и по-прежнему подвержены изменениям, поэтому организации, обрабатывающие данные, могут оставаться в курсе событий.

Качество и доступность данных

Преимущества. Все более крупные объемы и разнообразие доступных данных делают сбор данных более важным, чем когда-либо.

Проблема. Объем новых данных также содержит множество неполных, некорректных, вводящих в заблуждение, мошеннических, поврежденных или просто неиспользуемых данных. Пользователи должны всегда знать источник данных, их достоверность и надежность, а также проблемы конфиденциальности и защиты данных; организации должны нести ответственность за защиту своих, а также данных своих клиентов от нарушений и других ненадлежащих обращений.

Сбор данных и связанные концепции

Сбор данных и машинное обучение

Разница между сбором данных и машинным обучением заключается в том, что машинное обучение представляет собой набор инструментов и алгоритмов, обученных находить закономерности и корреляции в больших наборах данных, в то время как сбор данных — это процесс извлечения полезной информации из накопления данных. Машинное обучение — это один из инструментов, используемых в сборе данных для построения прогнозных моделей, но это не единственный инструмент, ни сбор данных не является единственным приложением машинного обучения.

Сбор данных и аналитика

Существует тонкое различие между сбором и аналитикой данных. Анализ или анализ данных — это общие термины для широкого набора практик, ориентированных на выявление полезной информации, ее оценку и предоставление конкретных ответов. Сбор данных — это один из типов анализа данных, предназначенный для сбора больших объединенных наборов данных для выявления закономерностей, трендов и отношений, которые могут привести к анализу и прогнозированию.

Сбор данных и анализ данных

Интеллектуальная обработка данных — это не то же самое, что сбор данных, но концепции связаны между собой. Наука о данных — это термин, который включает в себя множество информационных технологий, включая статистику, математику и сложные вычислительные методы, применяемые к данным. Сбор данных — это сценарий использования науки о данных, ориентированный на анализ больших наборов данных из широкого спектра источников с целью получения полезной информации.

Сбор данных и хранилище данных

Хранилище данных представляет собой совокупность данных, как правило, из нескольких источников (ERP, CRM и т. д.), которые компания будет объединять в хранилище для архивного хранения и широкого анализа, например, сбора данных.

Часто задаваемые вопросы

Неудачный сбор данных?
Сбор данных не является ни хорошим, ни плохим — это инструмент, и, как и большинство инструментов, он может быть полезен при безопасной и правильной обработке. Другими словами, сбор данных может быть очень полезен для организации, но может включать обработку конфиденциальных типов данных, включая данные клиентов, поэтому он требует строгого соблюдения предписаний о конфиденциальности данных и надлежащей безопасности для защиты данных.
Каковы наиболее распространенные методы сбора данных?
Наиболее распространенными методами сбора данных являются ассоциативные правила, обнаружение аномалий (также называемое обнаружением резко выделяющихся значений), классификация, кластеризация и регрессия.
В каких отраслях используется сбор данных?
Сбор данных используется в таких отраслях, как образование, здравоохранение, финансы и инвестиции, производство, розничная торговля, сфера услуг, телекоммуникации, ИТ и многие другие отрасли. В цифровую эпоху сбор данных важен и может быть полезным инструментом для каждой отрасли.
Как чаще всего используется сбор данных?
Наиболее распространенным применением сбора данных является информирование лиц, принимающих решения, и совершенствование стратегий и планирования, поэтому оно имеет широкий спектр приложений для разработки продуктов, маркетинга и коммуникаций, продаж, управления логистической цепочкой (SCM), предотвращения мошенничества, обслуживания клиентов и обслуживания клиентов, а также управления персоналом (HR). Проще говоря, сбор данных может быть полезен в большинстве областей бизнеса.