Что такое интеллектуальный анализ данных (data mining)?
Сбор данных — это процесс использования расширенных аналитических инструментов для извлечения полезной информации из накопления данных.
Обзор сбора данных
Сбор данных — это процесс извлечения полезной информации из накопления данных, часто из хранилища данных или сбора связанных наборов данных. Инструменты сбора данных включают мощные статистические, математические и аналитические возможности, основная цель которых состоит в просечении больших наборов данных для выявления тенденций, закономерностей и взаимосвязей для поддержки принятия обоснованных решений и планирования.
Часто связанные с запросами отделов маркетинга, сбор данных многими руководителями рассматривается как способ помочь им лучше понять спрос и увидеть влияние изменений в продуктах, ценах или рекламных мероприятиях на продажи. Однако сбор данных имеет значительные преимущества и для других бизнес-сфер. Инженеры и дизайнеры могут анализировать эффективность изменений продукта и искать возможные причины успеха продукта или отказа, связанные с тем, как, когда и где используются продукты. Сервисные и ремонтные операции позволяют лучше планировать запасы запчастей и укомплектовать их персоналом. Организации, оказывающие профессиональные услуги, могут использовать сбор данных для выявления новых возможностей в результате изменения экономических тенденций и демографических сдвигов.
Сбор данных становится более полезным и ценным при работе с большими наборами данных и улучшенным пользовательским интерфейсом. Логично, что чем больше данных, тем больше аналитики и аналитики должны быть там захоронены. Кроме того, поскольку пользователи лучше знакомятся с инструментами и лучше понимают базу данных, тем более креативными они могут быть с их исследованиями и анализами.
Зачем использовать сбор данных?
Основным преимуществом сбора данных является его способность выявлять закономерности и взаимосвязи в больших объемах данных из нескольких источников. Благодаря все большему количеству доступных данных из различных источников, таких как социальные сети, удаленные датчики и все более подробные отчеты о движении продукции и деятельности на рынке, сбор данных предоставляет инструменты для полноценного использования больших данных и превращения их в интеллектуальную информацию, дающую основания для действий. Более того, он может выступать в качестве механизма «мышления вне коробки».
Процесс сбора данных может обнаружить удивительные и интригующие связи и закономерности в, казалось бы, несвязанных фрагментах информации. Поскольку информация, как правило, разделена, исторически трудно или невозможно проанализировать в целом. Однако может существовать связь между внешними факторами, например демографическими или экономическими, и производительностью продукции компании. И хотя руководители регулярно смотрят на показатели продаж по регионам, линейкам продуктов, каналам сбыта и регионам, им часто не хватает внешнего контекста для этой информации. Их анализ указывает на «то, что произошло», но мало что делает, чтобы понять, «почему это произошло таким образом». Сбор данных может заполнить этот пробел.
Сбор данных может искать корреляции с внешними факторами; хотя корреляция не всегда указывает на причинно-следственную связь, эти тенденции могут быть ценными индикаторами для принятия решений по продуктам, каналам и производству. Такой же анализ полезен и для других аспектов бизнеса — от проектирования продукта до операционной эффективности и предоставления услуг.
История сбора данных
Люди собирают и анализируют данные на протяжении тысяч лет, и во многих отношениях процесс остался прежним: определение необходимой информации, поиск качественных источников данных, сбор и объединение данных, использование наиболее эффективных инструментов для анализа данных и использование полученных знаний. По мере роста и развития вычислительных систем и систем на основе данных появились инструменты для управления данными и их анализа. Реальный перепад пришёлся на 1960-е годы с разработкой технологии реляционных баз данных и ориентированных на пользователя инструментов обработки запросов на естественном языке, таких как Structured Query Language (SQL). Данные больше не были доступны только через пользовательские программы. Благодаря этому прорыву бизнес-пользователи могли в интерактивном режиме исследовать свои данные и дразнить скрытые драгоценные камни аналитики, спрятанные внутри.
Сбор данных традиционно является специализированным набором навыков в области анализа и обработки данных. Каждое новое поколение аналитических инструментов, однако, начинает нуждаться в продвинутых технических навыках, но быстро развивается, чтобы стать доступным для пользователей. Ключевым моментом является интерактивность – способность позволять данным разговаривать с вами. Задайте вопрос; см. ответ. На основе полученных знаний задайте другой вопрос. Этот вид неструктурированного роуминга через данные выходит за рамки специфичной для приложения структуры базы данных и позволяет обнаружить взаимосвязи, пересекающие функциональные и организационные границы.
Сбор данных является ключевым компонентом бизнес-аналитики. Инструменты сбора данных встроены в информационные панели для руководителей, собирающие ценную информацию из больших данных, включая данные из социальных сетей, каналы датчиков Интернета вещей (IoT), устройства с учетом местоположения, неструктурированный текст, видео и многое другое. Современный сбор данных основан на облачных и виртуальных вычислениях, а также на базах данных in-memory для экономичного управления данными из многих источников и масштабирования по запросу.
Как работает сбор данных?
Существует примерно столько же подходов к сбору данных, сколько и специалистов по сбору данных. Подход зависит от вида задаваемых вопросов, а также от содержания и организации базы данных или наборов данных, предоставляющих сырье для поиска и анализа. При этом необходимо завершить ряд организационных и подготовительных шагов для подготовки данных, инструментов и пользователей:
- Поймите проблему – или, по крайней мере, область запроса. Ответственному за принятие бизнес-решений, который должен находиться на месте водителя для этой внедорожной разведки данных, требуется общее представление о домене, в котором они будут работать – о типах внутренних и внешних данных, которые должны быть частью этого исследования. Предполагается, что они обладают глубокими знаниями о бизнесе и соответствующих функциональных сферах.
- Сбор данных. Начните с внутренних систем и баз данных. Свяжите их с помощью моделей данных и различных реляционных инструментов или соберите данные в хранилище данных. Сюда относятся все данные из внешних источников, которые являются частью ваших операций, такие как данные о продажах и/или обслуживании на местах, Интернет вещей или данные социальных сетей. Поиск и получение прав на внешние данные, включая демографию, экономические данные и рыночную информацию, такие как отраслевые тенденции и финансовые ориентиры от торговых ассоциаций и правительств. Перенесите их в область действия набора инструментов (включите их в хранилище данных или свяжите со средой сбора данных).
- Подготовка и понимание данных. Используйте тематических экспертов для определения, классификации и организации данных. Эта часть процесса иногда называется преобразованием или разбором данных. Некоторым данным может потребоваться очистка или "очистка" для устранения дубликатов, несоответствий, неполных записей или устаревших форматов. Подготовка и очистка данных могут быть текущей задачей по мере того, как интерес приобретают новые проекты или данные из новых областей запроса.
- Обучение пользователей. Вы бы не дали подростку ключи от семьи Ferrari, не пройдя обучение водителю, обучение на дороге и некоторую контролируемую практику с лицензированным водителем, поэтому обязательно проведите формальное обучение будущих специалистов по обработке данных, а также некоторую контролируемую практику, когда они начнут знакомиться с этими мощными инструментами. Продолжение образования также является хорошей идеей после того, как они освоили основы и могут перейти к более продвинутым методам.
Методы сбора данных
Помните, что сбор данных основан на наборе инструментов, а не на фиксированной рутине или процессе. Конкретные методы сбора данных, приведенные здесь, являются лишь примерами того, как организации используют инструменты для изучения их данных в поиске тенденций, корреляций, аналитики и бизнес-анализа.
Вообще говоря, подходы к сбору данных можно классифицировать как направленные, ориентированные на конкретный желаемый результат, или ненаправленные как процесс обнаружения. Другие исследования могут быть направлены на сортировку или классификацию данных, таких как группировка потенциальных клиентов по бизнес-атрибутам, таким как отрасль, продукты, размер и местоположение. Аналогичная цель, выброс или обнаружение аномалий представляет собой автоматизированный метод распознавания реальных аномалий (а не простой изменчивости) в наборе данных, отображающем идентифицируемые закономерности.
Ассоциация
Еще одной интересной целью является объединение – связывание двух, казалось бы, не связанных друг с другом событий или мероприятий. Классическая история из первых дней аналитики и сбора данных, возможно, фиктивная, имеет сеть магазинов, обнаруживающих корреляцию между продажами пива и подгузников. Предполагая, что новые отцы, которые бегут поздно вечером, чтобы получить подгузники, могут схватить пару шести пачек, пока они там. Магазины размещают пиво и подгузники в непосредственной близости и в результате увеличивают продажи пива.
Кластеризация
Этот подход нацелен на группирование данных по сходству, а не по предварительно определенным допущениям. Например, при сборе информации о продажах клиентов в сочетании с внешними потребительскими кредитными и демографическими данными можно обнаружить, что наиболее прибыльные клиенты относятся к городам среднего бизнеса. В значительной степени сбор данных выполняется для поддержки прогнозирования и прогнозирования. Чем лучше вы понимаете закономерности и поведение, тем лучше можно прогнозировать будущие действия, связанные с причинно-следственными связями или корреляциями.
Регрессия
Один из математических методов, предлагаемых в наборах инструментов для сбора данных, регрессионный анализ прогнозирует число на основе исторических закономерностей, проецируемых на будущее. Различные другие алгоритмы обнаружения шаблонов и отслеживания предоставляют гибкие инструменты, которые помогают пользователям лучше понимать данные и их поведение. Это лишь некоторые методы и инструменты, доступные в наборах инструментов для сбора данных. Выбор инструмента или техники несколько автоматизирован в том смысле, что методы будут применяться в зависимости от того, как поставлен вопрос. Ранее сбор данных назывался "срезом и разрезанием" базы данных, но сейчас эта практика является более сложной, и такие термины, как ассоциация, кластеризация и регрессия, являются обычными.
Сценарии использования и примеры.
Сбор данных является ключом к анализу настроений, оптимизации цен, маркетингу баз данных, управлению кредитными рисками, обучению и поддержке, выявлению мошенничества, медицинскому обслуживанию и медицинским диагнозам, оценке рисков, системам рекомендаций («клиентам, купившим это тоже понравилось…») и многое другое. Это может быть эффективным инструментом как раз в любой отрасли, включая розничную торговлю, оптовую торговлю, сферы услуг, телекоммуникации, коммуникации, страхование, образование, производство, здравоохранение, банковское дело, науку, инжиниринг, и онлайн-маркетинг или социальные сети.
Разработка продукции: компании, разрабатывающие, изготавливающие или распространяющие физические продукты, могут выявлять возможности для оптимизации целевых показателей своей продукции, анализируя покупательские модели в сочетании с экономическими и демографическими данными. Их дизайнеры и инженеры также могут ссылаться на отзывы клиентов и пользователей, записи о ремонте и другие данные для выявления возможностей улучшения продукта.
Производство. Производители могут отслеживать тенденции в области качества, ремонтные данные, объемы производства и эффективность продукции на местах для выявления проблем с производством. Они также могут распознать возможные обновления процессов, которые позволят повысить качество, сэкономить время и затраты, повысить производительность продукта и/или указать на потребность в новом или улучшенном заводском оборудовании.
Отрасли обслуживания: в сфере услуг пользователи могут найти похожие возможности для улучшения продукта, используя перекрестные ссылки на отзывы клиентов (напрямую, из социальных сетей или других источников) с конкретными сервисами, каналами, данными об эффективности коллег, регионах, ценах, демографических данных, экономических данных и т. д.
Наконец, все эти результаты должны быть возвращены к прогнозированию и планированию, чтобы вся организация была адаптирована к ожидаемым изменениям спроса, основанным на более глубоких знаниях о клиенте, и иметь больше возможностей для использования новых возможностей.
Проблемы сбора данных
Большие данные. Данные генерируются быстрыми темпами и открывают все больше возможностей для сбора данных. Однако современные инструменты сбора данных необходимы для извлечения смысла из больших данных с учетом большого объема, высокой скорости и широкого спектра структур данных, а также увеличения объема неструктурированных данных. Многие существующие системы изо всех сил пытаются справиться, хранить и использовать этот поток входных данных.
Компетенция пользователей: инструменты для сбора и анализа данных помогают пользователям и лицам, ответственным за принятие решений, использовать смысл и аналитику на основе больших массивов данных. Эти мощные инструменты обладают высокой технической степенью технической поддержки и отличаются превосходным дизайном пользовательского интерфейса, поэтому практически любой пользователь может использовать эти инструменты с минимальным объемом обучения. Однако для получения всех преимуществ пользователь должен понимать доступные данные и бизнес-контекст информации, которую он ищет. Они также должны знать, по крайней мере в целом, как работают инструменты и что они могут сделать. Это не выходит за рамки среднего руководителя или руководителя, но это процесс обучения, и пользователям необходимо приложить определенные усилия для развития этого нового набора навыков.
Качество и доступность данных. При наличии больших массивов новых данных также существуют массивы неполных, неверных, вводящих в заблуждение, мошеннических, поврежденных или просто бесполезных данных. Инструменты могут помочь разобраться в этом, но пользователи должны постоянно осознавать источник данных, их достоверность и надежность. Вопросы конфиденциальности также важны, как с точки зрения получения данных, так и ухода и обработки, как только они находятся в вашем распоряжении.
Часто задаваемые вопросы по сбору данных
Расширьте свои знания в области управления данными
Узнайте о процессе управления данными и его преимуществах.
Идеи, которые вы больше нигде не найдете
Зарегистрируйтесь, чтобы получить дозу бизнес-информации и аналитики, доставляемую прямо в ваш почтовый ящик.