Что такое большие данные?
Большие данные — это океан информации, в который мы ежедневно погружаемся: зеттабайты данных, поступающих с наших компьютеров, мобильных устройств и аппаратных датчиков.
Подробное определение больших данных
Большие данные — это океан информации, в который мы ежедневно погружаемся: зеттабайты данных, поступающих от наших компьютеров, мобильных устройств и аппаратных датчиков. Эти данные используются организациями для принятия решений, оптимизации процессов и политик, а также для создания ориентированных на клиента продуктов, услуг и клиентского опыта. Слово «большие» в этом определении говорит не только об объеме данных, но и о разнообразии и сложности их характера. Как правило, они превышают возможности традиционных баз данных по сбору, управлению и обработке данных. Кроме того, большие данные могут поступать из любой точки земного шара и от любого устройства, которое мы можем отслеживать в цифровом формате. Метеорологические спутники, устройства Интернета вещей (IoT), дорожные камеры, тенденции в социальных сетях — вот лишь несколько источников данных, которые извлекаются и анализируются ради повышения устойчивости и конкурентоспособности компаний.
Значение аналитики больших данных
Истинная ценность больших данных измеряется уровнем возможности их анализа и понимания. Искусственный интеллект (ИИ), машинное обучение и современные технологии баз данных позволяют визуализировать и анализировать большие данные в режиме реального времени и получать ценную информацию для последующих действий. Аналитика больших данных помогает компаниям эффективно использовать имеющиеся данные для реализации новых возможностей и разработки бизнес-моделей. Джеффри Мур (Geoffrey Moore), автор и аналитик в области управления, метко заметил: «Без анализа больших данных компании остаются слепыми и глухими; они блуждают по интернету, словно олени по автостраде».
Эволюция больших данных
Как бы немыслимо сегодня, Apollo Guidance Computer доставил на Луну первый космический корабль с менее чем 80 килобайтами памяти. С тех пор компьютерные технологии росли экспоненциально – и генерация данных вместе с ними. По сути, с 1980-х годов мировой технологический потенциал хранения данных удваивается примерно каждые три года. Чуть более 50 лет назад, когда Apollo 11 взлетел, объем цифровых данных, генерируемых во всем мире, мог бы уместиться на среднем ноутбуке. В 2020 году по оценкам Statista было создано или тиражировано 64.2ZB данных и «Объем цифровых данных, созданных в течение следующих пяти лет, будет больше, чем в два раза больше объема данных, созданных с момента появления цифрового хранилища».
64,2
зеттабайт
цифровых данных, созданных в 2020 году,
2
x
объем данных будет создан в течение следующих 5 лет
По мере совершенствования программных продуктов и технологий нецифровые системы оказываются все менее жизнеспособными. Данные, создаваемые и собираемые цифровыми способами, требуют все более сложных систем управления для их обработки. Кроме того, экспоненциальный рост платформ социальных сетей, технологий смартфонов и устройств Интернета вещей, подключенных к цифровым каналам, также способствовал наступлению эпохи больших данных.
Типы больших данных: что такое структурированные и неструктурированные данные?
Наборы данных обычно делятся на три типа в зависимости от их структуры и того, насколько просто (или сложно) индексировать их.
Три типа больших данных
- Структурированные данные. Это самый простой тип данных с точки зрения организации и поиска. В него входят, например, финансовые данные, журналы работы оборудования и демографические данные. Электронная таблица Excel с заранее определенными столбцами и строками служит удобным способом представления структурированных данных. Ее компоненты можно легко распределять по категориям, что позволяет разработчикам и администраторам баз данных определять простые алгоритмы поиска и анализа. Но даже если структурированные данные имеют огромный объем, они необязательно являются большими данными, поскольку сами по себе структурированные данные относительно просты в управлении и поэтому не соответствуют определяющим критериям больших данных. Традиционно для управления структурированными данными, хранящимися в базе данных, используется язык программирования под названием Structured Query Language (SQL). Разработанный IBM в 1970-х годах, язык SQL предназначен для того, чтобы дать разработчикам возможность создавать реляционные базы данных (в стиле электронных таблиц), которые в тот период начали приобретать популярность.
- Неструктурированные данные. Эта категория данных может включать такие объекты, как публикации в социальных сетях, аудиофайлы, изображения и комментарии клиентов с вопросами открытого типа. Этот вид данных непросто организовать в стандартные реляционные базы данных со столбцами и строками. Традиционно компаниям, которым требовались поиск, управление или анализ больших объемов неструктурированных данных, приходилось использовать трудоемкие ручные процессы. Вопроса о потенциальной ценности анализа и понимания таких данных никогда не возникало, однако стоимость анализа зачастую была непосильно высока, что делало его нецелесообразным. В связи с высокой продолжительностью обработки результаты зачастую устаревали еще до их получения. Вместо электронных таблиц или реляционных баз данных, неструктурированные данные обычно хранятся в озерах данных, хранилищах данных и базах данных NoSQL.
- Полуструктурированные данные. Как понятно из названия, полуструктурированные данные представляют собой гибрид структурированных и неструктурированных данных. Наглядным примером служат сообщения электронной почты: они могут включать неструктурированные данные в теле сообщения, а также такие организационные параметры, как отправитель, получатель, тема и дата. Устройства, использующие геопозиционирование, временные метки или семантические теги, также могут предоставлять структурированные данные наряду с неструктурированным контентом. Например, неопознанное изображение со смартфона может дать информацию о его категории (селфи), а также времени и месте съемки. Современная база данных, работающая на основе технологии ИИ, способна не только мгновенно идентифицировать различные типы данных, но и генерировать в реальном времени алгоритмы для эффективного управления разрозненными наборами данных и их анализа.
Источники больших данных
Спектр устройств, генерирующих данные, стремительно растет — в нем можно найти самые разные объекты, от беспилотных летательных аппаратов до тостеров. Однако в целях категоризации источники данных, как правило, подразделяются на три типа:
Данные социальных сетей
По своему определению данные социальных сетей генерируются комментариями, публикациями, изображениями и в значительном объеме видеороликами в социальных сетях. Согласно оценкам, в связи с ростом распространенности сотовых сетей стандартов 4G и 5G число людей в мире, регулярно просматривающих видеоконтент на своих смартфонах, увеличится до 2,72 миллиарда к 2023 году. Несмотря на то что тенденции в социальных сетях и способах их использования склонны быстро и непредсказуемо меняться, их роль стабильного генератора цифровых данных остается неизменной.
Данные с устройств и машин
Устройства и машины Интернета вещей оснащены датчиками и способны отправлять и получать цифровые данные. Датчики Интернета вещей помогают компаниям собирать и обрабатывать машинные данные с устройств, транспортных средств и оборудования во всех подразделениях компании. Во всем мире быстро растет количество генерирующих данные устройств — от датчиков погоды и дорожного движения до систем охранного видеонаблюдения. Согласно оценкам IDC, к 2025 году во всем мире будет работать более 40 миллиардов устройств Интернета вещей, генерирующих почти половину общемирового объема цифровых данных.
Данные транзакций
Это один из самых быстрорастущих типов данных в мире. Например, крупная международная компания розничной торговли обрабатывает более миллиона транзакций с клиентами в час. А если добавить к этому все мировые закупочные и банковские операции, вы получите представление об ошеломляющем объеме генерируемых данных. Кроме того, транзакционные данные все чаще являются полуструктурированными, включая такие объекты, как изображения и комментарии, что усложняет управление и обработку.
Пять главных признаков больших данных
Большой размер набора данных не превращает его автоматически в большие данные. Чтобы данные можно было отнести к этой категории, они должны соответствовать по меньшей мере этим пяти признакам:
Пять признаков больших данных
- Объем. Хотя объем не является единственным признаком тех самых «больших» данных, это, безусловно, их основная характеристика. Для полноценного управления большими данными и их использования необходимы передовые алгоритмы и аналитика на основе ИИ. Но прежде чем с ними можно будет что-то сделать, необходимо разработать надежные и безопасные средства хранения, организации и извлечения многих терабайт данных, имеющихся в крупных компаниях.
- Скорость. В прошлом все созданные данные приходилось вначале вносить в традиционную систему управления базой данных (причем нередко вручную), прежде чем их можно было проанализировать или извлечь. Сегодня технология управления большими данными позволяет базам данных обрабатывать, анализировать и настраивать данные уже во время их генерации, иногда в течение миллисекунд. Для компаний это означает, что данные в режиме реального времени могут использоваться для выявления финансовых возможностей, реагирования на потребности клиентов, предотвращения мошенничества и решения любых других важных задач, требующих высокой скорости.
- Разнообразие. Наборы данных, состоящие исключительно из структурированных данных, необязательно являются большими данными — независимо от объема. Большие данные обычно состоят из комбинации структурированных, неструктурированных и полуструктурированных данных. Традиционным базам данных и решениям для управления данными недостает гибкости и масштаба для управления сложными и разрозненными наборами данных, составляющими большие данные.
- Достоверность. Современные технологии баз данных позволяют компаниям накапливать огромные объемы больших данных различных типов, однако они ценны только в том случае, если являются точными, актуальными и своевременными. Для традиционных баз данных, заполнявшихся только структурированными данными, отклонения от необходимого уровня точности данных вызывались, как правило, синтаксическими ошибками и опечатками. При наличии неструктурированных данных появляется совершенно новый класс проблем, связанных с достоверностью. Предвзятое отношение, оглядка на мнение других людей, проблемы с происхождением данных — все это может повлиять на качество данных.
- Ценность. Несомненно, результаты анализа больших данных часто оказываются впечатляющими и неожиданными. Однако компаниям необходима аналитика больших данных, которая будет предоставлять им ценную информацию, способную повысить конкурентоспособность и устойчивость и улучшить качество обслуживания клиентов. Современные технологии работы с большими данными открывают возможность сбора и извлечения данных, что дает измеримые преимущества с точки зрения финансовых результатов и операционной устойчивости.
Преимущества больших данных
Современные решения для управления большими данными позволяют компаниям превращать необработанные данные в актуальную аналитическую информацию, обеспечивая беспрецедентные скорость и точность.
Разработка продуктов и услуг. Аналитика больших данных позволяет разработчикам продуктов анализировать неструктурированные данные, такие как отзывы клиентов и культурные тенденции, и быстро реагировать на них.
Диагностическое техническое обслуживание. В ходе международного опроса компания McKinsey обнаружила, что анализ больших данных с устройств с поддержкой Интернета вещей позволил снизить затраты на техническое обслуживание оборудования на 40%.
Клиентский опыт. В ходе опроса глобальных лидеров компаний, проведенного gartner в 2020 году, было установлено, что «растущие компании активнее собирают данные об опыте взаимодействия с клиентами, чем небыстрорастущие компании». Анализ больших данных позволяет компаниям улучшать и персонализировать взаимодействие клиентов с брендом. Помимо больших данных, специалисты по клиентскому опыту все чаще принимают во внимание «толстые данные». Качественное представление о наблюдениях, чувствах и реакциях клиентов повышает качество больших данных и дает компаниям более полное представление о своих клиентах.
Устойчивость и управление рисками. Пандемия COVID-19 серьезно встряхнула многих руководителей компаний, которые внезапно поняли, насколько их операции уязвимы и подвержены срывам. Анализ больших данных позволяет компаниям прогнозировать риски и готовиться к внезапным изменениям.
Экономия затрат и повышение эффективности. Когда компании встраивают расширенную аналитику больших данных во все процессы организации, им удается не только выявлять проблемные аспекты, но и внедрять быстрые и эффективные решения.
Повышение конкурентоспособности. Ценная информация, полученная из больших данных, способна помочь компаниям экономить средства, удовлетворять потребности клиентов, повышать качество продукции и внедрять инновации в свои бизнес-операции.
ИИ и большие данные
Управление большими данными осуществляется при помощи систем, способных обрабатывать и эффективно анализировать огромные объемы разрозненной и сложной информации. В этом отношении между большими данными и ИИ существует определенная взаимосвязь. На практике большие данные невозможно использовать без привлечения ИИ для их организации и анализа. В свою очередь, качество ИИ зависит от широты наборов данных, содержащихся в больших данных; это обеспечивает достаточную надежность аналитики и позволяет совершать рациональные действия на ее основе. Как отмечает аналитик Forrester Research Брэндон Перселл (Brandon Purcell), «данные — это источник жизненной силы для искусственного интеллекта. Система ИИ должна учиться на данных, чтобы получить возможность выполнять свои функции».
" данные - это жизненная сила ИИ. Система ИИ должна учиться на данных, чтобы выполнять свои функции.&предложение;
Брэндон Перселл (Brandon Purcell), аналитик, Forrester Research
Помимо больших данных, организации все чаще используют "небольшие данные" для обучения алгоритмов ИИ и машинного обучения. Небольшие наборы данных, такие как маркетинговые опросы, электронные таблицы, сообщения электронной почты, заметки о встречах и даже отдельные публикации в социальных сетях, часто игнорируются, но могут содержать ценную информацию. В конечном счете, чем больше материалов должны учиться алгоритмы, тем лучше будет выход.
Машинное обучение и большие данные
Алгоритмы машинного обучения определяют входящие данные и выявляют в них закономерности. Полученные знания используются для принятия обоснованных бизнес-решений и автоматизации процессов. Машинное обучение успешно работает на основе больших данных, поскольку чем надежнее анализируемые наборы данных, тем больше возможностей для обучения, постоянного развития и адаптации процессов системы.
Технологии больших данных
Архитектура больших данных
Подобно архитектуре в строительной отрасли, архитектура больших данных представляет собой концептуальный проект базовой структуры управления и анализа компаниями своих данных. Архитектура больших данных отображает процессы, необходимые для управления большими данными на четырех основных этапах их пути: от источников данных до хранения данных, анализа больших данных и, наконец, до уровня потребления, на котором анализируемые результаты представлены в виде бизнес-аналитики.
Аналитика больших данных
Этот процесс обеспечивает значимую визуализацию данных с помощью моделирования данных и алгоритмов, специфичных для характеристик больших данных. В ходе углубленного исследования и опроса, проведенного Школой управления MIT Sloan, более 2000 руководителей компаний были спросили об опыте их компании в области анализа больших данных. Неудивительно, что те, кто активно участвовал и поддерживал разработку своих стратегий управления большими данными, достигли самых ощутимых бизнес-результатов.
Большие данные и Apache Hadoop
Картина 10 дим в одной большой коробке, смешанной в со 100 никелями. Затем картина 10 меньших коробок, бок о бок, каждый с 10 никель и только один диме. В каком сценарии будет проще обнаружить димы? В основном Hadoop работает по этому принципу. Это фреймворк с открытым исходным кодом для управления распределенной обработкой больших данных по сети из множества подключенных компьютеров. Поэтому вместо использования одного большого компьютера для хранения и обработки всех данных Hadoop группирует несколько компьютеров в практически бесконечно масштабируемую сеть и параллельно анализирует данные. Этот процесс, как правило, использует модель программирования под названием MapReduce, которая координирует обработку больших данных, маршалируя распределённые компьютеры.
Озера данных, хранилища данных и NoSQL
Для хранения структурированных данных используются традиционные базы данных SQL в стиле электронных таблиц. Неструктурированные и полуструктурированные большие данные требуют уникальных парадигм хранения и обработки, так как они не поддаются индексированию и классификации. Нетрадиционными наборами данных управляют такие классы репозиториев, как озера данных, хранилища данных и базы данных NoSQL. Озеро данных представляет собой обширный пул «сырых» данных, которые еще предстоит обработать. В хранилище содержатся данные, уже обработанные для определенной цели. Базы данных NoSQL предоставляют гибкую схему, которая может быть изменена в соответствии с характером обрабатываемых данных. Каждая из этих систем имеет свои преимущества и недостатки, и многие компании используют сочетание различных репозиториев данных для оптимального удовлетворения своих потребностей.
Базы данных in-memory
Традиционные базы данных на дисках были разработаны с учетом технологий SQL и реляционных баз данных. Хотя они могут обрабатывать большие объемы структурированных данных, они просто не предназначены для лучшего хранения и обработки неструктурированных данных. При использовании баз данных in-memory обработка и анализ выполняются полностью в ОПЕРАТИВНОЙ ПАМЯТИ, а не из дисковой системы. Базы данных in-memory также основаны на распределенных архитектурах. Это означает, что они могут достичь гораздо большей скорости, используя параллельную обработку, в отличие от моделей баз данных с одним узлом на диске.
Как работают большие данные
Большие данные работают тогда, когда их анализ позволяет получить актуальную и действенную информацию, позволяющую ощутимо повысить результаты работы компании. При подготовке к трансформации для использования больших данных компаниям следует убедиться в готовности их систем и процессов к сбору, хранению и анализу больших данных.
Три главных этапа работы с большими данными
- Сбор больших данных. Большие данные в значительной мере состоят из огромных наборов неструктурированных данных, поступающих из разрозненных и несогласованных источников. Традиционные дисковые базы данных и механизмы интеграции данных не рассчитаны на обработку подобных данных. Управление большими данными требует внедрения баз данных in-memory и программных решений, специально предназначенных для сбора больших данных.
- Хранение больших данных. Само название «большие данные» говорит об их значительных объемах. Многие компании применяют локальные решения для хранения существующих данных и надеются сэкономить средства за счет переориентации этих хранилищ на выполнение задач по обработке больших данных. Однако большие данные работают лучше всего, когда они не ограничены размером доступной памяти. Компании, которые изначально не встраивают облачные хранилища в свои модели использования больших данных, часто жалеют об этом уже через несколько месяцев.
- Анализ больших данных. Без применения ИИ и технологий машинного обучения в процессе анализа больших данных реализовать заложенный в них потенциал невозможно. Одним из пяти основных свойств больших данных является скорость. Для того чтобы анализ больших данных был полезным и ценным, он должен выполняться быстро. Аналитические процессы должны быть самоорганизующимися и способными учиться на своем опыте на регулярной основе — а этого можно достичь только с помощью функциональности искусственного интеллекта и современных технологий управления базами данных.
Приложения больших данных
Аналитика и глубокое обучение, которые становятся возможными благодаря большим данным, могут принести пользу практически любому бизнесу или отрасли. Однако крупные организации со сложными операционными задачами зачастую оказываются способны получать от больших данных максимальную отдачу.
Финансы В «Журнале больших данных» в исследовании 2020 года отмечается, что большие данные «играют важную роль в изменении сектора финансовых услуг, особенно в торговле и инвестициях, налоговой реформе, выявлении и расследовании мошенничества, анализе рисков и автоматизации». Большие данные также помогли преобразовать финансовую отрасль, проанализировав данные о клиентах и обратную связь, чтобы получить ценную информацию, необходимую для повышения удовлетворенности и качества обслуживания клиентов. Наборы транзакционных данных являются одними из самых быстроподвижных и крупнейших в мире. Растущее внедрение передовых решений для управления большими данными поможет банкам и финансовым учреждениям защитить эти данные и использовать их в интересах и защитить как клиентов, так и бизнес.
Здравоохранение Анализ больших данных позволяет медицинским работникам делать более точные и основанные на доказательствах диагнозы. Кроме того, большие данные помогают администраторам больниц выявлять тенденции, управлять рисками и минимизировать ненужные расходы, обеспечивая максимальный бюджет в областях ухода за пациентами и исследований. В разгар пандемии ученые по всему миру ищут лучшие способы лечения COVID-19 и управления им. Большие данные играют огромную роль в этом процессе. В июльской статье 2020 года в the Scientist описывается, как медицинские команды смогли сотрудничать и анализировать большие данные, чтобы помочь в борьбе с коронавирусом: «Мы можем изменить способ ведения клинической науки, используя инструменты и ресурсы больших данных и науки о данных таким образом, который не был возможен».
Транспортировка и логистика Эффект Amazon — это термин, который описывает, как Amazon устанавливает планку для ожиданий на следующий день доставки, чтобы клиенты теперь требовали такой скорости доставки для всего, что они заказывают онлайн. Журнал «Предприниматель» отмечает, что, как непосредственный результат Amazon Effect, «логистическая гонка «последней мили» будет расти более конкурентоспособной». Логистические компании все больше полагаются на аналитику больших данных для оптимизации планирования маршрутов, консолидации нагрузки и мер по повышению эффективности использования топлива.
Образование Во время пандемии учебным заведениям по всему миру пришлось переосмыслить свои учебные программы и методы обучения для поддержки дистанционного обучения. Одной из главных задач этого процесса является поиск надежных способов анализа и оценки успеваемости студентов и общей эффективности методов онлайн-обучения. Статья 2020 года о влиянии больших данных на образование и онлайн-обучение делает замечание о учителях: «Большие данные делают их гораздо более уверенными в персонализации образования, развитии смешанного обучения, преобразовании систем оценки и продвижении обучения в течение всей жизни».
Энергетика и ЖКХ По данным США. Бюро статистики труда (Bureau of Labor Statistics), коммунальные компании тратят более 1,4 млрд долларов США на считыватели счетчиков и, как правило, полагаются на аналоговые счетчики и нечастые ручные показания. Интеллектуальные счетчики предоставляют цифровые данные много раз в день, и с помощью анализа больших данных эти сведения позволяют повысить эффективность использования энергии и повысить точность расчета цен и прогнозирования. Кроме того, когда выездные сотрудники освобождаются от показаний счетчиков, сбор и анализ данных могут помочь быстрее перераспределить их на те места, где наиболее срочно требуются ремонт и модернизация.
Часто задаваемые вопросы по большим данным
Познакомьтесь с решениями SAP для управления данными
Управляйте разрозненным ландшафтом данных и объединяйте их, чтобы извлечь ценные для бизнеса сведения.
Идеи, которые вы больше нигде не найдете
Зарегистрируйтесь, чтобы получить дозу информации и аналитики, поставляемой прямо на ваш почтовый ящик.