Что такое озеро данных?
Озеро данных — это центральный репозитарий данных, который помогает устранять проблемы разрозненности данных.
Обзор озера данных
По своей сути озеро данных является хранилищем информации. Озера данных часто путают с хранилищами данных, но они служат разным бизнес-потребностям и имеют разные архитектуры. В частности, облачные озера данных являются важным компонентом современной стратегии управления данными, поскольку распространение данных социальных сетей, машинных данных Интернета вещей (IoT) и транзакционных данных растет все более быстрыми темпами. Способность хранить, преобразовывать и анализировать данные любого типа открывает путь к новым бизнес-возможностям и к цифровой трансформации — и в этом заключается роль озера данных.
90
%
финансовых учреждений считают, что инициативы в области больших данных определяют будущий успех
64,2
Зеттабайты цифровых данных созданы в 2020 г.
$17,6 млрд
B $USD
оценочная стоимость рынка озера данных к 2026 году
Определение озера данных
Озеро данных — это центральный репозиторий данных, который помогает решать проблемы с разрозненностью данных. Важно отметить, что в озере данных хранятся огромные объемы необработанных данных в их исходном формате. Этот формат может быть структурированным, неструктурированным или полуструктурированным. Озера данных, особенно облачные, доступны по цене, легко масштабируются и часто используются с прикладной аналитикой машинного обучения.
Озеро данных и хранилище данных
В отличие от озера данных, хранилище данных предоставляет возможности управления данными, а также хранит обработанные и отфильтрованные данные, которые уже были обработаны для заранее определенных бизнес-аспектов или сценариев использования.
Сравнительная диаграмма хранилища данных и озера данных.
Хранилища и озера данных часто дополняют друг друга. Например, когда необработанные данные, хранящиеся в озере данных, необходимы для ответа на определенный бизнес-вопрос, их можно извлечь, очистить, преобразовать и использовать в хранилище данных для последующего анализа.
«Хранилище данных» — это новая и развивающаяся концепция, которая расширяет возможности управления данными поверх традиционного озера данных. По сути, это комбинация озера данных и хранилища данных.
Помимо типа данных и различий в процессе использования, отмеченных выше, приведем некоторые сравнительные характеристики озера данных и хранилища данных.
В конечном счете, при выборе подходящего решения для хранения данных важными факторами будут объем данных, производительность базы данных и цена хранения.
Ключевые элементы решения для озера данных
Перемещение данных. Озера позволяют импортировать данные любого типа из различных источников в их исходном формате. Это позволяет компаниям масштабировать объем данных по мере необходимости, не определяя структуры данных, схемы и преобразования, что обеспечивает экономию расходов.
Безопасное хранение и каталогизация данных. В озерах данных хранятся структурированные, полуструктурированные и неструктурированные данные из различных источников, включая бизнес-данные из решений CRM или ERP, устройства Интернета вещей, социальные сети — и даже исторические данные из прежних систем. Озера позволяют собирать пакетные и потоковые данные, обеспечивая при этом управление, безопасность и контроль. Данные можно запрашивать напрямую или вводить в хранилище данных с помощью соответствующих инструментов.
Аналитика и машинное обучение. Озера данных обеспечивают доступ на основе ролей к информации для целей аналитики и анализа на базе машинного обучения, для чего не требуется перемещение данных в отдельную аналитическую базу данных. Кроме того, озера данных позволяют объединять исторические данные с данными реального времени для уточнения моделей машинного обучения или прогнозной аналитики с целью получения более точных и/или новых результатов.
Как работают озера данных
Современное озеро данных включает три основных компонента:
- Посадочная зона для необработанных данных
- Промежуточная зона, в которой данные преобразуются с учетом аналитических задач
- Зона исследования данных, в которой данные используются в аналитических решениях и приложениях, а также потребляются моделями машинного обучения
Из озера данных информация поступает в различные источники, например, в аналитические или другие бизнес-приложения либо в инструменты машинного обучения для дальнейшего анализа.
Сценарий использования озера данных
Приведем два примера использования озера данных в розничной торговле.
Долгосрочные данные о продажах хранятся в озере данных наряду с неструктурированными данными, такими как потоки перемещения по сайту, погода, новости и микро-макроэкономические данные. Хранение и доступность этих данных упрощает специалистам по обработке и анализу данных объединение этих различных источников информации в модель, которая будет прогнозировать потребность в определенном продукте или линейке продуктов. Эта информация затем используется в качестве входных данных для системы ERP розничной торговли для стимулирования роста или уменьшения производственных планов.
Параллельно специалист по маркетингу может получить доступ к этому же озеру данных и проанализировать настроения на веб-сайте и в социальных сетях, а также новости, макроэкономические показатели и исторические данные о продажах, чтобы определить, на какие продукты следует обратить внимание и как лучше всего увеличить продажи, прибыль и/или уровень освоения.
Типы озер данных
Озера данных могут размещаться локально, в облаке, в гибридной среде и у различных облачных гиперскейлеров, таких как Amazon Web Services (AWS), Microsoft Azure или Google Cloud.
Самым популярным типом озера данных сейчас является облачное озеро. Облачное озеро данных предоставляет все обычные функции озера данных, но в форме полностью управляемого облачного сервиса.
Локальное озеро данных. При использовании локального озера данных всем оборудованием, программным обеспечением и процессами управляют инженеры ИТ-отдела компании. Такой подход требует больших капитальных расходов, а данные подвержены рискам, связанным с разрозненностью.
Облачное озеро данных. В облачном озере данных локальная инфраструктура передается на аутсорсинг. Операционные расходы в этом случае выше, зато такой подход к развертыванию упрощает масштабирование предприятий и обеспечивает множество других преимуществ (см. ниже).
Гибридное озеро данных. В отдельных случаях некоторые компании предпочитают одновременно использовать локальные и облачные озера данных. Такая ситуация встречается довольно редко и чаще всего наблюдается в сценариях миграции из локальной системы в облако.
Мультиоблачное озеро данных. В мультиоблачном озере сочетаются два или несколько облачных предложений. Например, компания может использовать AWS и Azure для управления облачными озерами данных и их обслуживания. Этот подход требует более высокой квалификации для организации взаимодействия этих разрозненных платформ друг с другом.
Шесть главных преимуществ облачного озера данных
Почему следует выбрать облачное озеро данных? Превращение данных в ценный бизнес-актив стимулирует цифровую трансформацию. Преимущества облачного подхода в сочетании с возможностями озера данных формируют основу для нее. Облачное озеро данных позволяет компаниям применять аналитику к историческим данным, а также к новым источникам данных (таким как файлы журналов, записи пользовательской активности, социальные сети, устройства, подключенные к интернету, и многое другое) для получения ценной информации.
Некоторые важные преимущества облачных озер данных:
- Экономическая эффективность. Поставщики облачных хранилищ предлагают множество вариантов хранения и ценовых решений.
- Автоматическое масштабирование. Облачные услуги по своей природе поддерживают возможность масштабирования, позволяя компаниям использовать вычислительные мощности и емкость хранилища по требованию.
- Центральный репозиторий данных. Облачное озеро данных объединяет информацию, выступая в качестве единого источника достоверных данных с регулируемым доступом к данным, повышающего эффективность сотрудничества между группами.
- Безопасность данных. Поставщики облачных хранилищ гарантируют безопасность данных благодаря применению модели совместной ответственности.
- Инструменты. Поставщики облачных хранилищ и другие производители предоставляют инструменты ETL, позволяющие осуществлять обход данных, создавать каталоги данных, выполнять подготовку, преобразование и обработку поступающих данных, делая их доступными для выполнения запросов.
- Улучшенная аналитика для получения новой аналитической информации и улучшения бизнес-результатов: облачное озеро данных может комбинировать данные новыми способами. Например, данные CRM и аналитика социальных сетей могут предоставлять новым клиентам информацию о причинах оттока клиентов или показывать, какие рекламные акции повышают лояльность. Кроме того, можно повысить операционную эффективность за счет анализа данных Интернета вещей.
Часто задаваемые вопросы об озерах данных
Ознакомьтесь с некоторыми часто задаваемыми вопросами об озерах данных и просмотрите наш глоссарий по управлению данными, содержащий еще ряд определений.
Начало работы с решениями для озера данных
Изучите возможности озера данных в SAP HANA Cloud.
Идеи, которые вы больше нигде не найдете
Зарегистрируйтесь, чтобы получить дозу бизнес-информации и аналитики, доставляемую прямо в ваш почтовый ящик.