media-blend

text-black

Деловые люди изучают графики на интерактивном экране на деловой встрече

Озеро данных и хранилище данных

Озера данных хранят необработанные данные в собственном формате независимо от их поступления. Хранилища данных хранят данные, очищенные и структурированные предварительно.

default

{}

default

{}

primary

default

{}

secondary

Введение в озера данных и хранилища данных

Озера данных и хранилища данных — это системы, которые хранят большие объемы цифровых данных, управляют ими и извлекают их. Компании собирают данные, чтобы получить представление о своих операциях, клиентах, рынках и цепочках поставок, чтобы лучше реагировать на них стратегически.

Хранилища данных стали решением для устранения разрозненности данных и решения проблем бизнес-данных, разбросанных по разным системам, форматам и отделам.

Несоответствие затрудняло пользователям доступ, интеграцию и анализ этих данных для выявления моделей, прогнозирования потребности или оценки эффективности бизнеса. Хранилища данных были разработаны для консолидации этих данных в централизованное хранилище, где данные можно интегрировать, очищать и структурировать для анализа. Такой подход создал единый источник достоверной информации для поддержки процессов нормативного соответствия, мониторинга производительности и бизнес-аналитики.

Озера данных, в свою очередь, стали решением проблем, связанных с ограничениями хранилищ данных, которые не могли адекватно справляться с взрывом неструктурированных и полуструктурированных данных, получаемых из новых источников, таких как социальные сети, устройства Интернета вещей, датчики, мобильные приложения и многое другое. Хранение и обработка огромных объемов разнообразных данных, таких как изображения, видео и текст, оказалось слишком дорогим и неэффективным, поскольку традиционные хранилища данных изначально требовали предварительной очистки и обработки данных до их хранения.

Компаниям требовался более гибкий и экономичный способ хранения данных в необработанном, исходном формате и озерах данных, созданных в качестве решения.

Сегодня многие современные предприятия применяют гибридный подход, включающий как хранилища данных, так и озера данных: хранилище данных. Эта архитектура предоставляет как быстрые, структурированные возможности отчетности первого, так и потенциал для приложений ИИ и машинного обучения последнего.

Сравнение озер данных и хранилищ данных: основные различия

Ключевое различие между озерами данных и хранилищами данных заключается в типе данных, которые они хранят, и о том, как они хранят эти данные, которые играют ключевую роль в стратегии управления даннымиорганизации.

Хранилища данных хранят структурированные данные, очищенные и обработанные в соответствии с предварительно определенной структурой или схемой. Поскольку схема применяется до сохранения данных, этот подход называется схемой-записью.

Например, схема может предписывать, что данные ид. клиента должны быть целым числом, данные даты заказа должны иметь формат ГГГГ-ММ-ДД и данные общей суммы продаж должны быть в десятичном формате. Поскольку все данные соответствуют этим правилам, пользователи могут быстро и надежно запрашивать такие запросы, как "поиск общих продаж по клиентам в апреле 2025 года". Такая скорость и точность делают хранилища данных идеальными для отчетности, информационных панелей и сценариев использования бизнес-аналитики.

Озера данных, напротив, могут хранить необработанные данные в исходном формате независимо от их структуры. Предварительно определенная схема не требуется.

Схема определяется только при запросе данных, поэтому подход называется schema-on-read. Только после этого необработанные данные будут проанализированы, структурированы и интерпретированы в соответствии с запросом.

Таким образом, хранилища данных применяют схему перед хранением данных, чтобы убедиться, что все данные структурированы и очищены для использования. Озера данных применяют схему при запросе данных и могут с самого начала хранить любые структурированные или неструктурированные данные.

Различия между озерами данных и хранилищами данных

Озера данных

Хранилища данных

Тип данных

Хранит структурированные, полуструктурированные и неструктурированные данные (например, журналы, видео, текст).

Сохраняет только структурированные данные (например, операции продажи, финансовые данные).

Схема

Schema-on-read: схема применяется при запросе данных.

Schema-on-write: схема применяется до сохранения данных.

Пользователи

Специалисты по работе с данными, инженеры и аналитики изучают закономерности, обучают модели или выполняют потоки операций машинного обучения.

Бизнес-аналитики, руководители и операционные группы создают отчеты и KPI.

Назначение

Гибкое хранение больших объемов необработанных разнообразных данных, используемых для исследования данных, искусственного интеллекта и машинного обучения.

Централизованный репозиторий для структурированных и обработанных данных, используемых для отчетности, инструментальных панелей и бизнес-аналитики.

Затраты

Меньшее хранилище носителей затрат

Увеличение затрат на хранение и обработку благодаря предварительной обработке и оптимизации.

Выбор между озерами данных и хранилищами данных

Поскольку озера данных могут хранить необработанные данные в любом формате, они идеально подходят для компаний, требующих гибкости. Например, розничные продавцы собирают огромные суммы из различных источников, таких как веб-сайты, мобильные приложения, социальные сети, системы точек продаж и др. Поскольку собираемые ими данные не требуют очистки, преобразования или структурирования, они могут использовать более экономичные системы хранения, которые легко масштабируются. Однако затраты на обработку необработанных данных во время запроса могут быть выше по сравнению с оптимизированными запросами хранилища данных.

По сравнению с хранилищами данных затраты будут выше. Процессы очистки, преобразования и структурирования перед загрузкой, а также индексация и разделение после загрузки требуют дополнительных ресурсов и хранилища для работы. Однако в результате оптимизации создаются готовые к использованию данные для бизнес-аналитики, отчетности и оперативной аналитики. Хранилища данных позволяют аналитикам и руководителям быстро и легко создавать отчеты, отслеживать KPI и принимать обоснованные решения.

Следует отметить, что озера данных открывают новые возможности для приложений ИИ и машинного обучения. Обширные и разнообразные наборы данных, которые они хранят, позволяют специалистам по обработке данных находить тенденции, создавать прогнозные модели и запускать приложения машинного обучения. Это приводит, например, к системам рекомендаций, предлагающим продукты пользователям на основе прошлых взаимодействий или инструментов обработки естественного языка, которые выполняют анализ настроений по отзывам клиентов или комментариям в социальных сетях.

Сегодня многие современные предприятия используют архитектуры данных, которые по сути являются комбинациями обоих. Эти хранилища данных обеспечивают гибкость озера данных с точки зрения управления и производительности хранилища данных. Хотя адаптация быстро растет, многие компании по-прежнему используют традиционные склады для создания критически важных отчетов.

Реальные примеры и сценарии использования

Ниже приведены примеры использования озер данных, хранилищ данных или комбинации элементов из обеих отраслей для удовлетворения их уникальных потребностей.

Здравоохранение. Больницы часто используют архитектуру озера данных для хранения, управления и анализа огромных объемов и различных типов данных, генерируемых их операциями. Сюда относятся неструктурированные носимые данные и медицинские изображения, полуструктурированные данные пациентов HL7 и структурированные результаты лабораторных тестов. Консолидируя все это в центральном репозитории, они могут применять расширенную аналитику и искусственный интеллект к необработанным данным, например, для идентификации пациентов с риском или анализа геномики для персонализации планов лечения. Благодаря тому, что пациенты теперь оснащены «умными» носимыми устройствами, которые обрабатывают данные об основных характеристиках состояния организма, поставщики медицинских услуг могут даже выявлять признаки раннего предупреждения и быстрее вмешиваться.

Финансы. Банки и другие финансовые учреждения должны соблюдать правила борьбы с отмыванием денег (AML) и строгие правила финансовой отчетности (например, закон Сарбейнса-Оксли в США или Базель III на международном уровне). Используя хранилища данных для хранения структурированных финансовых данных из нескольких систем, включая записи транзакций, сальдо счетов и торговые данные, они могут создавать нормативные отчеты, соответствующие требованиям к управлению и безопасности. Помимо соблюдения нормативных требований, финансовые учреждения также используют хранилища данных для управления бизнес-аналитикой, управления рисками и выявления мошенничества путем выполнения сложных запросов по историческим и текущим наборам данных.

Медиа. Услуги потоковой передачи видео используют подход Data Lakehouse для сбора, хранения и анализа пользовательских данных для обеспечения персонализированного взаимодействия. Они получают различные типы данных из различных источников, таких как потоковые журналы и обратная связь из социальных сетей, и хранят их в центральном репозитории. Затем эти данные можно использовать для создания моделей машинного обучения, рекомендующих наиболее релевантный контент. Те же данные можно также контролировать и структурировать в подмножества для целей аналитики или отчетности, предоставляя инструментальные панели по коэффициентам удержания или информируя о принятии решений о приобретении контента.

Новые тенденции в платформах данных

Бассейны данных быстро становятся предпочтительным вариантом для компаний, стремящихся максимизировать ценность своих данных. Они могут поддерживать как бизнес-аналитику, так и сценарии использования ИИ и машинного обучения на единой платформе. Однако следует отметить, что они все еще развиваются и что некоторые предприятия продолжают использовать традиционные хранилища данных для критически важной отчетности.

Потенциал искусственного интеллекта как фактора повышения производительности и эффективности особенно повлиял на архитектуру данных, при этом некоторые новые платформы озер данных и хранилищ данных теперь интегрированы с LLM. Это позволяет нетехническим пользователям изучать и анализировать данные, запрашивая запросы на простом языке. Например, пользователь может запросить "показать мне тренды продаж во втором квартале", а LLM может сгенерировать SQL, который может понять система. Это обеспечивает более демократичный доступ к аналитике на основе данных.

Бессерверные архитектуры также формируются как стратегия, при которой предприятия нанимают поставщика облачных услуг для управления своей инфраструктурой данных. В этом соглашении компания оплачивает доступ к платформе данных вместо создания собственной платформы и управления ею. Преимущества этого упрощают масштабируемость и экономичность. Поставщик облачных услуг обеспечивает гибкость пропускной способности в случае пиков объема данных или загрузки запросов, и компания оплачивает только то, что использует. Таким образом, разработчики могут выполнять развертывание быстрее, поскольку им не приходится сталкиваться с соображениями инфраструктуры.

Некоторые компании даже выбирают мультиоблачную стратегию, распределяя озера данных и хранилища по нескольким облачным сервисам. Основным преимуществом является устойчивость к избыточности. Если одно облако перейдет в режим офлайн, компания может продолжать работать на другом. Они также могут оптимизировать определенные потоки операций в определенных облаках, например если один сервис специализируется на машинном обучении. В некоторых отраслях или странах конфиденциальные данные должны храниться в регионе или облачном провайдере, соответствующем местным требованиям.

Для соединения данных, управления ими и управления ими в нескольких облачных средах компании могут внедрить архитектуры фабрики данных. Они обеспечивают доступ к данным в реальном времени между отдельными, но синхронизированными системами и приложениями, создавая единое представление по всему ландшафту.

Для защиты конфиденциальных данных, таких как медицинские карты, номера социального страхования и исходные коды, организации также применяют такие политики, как контроль нулевого доверия к платформам данных. Эти элементы управления требуют, чтобы все пользователи проверили свою идентичность для доступа к необходимым им данным.

Часто задаваемые вопросы

Что такое озеро данных?

Озеро данных – это система хранения, предназначенная для хранения больших объемов необработанных данных в исходном формате, таких как числа, текст, изображения, видео или журналы. Подумайте об этом как о гигантском «цифровом водохранилище», где могут поступать все виды информации без немедленной организации.

Озера данных полезны для специалистов по обработке и анализу данных, которым требуется обучить модели машинного обучения на основе систем рекомендаций по контенту.

Что такое хранилище данных?

Хранилище данных — это система хранения, предназначенная прежде всего для хранения больших объемов структурированных данных. Структурированные данные очищаются, упорядочиваются и форматируются определенным образом. (Представьте себе определенные строки и столбцы электронной таблицы.) Более современные склады также могут обрабатывать определенные полуструктурированные форматы, такие как JSON или XML.

Компании используют хранилища данных для быстрого ответа на вопросы, создания отчетов и отслеживания ключевых показателей эффективности. Эти функции классифицируются как бизнес-аналитика.

Что такое озерохранилище данных?

Data Lakehouse — это современная платформа данных, объединяющая лучшее из озер данных и хранилищ данных. Он может хранить все типы данных (необработанные, неструктурированные или полуструктурированные) без предварительной организации. Это обеспечивает быстрый структурированный анализ и отчетность при необходимости.

Что такое схема? В чем разница между schema-on-read и schema-on-write?

Схемы представляют собой правила организации данных, такие как тип данных, которые могут быть сохранены (числа, даты), порядок данных (таблицы и столбцы) и взаимосвязь информации друг с другом.

Schema-on-write означает, что перед сохранением данные должны быть помещены в предварительно определенную структуру (схему). Вот как работают хранилища данных. Они гарантируют, что данные будут очищены и готовы к предварительному анализу.

Schema-on-read означает, что структура применяется только в том случае, если кто-то хочет использовать или анализировать данные. Вот как работают озера данных. Они обеспечивают большую гибкость, поскольку сначала данные могут храниться в любой форме, и их не требуется организовывать немедленно. Однако компромиссы этого подхода включают сокращение времени запросов и потенциальную противоречивость, поскольку разные пользователи могут интерпретировать одни и те же необработанные данные по-разному.

Напротив, Schema-on-write обеспечивает непротиворечивость заранее, но снижает гибкость.

В чем разница между структурированными, неструктурированными и полуструктурированными данными?

Структурированные данные в высокой степени организованы, удобны для поиска и обычно могут храниться в таблицах, таких как имена клиентов, номера продаж и даты.

Неструктурированные данные не имеют фиксированного формата и сложнее организовать, такие как видео, изображения, аудиофайлы и публикации в социальных сетях.

Полуструктурированные данные находятся где-то между ними. Она имеет определенную организацию, но не такую строгую, как таблицы. Думайте о файлах JSON, XML-документах и электронных сообщениях.

/content/sapcom/countries/ru_ru/fragments/insights/article-details

location

sidebar

/content/sapcom/countries/ru_ru/fragments/insights/article-read-more

location

document-footer

Озеро данных и хранилище данных

Введение в озера данных и хранилища данных

Сравнение озер данных и хранилищ данных: основные различия

Различия между озерами данных и хранилищами данных

Выбор между озерами данных и хранилищами данных

Реальные примеры и сценарии использования

Новые тенденции в платформах данных

Часто задаваемые вопросы

Берите от данных все