Что такое хранилище данных?

Хранилище данных (DW) — это цифровая система хранения, которая соединяет и гармонизирует большие объемы данных из разных источников.

Обзор хранилища данных

Хранилище данных (DW) — это цифровая система хранения, которая соединяет и гармонизирует большие объемы данных из разных источников. Его цель — предоставить бизнес-аналитику (BI), отчетность и аналитику, а также обеспечить соблюдение нормативных требований, чтобы компании могли превращать свои данные в ценную информацию и принимать интеллектуальные решения на основе данных. Хранилища данных хранят текущие и исторические данные в одном месте и выступают в качестве единого источника достоверной информации для организации.

 

Данные поступают в хранилище данных из операционных систем (таких как ERP и CRM), баз данных и внешних источников, таких как партнерские системы, устройства Интернета вещей (IoT), приложения для управления погодой и социальные сети, обычно с регулярной периодичностью. Появление облачных вычислений привело к изменению ландшафта. В последние годы хранилища данных переместились из традиционной локальной инфраструктуры в несколько местоположений, включая локальное, частное и общедоступное облако.

 

Современные хранилища данных предназначены для обработки структурированных и неструктурированных данных, таких как видео, файлы изображений и данные с датчиков. Некоторые из них используют встроенную аналитику и технологию базы данных in-memory (когда набор данных хранится в памяти компьютера, а не на диске) для обеспечения доступа к достоверным данным в реальном времени и принятия взвешенных решений. Без хранилища данных очень сложно объединять данные из неоднородных источников, обеспечивать нужный формат для аналитики и получать актуальное и долгосрочное представление о данных во времени.

Что такое хранилище данных?

Преимущества хранилищ данных

Хорошо спроектированное хранилище данных является фундаментом любой успешной программы бизнес-анализа или аналитики. Его основная задача — обеспечить создание отчетов и работу информационных панелей и аналитических инструментов, которые стали незаменимыми для современного для бизнеса. Хранилище данных предоставляет информацию для принятия решений на основе данных и помогает делать правильный выбор во всех случаях — от разработки новых продуктов до определения уровня запасов. Хранилище данных обеспечивает множество преимуществ. Вот некоторые из них: 

  • Повышение качества бизнес-аналитики. При использовании хранилищ данных лица, ответственные за принятие решений, получают доступ к данным из разных источников, и им больше не приходится принимать решения на основе неполной информации.  

  • Ускорение выполнения запросов. Хранилища данных создаются специально для быстрого извлечения и анализа данных. При использовании хранилищ можно очень быстро запрашивать большие объемы консолидированных данных, не привлекая для этого ИТ-персонал.  

  • Повышение качества данных. Перед загрузкой в хранилище система создает задачи по очистке данных и вносит их в рабочий список для последующей обработки, обеспечивая преобразование данных в согласованный формат для последующей аналитики и принятия решений на основе высококачественных и точных данных.

  • Исторический ракурс. Хранилище содержит большие объемы исторических данных и позволяет лицам, принимающим решения, изучать прошлые тенденции и проблемы, делать прогнозы и постоянно совершенствовать бизнес.

placeholder

Снимок экрана хранилища данных с отслеживанием информации о происхождении данных.

Что может содержаться в хранилище данных?

Когда хранилища данных впервые стали популярными в конце восьмидесятых, они предназначались для хранения информации о людях, продуктах и транзакциях. Эти так называемые структурированные данные были аккуратно организованы и отформатированы для простоты доступа. Однако вскоре компаниям захотелось хранить, извлекать и анализировать неструктурированные данные — такие как документы, изображения, видео, электронные письма, сообщения в социальных сетях и необработанные данные от датчиков оборудования.

 

Современное хранилище данных может вмещать как структурированные, так и неструктурированные данные. Объединяя эти типы данных и устраняя разрозненность между ними, компании могут получить полную и всестороннюю картину для извлечения наиболее ценной аналитической информации.

Ключевые термины

Есть много терминов, чтобы иметь смысл в мире DW. Вот некоторые из наиболее важных. Изучите некоторые другие термины и часто задаваемые вопросы в нашем глоссарии.

 

Хранилище данных и база данных

 

Базы данных и хранилища данных являются системами хранения данных, однако они служат разным целям. База данных хранит данные, как правило, для определенной бизнес-сферы. Хранилище данных хранит текущие и исторические данные для всего бизнеса, а также предоставляет данные BI и аналитики. Хранилища данных используют сервер базы данных для извлечения данных из баз данных организации и имеют дополнительные функции моделирования данных, управления жизненным циклом данных, интеграции источников данных и др.

 

Хранилище данных и озеро данных

 

Хранилища данных и озера данных используются для хранения больших данных, но это очень разные системы хранения. Хранилище данных хранит данные, отформатированные для определенной цели, тогда как озеро данных хранит данные в необработанном состоянии, назначение которого еще не определено. Хранилища данных и озера часто дополняют друг друга. Например, если необработанные данные, хранящиеся в озере, необходимы для ответа на бизнес-вопрос, их можно извлечь, очистить, преобразовать и использовать в хранилище данных для анализа. Объем данных, производительность базы данных и цены хранения играют важную роль в выборе подходящего решения для хранения.

Сравнительная диаграмма хранилища данных и озера данных.

Хранилище данных и информационная витрина

 

Информационная витрина — это подраздел хранилища данных, разделенный специально для отдела или направления бизнеса, например продажи, маркетинг или финансы. Некоторые инфо-витрины также создаются для автономных оперативных целей. В то время как хранилище данных служит центральным хранилищем данных для всей компании, информационная витрина служит релевантными данными для выбранной группы пользователей. Это упрощает доступ к данным, ускоряет анализ и обеспечивает контроль над собственными данными. В хранилище данных часто развертывается несколько инфо-витрин.

Схема витрины данных и принцип ее работы.

Ключевые компоненты хранилища данных

Типичное хранилище данных состоит из четырех основных компонентов: центральной базы данных, инструментов ETL (извлечение, преобразование, загрузка), метаданных и инструментов доступа. Все эти компоненты разработаны с прицелом на обеспечение максимальной скорости, что позволяет быстро получать результаты и оперативно анализировать данные.

Диаграмма, представляющая компоненты хранилища данных.

  1. Центральная база данных: база данных служит основой хранилища данных. Традиционно это были стандартные реляционные базы данных, работающие локально или в облаке. Однако из-за больших данных потребность в реальной производительности в реальном времени и резкое снижение стоимости оперативной памяти быстро набирают популярность баз данных in-memory.
  2. Интеграция данных. Данные извлекаются из исходных систем и изменяются для согласования информации для быстрого аналитического потребления с помощью различных подходов к интеграции данных, таких как ETL (извлечение, преобразование, загрузка) и ELT, а также репликация данных в реальном времени, обработка массовой загрузки, преобразование данных, а также сервисы обеспечения качества и пополнения данных.
  3. Метаданные: метаданные — это данные о ваших данных. Он определяет источник, использование, значения и другие функции наборов данных в хранилище данных. Существуют бизнес-метаданные, которые добавляют контекст к данным, и технические метаданные, которые описывают доступ к данным, в том числе место их хранения и структуру.
  4. Инструменты доступа к хранилищу данных: инструменты доступа позволяют пользователям взаимодействовать с данными в хранилище данных. Примеры инструментов доступа: инструменты запросов и отчетности, инструменты разработки приложений, инструменты сбора данных и инструменты OLAP.

Архитектура хранилища данных

В прошлом хранилища данных работали в виде слоев, соответствовавших потоку бизнес-данных.

Диаграмма архитектуры хранилища данных. Типичное хранилище данных включает три отдельных уровня, описанных выше. Сегодня современные хранилища данных объединяют OLTP и OLAP в одной системе.

  • Уровень данных: данные извлекаются из ваших источников, а затем преобразуются и загружаются в нижний уровень с помощью инструментов ETL. Нижний уровень состоит из сервера базы данных, информационных витрин и озер данных. На этом уровне создаются метаданные, и инструменты интеграции данных, такие как виртуализация данных, используются для удобного объединения и агрегации данных.

  • Семантический уровень: на среднем уровне серверы оперативной аналитической обработки (OLAP) и оперативной обработки транзакций (OLTP) реструктурируют данные для быстрого выполнения сложных запросов и аналитики.

  • Уровень аналитики: верхний уровень является уровнем фронтэнд-клиента. В нем содержатся инструменты доступа к хранилищу данных, позволяющие пользователям взаимодействовать с данными, создавать инструментальные панели и отчеты, отслеживать KPI, собирать и анализировать данные, создавать приложения и многое другое. Этот уровень часто включает в себя инструментальные средства или тестовую область для изучения данных и разработки новой модели данных.

Хранилища данных были разработаны для поддержки процесса принятия решений, а их создание и техническое обслуживание осуществлялось ИТ-специалистами. Однако в последние несколько лет они эволюционировали в сторону расширения возможностей бизнес-пользователей, уменьшая их зависимость от ИТ-персонала для получения доступа к данным и извлечения ценных аналитических сведений. Вот несколько ключевых возможностей хранилищ данных, которые расширили возможности бизнес-пользователей:

  1. Семантический или бизнес-слой, который поддерживает фразы на естественном языке и позволяет мгновенно понимать данные, определять взаимосвязи между элементами в модели данных и обогащать поля данных новой бизнес-информацией.
  2. Виртуальные рабочие области позволяют командам переносить модели данных и связи в одно защищенное и управляемое место, поддерживая более эффективное сотрудничество с коллегами благодаря единому общему пространству и использованию общего набора данных.
  3. Облачные технологии еще больше оптимизировали процесс принятия решений, обеспечивая глобальное расширение возможностей сотрудников при помощи обширного набора инструментов и функций, позволяющего легко выполнять задачи анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.

Семь главных преимуществ облачного хранилища данных

Облачные хранилища данных становятся все более популярными. Эти современные склады имеют ряд преимуществ по сравнению с традиционными локальными версиями. Вот семь главных преимуществ облачного хранилища данных:

  1. Быстрое развертывание. Облачное хранилище данных позволяет приобрести почти неограниченные вычислительные мощности и хранилища данных всего за несколько щелчков мышью, а также за считанные минуты построить собственное хранилище данных, витрины данных и тестовые среды.
  2. Низкая общая стоимость владения (TCO): модели ценообразования для хранилища данных как услуги (DBaaS) настраиваются таким образом, что вы оплачиваете только необходимые ресурсы по мере необходимости. Вам не нужно прогнозировать долгосрочные потребности или оплачивать больше вычислений в течение года, чем это необходимо. Также можно избежать предварительных затрат, таких как дорогостоящее оборудование, серверные помещения и обслуживающий персонал. Кроме того, разделение цен на хранение и расчет цен позволяет снизить затраты.
  3. Эластичность: облачное хранилище данных позволяет динамически увеличивать или уменьшать объем по мере необходимости. Облако предоставляет нам виртуализированную высокораспределенную среду, способную управлять огромными объемами данных, которые могут увеличиваться и уменьшаться.
  4. Безопасность и аварийное восстановление: во многих случаях облачные хранилища данных обеспечивают более надежную безопасность и шифрование данных , чем локальные хранилища данных. Данные также автоматически дублируются и резервируются, что позволяет минимизировать риск потери данных.
  5. Технологии в реальном времени. Облачные хранилища данных, построенные на технологии базы данных in-memory, могут обеспечить чрезвычайно высокую скорость обработки данных для предоставления данных в реальном времени для мгновенного понимания ситуации.
  6. Новые технологии: облачные хранилища данных позволяют легко интегрировать новые технологии, такие как машинное обучение, которые, например, обеспечивают управляемое взаимодействие с бизнес-пользователями и поддержку при принятии решений в форме рекомендуемых вопросов.
  7. Расширение возможностей бизнес-пользователей. Облачные хранилища данных позволяют сотрудникам в равной степени и глобально получать единое представление данных из различных источников и широкий набор инструментов и функций для упрощения выполнения задач анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
placeholder

Хранилище данных поддерживает комплексную аналитику расходов компании по отделам, поставщикам, регионам, статусам и другим параметрам.

Лучшие практики организации хранилищ данных

При создании нового хранилища данных или добавлении новых приложений в существующее хранилище применяйте проверенные рекомендации, обеспечивающие достижение поставленных целей и экономию времени и средств. Некоторые из них ориентированы на использование в бизнес-сценариях, другие являются частью общей ИТ-программы. Приведенный ниже список является хорошей отправной точкой, а для работы с партнерами по технологиям и услугам предусмотрены дополнительные практики. 

Лучшие практики для бизнес-подразделений

  • Определите необходимую информацию. Если вы хорошо понимаете свои начальные потребности, вы можете найти источники данных для их поддержки. Часто торговые группы, клиенты и поставщики получают рекомендации по данным.

  • Задокументируйте местоположение, структуру и качество текущих данных. Затем можно выявить пробелы в данных и бизнес-правила для преобразования данных в соответствии с требованиями к хранилищу.

  • Создайте группу. Сюда входят исполнительные спонсоры, руководители и сотрудники, которые будут использовать и предоставлять информацию. Например, определите стандартные отчеты и KPI, необходимые для выполнения своих задач.

  • Определение приоритетов приложений хранилища данных. Выберите один или два пилотных проекта с разумными требованиями и хорошей бизнес-ценностью.

  • Выберите надежного партнера по технологиям хранилища данных. Они должны иметь услуги по внедрению и опыт, необходимые для ваших проектов. Убедитесь, что они отвечают вашим требованиям к развертыванию, включая облачные сервисы и локальные опции.

  • Разработка хорошего плана проекта. Работайте со своей командой над реалистичным концептуальным проектом и графиком, поддерживающим коммуникацию и отчетность по статусу.

Лучшие практики для ИТ-отдела

  • Мониторинг производительности и безопасности. Информация в хранилище данных является ценной, хотя и должна быть легко доступной, чтобы обеспечить ценность для организации. Тщательно отслеживайте использование системы, чтобы обеспечить высокий уровень производительности.

  • Ведение стандартов качества данных, метаданных, структуры и управления. Новые источники ценных данных становятся доступными регулярно, но для них требуется согласованное управление в рамках хранилища данных. Следуйте процедурам очистки данных, определения метаданных и соблюдения стандартов управления.

  • Предоставьте гибкую архитектуру. По мере увеличения использования корпоративных данных и бизнес-единиц вы найдете широкий спектр потребностей в информационных витринах и хранилищах. Гибкая платформа будет поддерживать их гораздо лучше, чем ограниченный, ограничительный продукт.

  • Автоматизация таких процессов, как ТОРО. Помимо повышения ценности бизнес-аналитики, машинное обучение может автоматизировать функции технического управления хранилищами данных для поддержания скорости и сокращения операционных затрат.

  • Стратегически используйте облако. Бизнес-единицы и отделы имеют разные потребности в развертывании. При необходимости используйте локальные системы и используйте облачные хранилища данных для масштабируемости, снижения затрат, а также доступа к телефонам и планшетам.

Заключение

Современные хранилища данных и все чаще облачные хранилища данных станут ключевым элементом любой инициативы цифровой трансформации для материнских компаний и их бизнес-подразделений. Они эффективно используют текущие бизнес-системы, особенно при объединении данных из нескольких внутренних систем с новой важной информацией из внешних организаций.

 

Инструментальные панели, KPI, предупреждения и отчеты поддерживают потребности руководства, руководства и персонала, а также важные потребности клиентов и поставщиков. Хранилища данных также обеспечивают быстрый и сложный сбор и анализ данных и не снижают производительность других бизнес-систем.

 

С учетом гибкости, позволяющей начать с малого и расширять бизнес по мере необходимости, как корпоративные офисы, так и бизнес-подразделения могут улучшить процесс принятия решений и повысить итоговую эффективность с помощью современных технологий хранения данных.

Часто задаваемые вопросы по хранилищу данных

Озеро данных — это место для хранения всех видов больших данных, будь то структурированных данных из бизнес-приложений или неструктурированных данных из мобильных приложений, социальных сетей или устройств Интернета вещей (IoT). Поскольку данные хранятся в естественном формате (структурированном, неструктурированном, полуструктурированном или двоичном), преобразование, нормализация или другая обработка может потребоваться для аналитики по нескольким типам данных. Большинство озер данных являются облачными из-за больших объемов данных, которые они хранят, необходимости в высокоскоростных подключениях к распределенным источникам и масштабируемости.

«ETL» расшифровывается как «extract, transform, and load» — извлечение, преобразование и загрузка. Вместе эти операции составляют процесс, охватывающий получение данных от источника и преобразование в их в пригодный для использования формат, а затем перемещение в хранилище данных или другое место для хранения. Процесс ETL особенно полезен для транзакционных данных, однако более продвинутые инструменты могут также обрабатывать другие различные типы неструктурированных данных.

Информационная витрина — это разделенный сегмент хранилища данных, ориентированный на определенную бизнес-сферу или группу, например, финансы или маркетинг. Информационные витрины упрощают отделам быстрый доступ к релевантным для них данным и аналитике, а также управление собственными наборами данных в крупном хранилище данных.

Модели данных являются основополагающим элементом разработки программного обеспечения и аналитики. Модель данных — это описание структуры данных и формы хранения данных в базе данных. Модель данных предоставляет структуру отношений между элементами данных в базе данных, а также руководство по использованию данных.

 

Моделирование данных — это процесс создания моделей данных. При создании структуры базы данных или хранилища данных дизайнер начинает с диаграммы потока данных в базу данных или хранилище данных. Эта диаграмма потока используется для определения признаков форматов данных, структур и функций обработки базы данных для эффективной поддержки требований к потоку данных. Моделирование предоставляет стандартизированный метод последовательного определения и форматирования содержимого базы данных во всех системах, что позволяет различным приложениям совместно использовать одни и те же данные.

Хранилище данных предприятия (EDW) хранит все текущие и исторические бизнес-данные в одном месте — воплощение управления основными данными, хранилища данных и стратегии данных на основе целостного подхода к управлению данными. EDW обеспечивают удобную среду для аналитического программного обеспечения и ведения точных, общекорпоративных KPI и отчетности. Многие EDW являются облачными для масштабируемости, доступа и простоты использования.

placeholder

Современные инструменты хранения данных

SAP Datasphere — это новое поколение SAP Data Warehouse Cloud.

placeholder

Идеи, которые вы больше нигде не найдете

Зарегистрируйтесь, чтобы получить дозу бизнес-информации и аналитики, доставляемую прямо в ваш почтовый ящик.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel