Что такое хранилище данных?
Хранилище данных (DW) — это цифровая система хранения, которая соединяет и гармонизирует большие объемы данных из разных источников.
Обзор хранилища данных
Хранилище данных (DW) — это цифровая система хранения, которая соединяет и гармонизирует большие объемы данных из разных источников. Его цель — предоставить бизнес-аналитику (BI), отчетность и аналитику, а также обеспечить соблюдение нормативных требований, чтобы компании могли превращать свои данные в ценную информацию и принимать интеллектуальные решения на основе данных. Хранилища данных хранят текущие и исторические данные в одном месте и выступают в качестве единого источника достоверной информации для организации.
Данные поступают в хранилище данных из операционных систем (таких как ERP и CRM), баз данных и внешних источников, таких как партнерские системы, устройства Интернета вещей (IoT), приложения для управления погодой и социальные сети, обычно с регулярной периодичностью. Появление облачных вычислений привело к изменению ландшафта. В последние годы хранилища данных переместились из традиционной локальной инфраструктуры в несколько местоположений, включая локальное, частное и общедоступное облако.
Современные хранилища данных предназначены для обработки структурированных и неструктурированных данных, таких как видео, файлы изображений и данные с датчиков. Некоторые из них используют встроенную аналитику и технологию базы данных in-memory (когда набор данных хранится в памяти компьютера, а не на диске) для обеспечения доступа к достоверным данным в реальном времени и принятия взвешенных решений. Без хранилища данных очень сложно объединять данные из неоднородных источников, обеспечивать нужный формат для аналитики и получать актуальное и долгосрочное представление о данных во времени.
Что такое хранилище данных?
Преимущества хранилищ данных
Хорошо спроектированное хранилище данных является фундаментом любой успешной программы бизнес-анализа или аналитики. Его основная задача — обеспечить создание отчетов и работу информационных панелей и аналитических инструментов, которые стали незаменимыми для современного для бизнеса. Хранилище данных предоставляет информацию для принятия решений на основе данных и помогает делать правильный выбор во всех случаях — от разработки новых продуктов до определения уровня запасов. Хранилище данных обеспечивает множество преимуществ. Вот некоторые из них:
Повышение качества бизнес-аналитики. При использовании хранилищ данных лица, ответственные за принятие решений, получают доступ к данным из разных источников, и им больше не приходится принимать решения на основе неполной информации.
Ускорение выполнения запросов. Хранилища данных создаются специально для быстрого извлечения и анализа данных. При использовании хранилищ можно очень быстро запрашивать большие объемы консолидированных данных, не привлекая для этого ИТ-персонал.
Повышение качества данных. Перед загрузкой в хранилище система создает задачи по очистке данных и вносит их в рабочий список для последующей обработки, обеспечивая преобразование данных в согласованный формат для последующей аналитики и принятия решений на основе высококачественных и точных данных.
Исторический ракурс. Хранилище содержит большие объемы исторических данных и позволяет лицам, принимающим решения, изучать прошлые тенденции и проблемы, делать прогнозы и постоянно совершенствовать бизнес.
Снимок экрана хранилища данных с отслеживанием информации о происхождении данных.
Что может содержаться в хранилище данных?
Когда хранилища данных впервые стали популярными в конце восьмидесятых, они предназначались для хранения информации о людях, продуктах и транзакциях. Эти так называемые структурированные данные были аккуратно организованы и отформатированы для простоты доступа. Однако вскоре компаниям захотелось хранить, извлекать и анализировать неструктурированные данные — такие как документы, изображения, видео, электронные письма, сообщения в социальных сетях и необработанные данные от датчиков оборудования.
Современное хранилище данных может вмещать как структурированные, так и неструктурированные данные. Объединяя эти типы данных и устраняя разрозненность между ними, компании могут получить полную и всестороннюю картину для извлечения наиболее ценной аналитической информации.
Ключевые термины
Есть много терминов, чтобы иметь смысл в мире DW. Вот некоторые из наиболее важных. Изучите некоторые другие термины и часто задаваемые вопросы в нашем глоссарии.
Хранилище данных и база данных
Базы данных и хранилища данных являются системами хранения данных, однако они служат разным целям. База данных хранит данные, как правило, для определенной бизнес-сферы. Хранилище данных хранит текущие и исторические данные для всего бизнеса, а также предоставляет данные BI и аналитики. Хранилища данных используют сервер базы данных для извлечения данных из баз данных организации и имеют дополнительные функции моделирования данных, управления жизненным циклом данных, интеграции источников данных и др.
Хранилище данных и озеро данных
Хранилища данных и озера данных используются для хранения больших данных, но это очень разные системы хранения. Хранилище данных хранит данные, отформатированные для определенной цели, тогда как озеро данных хранит данные в необработанном состоянии, назначение которого еще не определено. Хранилища данных и озера часто дополняют друг друга. Например, если необработанные данные, хранящиеся в озере, необходимы для ответа на бизнес-вопрос, их можно извлечь, очистить, преобразовать и использовать в хранилище данных для анализа. Объем данных, производительность базы данных и цены хранения играют важную роль в выборе подходящего решения для хранения.
Сравнительная диаграмма хранилища данных и озера данных.
Хранилище данных и информационная витрина
Информационная витрина — это подраздел хранилища данных, разделенный специально для отдела или направления бизнеса, например продажи, маркетинг или финансы. Некоторые инфо-витрины также создаются для автономных оперативных целей. В то время как хранилище данных служит центральным хранилищем данных для всей компании, информационная витрина служит релевантными данными для выбранной группы пользователей. Это упрощает доступ к данным, ускоряет анализ и обеспечивает контроль над собственными данными. В хранилище данных часто развертывается несколько инфо-витрин.
Схема витрины данных и принцип ее работы.
Ключевые компоненты хранилища данных
Типичное хранилище данных состоит из четырех основных компонентов: центральной базы данных, инструментов ETL (извлечение, преобразование, загрузка), метаданных и инструментов доступа. Все эти компоненты разработаны с прицелом на обеспечение максимальной скорости, что позволяет быстро получать результаты и оперативно анализировать данные.
Диаграмма, представляющая компоненты хранилища данных.
- Центральная база данных: база данных служит основой хранилища данных. Традиционно это были стандартные реляционные базы данных, работающие локально или в облаке. Однако из-за больших данных потребность в реальной производительности в реальном времени и резкое снижение стоимости оперативной памяти быстро набирают популярность баз данных in-memory.
- Интеграция данных. Данные извлекаются из исходных систем и изменяются для согласования информации для быстрого аналитического потребления с помощью различных подходов к интеграции данных, таких как ETL (извлечение, преобразование, загрузка) и ELT, а также репликация данных в реальном времени, обработка массовой загрузки, преобразование данных, а также сервисы обеспечения качества и пополнения данных.
- Метаданные: метаданные — это данные о ваших данных. Он определяет источник, использование, значения и другие функции наборов данных в хранилище данных. Существуют бизнес-метаданные, которые добавляют контекст к данным, и технические метаданные, которые описывают доступ к данным, в том числе место их хранения и структуру.
- Инструменты доступа к хранилищу данных: инструменты доступа позволяют пользователям взаимодействовать с данными в хранилище данных. Примеры инструментов доступа: инструменты запросов и отчетности, инструменты разработки приложений, инструменты сбора данных и инструменты OLAP.
Архитектура хранилища данных
В прошлом хранилища данных работали в виде слоев, соответствовавших потоку бизнес-данных.
Диаграмма архитектуры хранилища данных. Типичное хранилище данных включает три отдельных уровня, описанных выше. Сегодня современные хранилища данных объединяют OLTP и OLAP в одной системе.
Уровень данных: данные извлекаются из ваших источников, а затем преобразуются и загружаются в нижний уровень с помощью инструментов ETL. Нижний уровень состоит из сервера базы данных, информационных витрин и озер данных. На этом уровне создаются метаданные, и инструменты интеграции данных, такие как виртуализация данных, используются для удобного объединения и агрегации данных.
Семантический уровень: на среднем уровне серверы оперативной аналитической обработки (OLAP) и оперативной обработки транзакций (OLTP) реструктурируют данные для быстрого выполнения сложных запросов и аналитики.
Уровень аналитики: верхний уровень является уровнем фронтэнд-клиента. В нем содержатся инструменты доступа к хранилищу данных, позволяющие пользователям взаимодействовать с данными, создавать инструментальные панели и отчеты, отслеживать KPI, собирать и анализировать данные, создавать приложения и многое другое. Этот уровень часто включает в себя инструментальные средства или тестовую область для изучения данных и разработки новой модели данных.
Хранилища данных были разработаны для поддержки процесса принятия решений, а их создание и техническое обслуживание осуществлялось ИТ-специалистами. Однако в последние несколько лет они эволюционировали в сторону расширения возможностей бизнес-пользователей, уменьшая их зависимость от ИТ-персонала для получения доступа к данным и извлечения ценных аналитических сведений. Вот несколько ключевых возможностей хранилищ данных, которые расширили возможности бизнес-пользователей:
- Семантический или бизнес-слой, который поддерживает фразы на естественном языке и позволяет мгновенно понимать данные, определять взаимосвязи между элементами в модели данных и обогащать поля данных новой бизнес-информацией.
- Виртуальные рабочие области позволяют командам переносить модели данных и связи в одно защищенное и управляемое место, поддерживая более эффективное сотрудничество с коллегами благодаря единому общему пространству и использованию общего набора данных.
- Облачные технологии еще больше оптимизировали процесс принятия решений, обеспечивая глобальное расширение возможностей сотрудников при помощи обширного набора инструментов и функций, позволяющего легко выполнять задачи анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Семь главных преимуществ облачного хранилища данных
Облачные хранилища данных становятся все более популярными. Эти современные склады имеют ряд преимуществ по сравнению с традиционными локальными версиями. Вот семь главных преимуществ облачного хранилища данных:
- Быстрое развертывание. Облачное хранилище данных позволяет приобрести почти неограниченные вычислительные мощности и хранилища данных всего за несколько щелчков мышью, а также за считанные минуты построить собственное хранилище данных, витрины данных и тестовые среды.
- Низкая общая стоимость владения (TCO): модели ценообразования для хранилища данных как услуги (DBaaS) настраиваются таким образом, что вы оплачиваете только необходимые ресурсы по мере необходимости. Вам не нужно прогнозировать долгосрочные потребности или оплачивать больше вычислений в течение года, чем это необходимо. Также можно избежать предварительных затрат, таких как дорогостоящее оборудование, серверные помещения и обслуживающий персонал. Кроме того, разделение цен на хранение и расчет цен позволяет снизить затраты.
- Эластичность: облачное хранилище данных позволяет динамически увеличивать или уменьшать объем по мере необходимости. Облако предоставляет нам виртуализированную высокораспределенную среду, способную управлять огромными объемами данных, которые могут увеличиваться и уменьшаться.
- Безопасность и аварийное восстановление: во многих случаях облачные хранилища данных обеспечивают более надежную безопасность и шифрование данных , чем локальные хранилища данных. Данные также автоматически дублируются и резервируются, что позволяет минимизировать риск потери данных.
- Технологии в реальном времени. Облачные хранилища данных, построенные на технологии базы данных in-memory, могут обеспечить чрезвычайно высокую скорость обработки данных для предоставления данных в реальном времени для мгновенного понимания ситуации.
- Новые технологии: облачные хранилища данных позволяют легко интегрировать новые технологии, такие как машинное обучение, которые, например, обеспечивают управляемое взаимодействие с бизнес-пользователями и поддержку при принятии решений в форме рекомендуемых вопросов.
- Расширение возможностей бизнес-пользователей. Облачные хранилища данных позволяют сотрудникам в равной степени и глобально получать единое представление данных из различных источников и широкий набор инструментов и функций для упрощения выполнения задач анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Хранилище данных поддерживает комплексную аналитику расходов компании по отделам, поставщикам, регионам, статусам и другим параметрам.
Лучшие практики организации хранилищ данных
При создании нового хранилища данных или добавлении новых приложений в существующее хранилище применяйте проверенные рекомендации, обеспечивающие достижение поставленных целей и экономию времени и средств. Некоторые из них ориентированы на использование в бизнес-сценариях, другие являются частью общей ИТ-программы. Приведенный ниже список является хорошей отправной точкой, а для работы с партнерами по технологиям и услугам предусмотрены дополнительные практики.
Лучшие практики для бизнес-подразделений
Определите необходимую информацию. Если вы хорошо понимаете свои начальные потребности, вы можете найти источники данных для их поддержки. Часто торговые группы, клиенты и поставщики получают рекомендации по данным.
Задокументируйте местоположение, структуру и качество текущих данных. Затем можно выявить пробелы в данных и бизнес-правила для преобразования данных в соответствии с требованиями к хранилищу.
Создайте группу. Сюда входят исполнительные спонсоры, руководители и сотрудники, которые будут использовать и предоставлять информацию. Например, определите стандартные отчеты и KPI, необходимые для выполнения своих задач.
Определение приоритетов приложений хранилища данных. Выберите один или два пилотных проекта с разумными требованиями и хорошей бизнес-ценностью.
Выберите надежного партнера по технологиям хранилища данных. Они должны иметь услуги по внедрению и опыт, необходимые для ваших проектов. Убедитесь, что они отвечают вашим требованиям к развертыванию, включая облачные сервисы и локальные опции.
Разработка хорошего плана проекта. Работайте со своей командой над реалистичным концептуальным проектом и графиком, поддерживающим коммуникацию и отчетность по статусу.
Лучшие практики для ИТ-отдела
Мониторинг производительности и безопасности. Информация в хранилище данных является ценной, хотя и должна быть легко доступной, чтобы обеспечить ценность для организации. Тщательно отслеживайте использование системы, чтобы обеспечить высокий уровень производительности.
Ведение стандартов качества данных, метаданных, структуры и управления. Новые источники ценных данных становятся доступными регулярно, но для них требуется согласованное управление в рамках хранилища данных. Следуйте процедурам очистки данных, определения метаданных и соблюдения стандартов управления.
Предоставьте гибкую архитектуру. По мере увеличения использования корпоративных данных и бизнес-единиц вы найдете широкий спектр потребностей в информационных витринах и хранилищах. Гибкая платформа будет поддерживать их гораздо лучше, чем ограниченный, ограничительный продукт.
Автоматизация таких процессов, как ТОРО. Помимо повышения ценности бизнес-аналитики, машинное обучение может автоматизировать функции технического управления хранилищами данных для поддержания скорости и сокращения операционных затрат.
Стратегически используйте облако. Бизнес-единицы и отделы имеют разные потребности в развертывании. При необходимости используйте локальные системы и используйте облачные хранилища данных для масштабируемости, снижения затрат, а также доступа к телефонам и планшетам.
Заключение
Современные хранилища данных и все чаще облачные хранилища данных станут ключевым элементом любой инициативы цифровой трансформации для материнских компаний и их бизнес-подразделений. Они эффективно используют текущие бизнес-системы, особенно при объединении данных из нескольких внутренних систем с новой важной информацией из внешних организаций.
Инструментальные панели, KPI, предупреждения и отчеты поддерживают потребности руководства, руководства и персонала, а также важные потребности клиентов и поставщиков. Хранилища данных также обеспечивают быстрый и сложный сбор и анализ данных и не снижают производительность других бизнес-систем.
С учетом гибкости, позволяющей начать с малого и расширять бизнес по мере необходимости, как корпоративные офисы, так и бизнес-подразделения могут улучшить процесс принятия решений и повысить итоговую эффективность с помощью современных технологий хранения данных.
Часто задаваемые вопросы по хранилищу данных
Современные инструменты хранения данных
SAP Datasphere — это новое поколение SAP Data Warehouse Cloud.
Идеи, которые вы больше нигде не найдете
Зарегистрируйтесь, чтобы получить дозу бизнес-информации и аналитики, доставляемую прямо в ваш почтовый ящик.