Что такое моделирование данных?
Моделирование данных — это процесс визуального построения потоков данных.
Обзор моделирования данных
Моделирование данных — это процесс визуального построения потоков данных. Создание структуры новой или альтернативной базы данных архитектор начинает с визуализации потоков входящей и исходящей информации к БД. Визуализация потоков используется для определения форматов передаваемых данных, их характеристик, структурирования функций и требований к обработке этих данных. После создания и развертывания базы данных модель данных используется для документирования и обоснования целей работы базы данных, а также показывает особенности спроектированных потоков данных.
Полученная в результате этого процесса модель данных представляет собой структуру отношений между элементами данных в базе данных, а также руководство по использованию данных. Модели данных являются фундаментальным элементом разработки программного обеспечения и аналитики. Они предоставляют стандартизированный метод согласованного определения и форматирования содержимого базы данных во всех системах, благодаря чему различные приложения могут совместно использовать одни и те же данные.
В чем важность моделирования данных?
Комплексная оптимизированная модель данных позволяет создать упрощенную и логичную базу данных, которая устраняет избыточность, снижает требования к объему памяти и обеспечивает эффективный поиск. Она также предоставляет всем системам единый источник достоверной информации, необходимый для эффективного выполнения операций и гарантированного соблюдения нормативных предписаний и требований. Моделирование данных является ключевым компонентом двух жизненно важных функций цифрового предприятия.
Проекты по разработке программного обеспечения (нового или настраиваемого), выполняемые ИТ-специалистами
Перед проектированием и созданием любого программного проекта должно быть задокументировано видение того, как будет выглядеть конечный продукт и как он будет себя вести. Большая часть этого видения — набор бизнес-правил, которые управляют требуемой функциональностью. Другая часть – описание данных – потоки данных (или модель данных) и поддерживающая их структура базы данных.
Моделирование данных позволяет зафиксировать это представление и сформировать маршрутную карту для разработчиков программного продукта. После того как база данных и потоки данных полностью определены и задокументированы, а затем в соответствии с этими спецификациями разработаны системы, эти системы должны предоставлять ожидаемые функциональные возможности, необходимые для поддержки точности данных (при условии надлежащего соблюдения процедур).
Аналитика и визуализация — или бизнес-аналитика — основной инструмент принятия решений для пользователей
В условиях увеличения объемов данных и увеличения числа пользователей организациям необходим способ превращения необработанных данных в полезную информацию для принятия решений. Неудивительно, что спрос на аналитику данных значительно вырос. Визуализация данных делает данные еще более доступными для пользователей благодаря графическому представлению данных.
Современные модели данных преобразуют необработанные данные в полезную информацию, которую можно превратить в динамические визуализации. Моделирование данных позволяет подготовить данные к анализу: очистить данные, определить показатели и измерения, а также оптимизировать данные путем создания иерархий, настройки единиц и валют, введения формул.
Типы моделирования данных
Существует три основных типа моделей данных: реляционная, многомерная и модель «сущность-связь» (E-R). Существует также несколько других, менее распространенных, включая иерархическую, сетевую, объектно-ориентированную и многозначную. Тип модели определяет логическую структуру — как реализована логика хранения данных и, следовательно, способ их хранения, организации и извлечения.
- Реляционный. Несмотря на то, что этот подход применяется уже очень давно, наиболее распространенной моделью баз данных до сих пор является реляционная, которая хранит данные в виде записей фиксированного формата, организуя эти данные в таблицы со строками и столбцами. Самый простой тип модели данных включает два элемента: показатели и измерения. Показатели — это числовые значения (такие как количество или выручка), используемые в математических вычислениях, примерами которых могут служить сумма или среднее значение. Измерения могут быть текстовыми или числовыми. Они не используются в вычислениях и содержат описания или местоположения. Необработанные данные определяются как относящиеся к показателям или измерениям. Также при разработке реляционной базы данных используются такие термины, как «отношения» (таблица со строками и столбцами), «атрибуты» (столбцы), «кортежи» (строки) и «домен» (набор значений, допустимых в столбце). Существуют и другие термины и структурные требования, определяющие реляционную базу данных, но важным фактором являются отношения, определенные в этой структуре. Общие элементы данных (или ключи) связывают между собой таблицы и наборы данных. Таблицы также могут быть связаны явным образом, например, при помощи отношений между родительскими и дочерними элементами, включая отношения «один к одному», «один ко многим» или «многие ко многим».
- Многомерный. Менее жесткий и структурированный подход, основанный на измерениях, отдает предпочтение контекстуальной структуре данных, которая больше связана с использованием в бизнесе или контекстом. Такая структура базы данных оптимизирована для онлайн-запросов и инструментов хранилищ данных. Критические элементы данных, такие как количество транзакций, называются «фактами» и сопровождаются справочной информацией, называемой «измерениями», будь то идентификатор продукта, цена за единицу или дата транзакции. Первичной таблицей в многомерной модели является таблица фактов. Выборка данных может быть быстрой и эффективной — в силу того, что данные для определенного типа деятельности хранятся вместе — но отсутствие связей, определяющих отношения, может усложнить аналитический поиск и использование данных. Структура данных привязана к бизнес-функции, которая производит и использует данные, поэтому объединение данных, генерируемых разнородными системами (например, в хранилище данных), может оказаться проблематичным.
- Cущность-отношение (E-R). Модель E-R представляет структуру бизнес-данных в графическом виде, содержащую блоки различной формы для представления операций и функций («сущностей»), а также линии для представления связей и зависимостей («отношений»). Эта модель используется для создания реляционной базы данных, каждая строка которой представляет сущность, а поля в этой строке содержат атрибуты. Как и во всех реляционных базах данных, для связывания таблиц используются «ключевые» элементы данных.
Три уровня абстракции данных
Существует множество типов моделей данных с различными типами возможных конфигураций. Сообщество специалистов по обработке данных выделяет три типа моделирования, представляющие уровни мышления в процессе разработки моделей.
Концептуальная модель данных
Это общая модель, отражающая общую структуру и содержимое, но не подробные данные плана данных. Это типичная отправная точка для моделирования данных, определяющей различные наборы данных и поток данных в организации. Концептуальная модель является высокоуровневым концептуальным проектом для разработки логических и физических моделей и важной частью документации по архитектуре данных.
Логическая модель данных
Вторым уровнем детализации является логическая модель данных. Она наиболее точно соответствует общему определению «модели данных», поскольку описывает поток данных и содержимое базы данных. Логическая модель добавляет детали к общей структуре в концептуальной модели, но не содержит спецификаций самой базы данных, поскольку может быть применена к различным технологиям баз данных и продуктам. (Обратите внимание, что концептуальной модели может и не быть, если проект связан только с одним приложением или иной ограниченной системой.)
Физическая модель данных
Физическая модель базы данных описывает особенности реализации логической модели. Она должна содержать достаточно сведений, чтобы специалисты могли создать фактическую структуру базы данных в аппаратном и программном обеспечении для приложений, которые будут ее использовать. Разумеется, физическая модель данных специфична для определенной программной системы базы данных. Если будут применяться разные системы управления базами данных, на одной логической модели может быть основано несколько физических моделей.
Процесс и методы моделирования данных
Моделирование данных по своей сути является нисходящим процессом, который начинается с концептуальной модели для определения общего представления, затем переходит к логической модели и, наконец, к детальному проекту, содержащемуся в физической модели.
Построение концептуальной модели в основном представляет собой процесс преобразования идей в графическую форму, которая напоминает блок-схему программиста-разработчика.
Современные инструменты моделирования данных помогут вам определить и построить логическую и физическую модели данных и базы данных. Вот несколько типичных приемов и этапов моделирования данных:
Определение сущностей и создание диаграммы отношений сущностей (ERD). Сущности лучше всего можно описать как «элементы данных, представляющие интерес для вашего бизнеса». Например, «клиент» является сущностью. Другой сущностью будет «продажа». В диаграмме отношений документируется, как все эти сущности взаимосвязаны друг с другом в рамках вашего бизнеса и какие высокоуровневые связи существуют между ними.
Определите факты, показатели и измерения. Факт — это часть данных, указывающая на определенное возникновение или сделку, например продажу продукта. Это количественные показатели, такие как количество, выручка, затраты и т. д. Измерения являются качественными показателями, такими как описания, местоположения и даты.
Создание ссылки на представление данных с помощью графического инструмента или SQL-запросов. Если вы не знакомы с языком SQL, удобнее всего использовать графический инструмент, позволяющий перетаскивать элементы в модель и визуально создавать связи. При создании представления можно объединить таблицы и даже другие представления в рамках единого вывода. При выборе источника в графическом представлении и перетаскивании в дополнение к источнику, уже связанному с выводом, у вас появляется возможность либо соединить эти таблицы (join), либо создать их объединение (union).
Современные аналитические решения также позволяют выбирать, фильтровать и подключать источники данных с помощью графического перетаскивания. Расширенные инструменты доступны экспертам по данным, обычно работающим в ИТ, но пользователи также могут создавать собственные журналы, визуально создавая модель данных и организуя таблицы, диаграммы, карты и другие объекты для создания журнала на основе анализа данных.
Примеры моделирования данных
Для любого применения — коммерческого, развлекательного, личного или иного — моделирование данных является необходимым начальным этапом проектирования системы и определения инфраструктуры, необходимой для ее работы. Это относится к любому типу транзакционных систем, пакету или комплексу приложений для обработки данных, а также к любой другой системе, которая собирает, создает или использует данные.
Моделирование данных крайне важно для организации хранилищ данных, поскольку последние являются репозиториями для данных, поступающих из различных источников, которые могут содержать похожие или связанные данные в разных форматах.Сначала необходимо спланировать форматы и структуры хранилища, чтобы определить, как должен обрабатываться каждый входящий набор данных в соответствии с требованиями структуры хранилища, чтобы данные были пригодными для целей анализа и обнаружения скрытых закономерностей в них. Таким образом, модель данных обеспечивает возможность применения аналитических инструментов, информационных систем для руководителей (информационных панелей), интеллектуального анализа данных, а также интеграции с любыми системами данных и приложениями для работы с данными.
На ранних этапах проектирования любой системы моделирование данных является ключевой предпосылкой, определяющей все последующие шаги и этапы создания фундамента, на который опираются все программы, функции и инструменты. Модель данных — это своего рода общий язык, который позволяет системам общаться благодаря пониманию и принятию данных, описанных в модели. Это как никогда важно в современном мире больших данных, машинного обучения, искусственного интеллекта, облачных сетевых технологий, Интернета вещей и распределенных систем, включая периферийные вычисления.
Эволюция моделирования данных
На самом деле моделирование данных появилось одновременно с обработкой данных, их хранением и компьютерным программированием, хотя сам термин вошел в обиход только в шестидесятых годах прошлого века, когда начали развиваться системы управления базами данных. В концепции планирования и разработки архитектуры новой структуры нет ничего нового или инновационного. Моделирование данных становилось все более структурированным и формализованным по мере того, как появлялось все больше данных, баз данных и типов данных.
Сегодня моделирование данных необходимо как никогда, поскольку технологам приходится учитывать новые источники данных (датчики Интернета вещей, устройства с функцией определения местоположения, запись пользовательской активности, социальные сети), а также рост потока неструктурированных данных (текст, аудио, видео, необработанные данные с датчиков), объемы и скорость поступления которых превышают возможности традиционных систем. В настоящее время существует постоянный запрос на новые системы, инновационные структуры баз данных и методы работы с ними, а также на новые модели данных, которые позволили бы связать воедино новые подходы к разработке.
Перспективы моделирования данных
Информационная связность и большие объемы данных из самых разных источников, включая датчики, голосовую связь, видео, электронную почту и многое другое, расширяют рамки проектов по моделированию данных для ИТ-специалистов. И, конечно, одним из ключевых факторов этой эволюции является интернет. Облако — это важная часть решения, поскольку оно является единой вычислительной инфраструктурой, достаточно большой, масштабируемой и гибкой для удовлетворения текущих и будущих потребностей в мире усложняющихся взаимосвязей.
Меняется и структура проектируемых баз данных. Десять лет назад доминирующей структурой баз данных была ориентированная на строки реляционная база данных, использующая традиционную технологию хранения на дисковых накопителях. Данные для типичной главной книги ERP-решения или системы управления запасами хранились в десятках различных таблиц, которые необходимо было обновлять и моделировать. Сегодня современные ERP-решения хранят активные данные в оперативной памяти, используя столбцовую структуру, которая позволяет значительно уменьшить количество таблиц и повысить скорость и эффективность.
Новые средства самообслуживания, доступные сегодня специалистам различных направлений бизнеса, будут постоянно совершенствоваться. Будут также появляться новые инструменты, которые позволят еще больше упростить моделирование и визуализацию данных и расширить возможности совместной работы.
Заключение
Хорошо продуманная и полная модель данных — это ключ к разработке по-настоящему функциональной, полезной, безопасной и точной базы данных. Начните с концептуальной модели, чтобы определить все компоненты и функции модели данных. Затем конкретизируйте эти планы в виде логической модели данных, описывающей потоки данных и определяющей, какие данные необходимы и как они будут собираться, обрабатываться, храниться и распределяться. Логическая модель данных является основой для физической модели данных, специфичной для конкретного продукта базы данных, и представляет собой подробный проектный документ, на основе которого создаются база данных и программные приложения.
Качественное моделирование данных и проектирование баз данных крайне важны для разработки функциональных, надежных и безопасных прикладных систем и баз данных, которые успешно работают с хранилищами данных и аналитическими инструментами, а также упрощают обмен данными с деловыми партнерами и между разными наборами приложений. Хорошо продуманные модели данных помогают обеспечить целостность данных, позволяя компании повысить ценность и надежность данных.
Современные инструменты моделирования данных
Объедините данные с бизнес-контекстом, предоставив бизнес-пользователям возможность извлекать ценную информацию.
Идеи, которые вы больше нигде не найдете
Зарегистрируйтесь, чтобы получить дозу бизнес-информации и аналитики, доставляемую прямо в ваш почтовый ящик.