flex-height
text-black

Женщина анализирует данные за своим столом

Что такое сетка данных?

Сетка данных — это подход к управлению данными, использующий распределенную архитектурную структуру.

default

{}

default

{}

primary

default

{}

secondary

Обзор сетки данных

Сетка данных представляет собой новый способ просмотра информации. Из растущей концепции вытекает, что данные на самом деле сами по себе являются продуктом, инструментом, средством достижения цели, а не просто тем, что компании собираются и анализируют позднее, пытаясь понять, что уже произошло.

Определение сетки данных

Сетка данных — это подход к управлению данными, использующий распределенную архитектурную структуру. Другими словами, он распределяет ответственность за определенные наборы данных по всей компании на пользователей, обладающих специальными знаниями, чтобы понять, что означают эти данные и как их наилучшим образом использовать.

Архитектура сетки данных соединяет и извлекает данные из различных источников, таких как озера данных и хранилища. Затем соответствующие наборы данных распределяются между соответствующими человеческими экспертами и группами по доменам по всему бизнесу. По сути, объемный объем данных в центральном озере данных сортируется и распределяется по управляемым блокам тем, кто лучше всего подходит для их понимания и использования.

Происхождение сетки данных

Сетка данных возникла примерно в 2009 году в ответ на проблемы масштабирования архитектур данных в крупных, сложных организациях. Основной идеей сетки данных является децентрализация владения данными и архитектуры, обработка данных как продукта и присвоение ответственности командам, ориентированным на домены. Сетка данных объединяет принципы доменного проектирования, мышления о продукте и инфраструктуры самообслуживания, позволяя организациям масштабировать системы данных без создания монолитных узких мест.

Централизованные модели управления данными часто оказываются неудачными в крупных организациях по следующим причинам:

Преимущества сетки данных

Устаревшие базы данных и ограниченная инфраструктура управления данными способствовали пониманию того, что данные находятся в едином хранилище и используются по усмотрению нескольких диспетчеров данных. Теперь, данные является топливом, которое управляет вашим бизнесом; оно должно быть предоставлено свободно тем предметным специалистам, которые лучше всего знают, как сделать его работать и приносить прибыль в конкурентное время.

Основные преимущества архитектуры сетки данных можно обобщить в трех категориях:

Масштабируемость и гибкость

Повышение доступности данных. Сетка данных обеспечивает доступ всех нужных сотрудников вашей организации к нужным им данным, чтобы быть абсолютным лидером в своей работе.

Настраиваемые конвейеры данных и процессы. Многие из лучших и потенциально наиболее прибыльных проектов были отложены из-за огромных трудностей, связанных с курированием уникальных и настраиваемых наборов данных, необходимых для достижения успеха. Сетка данных позволяет командам быстро получать доступ к новым моделям проектов и тестировать их без потери времени и ресурсов.

Устранение узких мест. Это очевидная победа как для ИТ-специалистов, так и для владельцев данных. Кроме того, снижение уровня разочарования и раздражения может помочь избавиться от разрозненности, способствующей здоровому развитию бизнеса.

Качество и доверие

Улучшенные аналитические функции. Когда организации рассматривают данные как продукт для ежедневного использования, команды начинают применять подход к планированию и стратегии, ориентированный на данные. Это приводит к сокращению числа ошибок и более объективному, менее ориентированному на мнения подходу к развитию бизнеса.

Междоменное сотрудничество и повторное использование

Снижение нагрузки на центральные группы управления данными. Это означает не только сокращение отставаний и разочарований, но и высвобождение бесчисленного количества часов, чтобы талантливые ИТ-команды могли посвятить себя более специализированным, интересным и прибыльным занятиям.

Благодаря децентрализации владения и обработке данных как продукта сетка данных позволяет организациям быстрее двигаться вперед, завоевывать доверие к аналитике и легко масштабироваться по всем доменам.

Основные принципы сетки данных

Когда мы говорим об озерах данных и сетке данных, мы фактически говорим о больших данных. То, что делает данные «большими», — это не просто их огромный объем. Помимо прочих критериев, большие данные также определяются сложными, переменными, быстро генерируемыми и неструктурированными.

Линейная база данных похожа на электронную таблицу: она содержит столбцы и строки, а также неизменные категории, в которые должны помещаться все компоненты данных. Некоторые данные, полученные из машин, датчиков и промышленных источников, структурированы и аккуратно вписываются в линейную базу данных. Независимо от того, с каким объемом данных приходится иметь дело, если он на 100% структурирован, он не соответствует критериям больших данных и может быть размещен в линейной базе данных, что значительно упрощает фильтрацию и экстракцию.

Однако современные большие данные все чаще являются неструктурированными и состоят из визуальных компонентов, открытого текста и даже видео и богатых средств массовой информации. Эти важные данные могут состоять из тысяч терабайт информации для многих компаний и просто не могут храниться в стандартной линейной базе данных.

Введите озеро данных. По мере увеличения объемов больших данных озера данных разрабатывались как место, где можно хранить сложные данные и получать к ним доступ из центрального хранилища в необработанном формате. Хотя озера данных представляют собой превосходное решение проблемы больших данных, у них, тем не менее, есть слабые стороны. В озерах данных отсутствуют определенные аналитические функции, что делает их зависимыми от других сервисов поиска, индексации, преобразования, запросов и аналитики.

Четыре принципа сетки данных решают проблемы, связанные с озерами данных:

1. Владение доменом

Владение озерами данных сложно определить, когда слишком много игроков создает и получает доступ к данным. При отсутствии четко определенных ролей и обязанностей одним и тем же набором данных могут по-разному управляться различными сторонами, что приводит к противоречиям, которые затрудняют их использование. Точно так же другие данные оказываются забытыми, когда ими не управляют те, кто в конечном итоге будет их использовать.

Архитектура Data Mesh решает эту проблему путем децентрализации владения. Это обеспечивает четкое распределение управления данными по доменам, чтобы каждая группа или эксперт по доменам управлял данными, которые они создают и используют. Для этого в сетках данных также используется объединенная структура управления, обеспечивающая централизованный контроль моделирования данных, политик безопасности и соответствия. Владение сеткой данных обеспечивает подотчетность и повышает удобство использования данных.

2. Данные как продукт

Озера данных могут не обеспечивать качество данных, когда объем данных становится слишком большим или когда центральные менеджеры не понимают их. Архитектура сетки данных принципиально обрабатывает данные как ценный продукт, что ставит качество и полноту данных на передний план управления данными. Предположительно, каждая группа знает наиболее важные критерии и вопросы, которые они хотят экстраполировать из собираемых ими данных. Интегрируя эти критерии и приоритеты в архитектуру, сетка данных может помочь обеспечить непрерывное и приоритетное предоставление чистых, свежих и полных данных, даже если задействованы более крупные наборы данных. И, конечно, когда применяются алгоритмы машинного обучения, эти критерии и результирующие наборы данных со временем становятся все более точными и полезными.

3. Самостоятельная платформа данных

Озера данных могут создавать узкие места из-за их централизованной архитектуры и традиционно сложных процессов и протоколов извлечения данных. Как правило, это означает, что управление большим объемом консолидированных данных передается одной группе ИТ или управления данными. И по мере увеличения объемов данных (и спроса на их извлечение) эти ИТ-команды переваливают с налогов.

Кроме того, данные должны быть должным образом проверены и структурированы для обеспечения соответствия принципам управления данными. При возникновении чрезмерного давления может наблюдаться тенденция к тому, чтобы продвигаться по этим этапам соблюдения требований, что создает потенциальный риск и убытки для компании. Принципы сетки данных решают эту проблему, обеспечивая самостоятельную платформу данных. Он предоставляет доступ и контроль уполномоченным специализированным пользователям, которые имеют больший интерес к данным — все это при использовании строгих протоколов безопасности. Это сокращает количество узких мест и ускоряет поставку данных.

4. Федеративное управление

В то время как децентрализация является ключевым, организации не могут отказаться от управления. Сетка данных использует модель федеративного управления, чтобы сбалансировать автономию с единообразием. Это означает, что домены управляют собственными продуктами данных, но должны соответствовать общим стандартам безопасности, соответствия и интероперабельности в масштабе организации. Такой гибридный подход к управлению сеткой данных обеспечивает гибкость без ущерба для доверия и соблюдения нормативных требований.

Хотя проблемы с сеткой данных существуют, децентрализованная и демократизированная архитектура управления данными сделала компании более интеллектуальными, гибкими и точными. Как? Обеспечивая доступность нужных данных нужным людям в любое время и в любом месте. Сетка данных делает данные как продукт реальной реальностью, снижая барьеры и расставляя приоритет ценности информации, чтобы команды могли быстрее и беспрепятственно получать доступ к важным данным.

Архитектура и фреймворки сетки данных

Мы рассмотрели, как сетка данных является децентрализованной формой архитектуры данных, которая рассматривает данные как важный инструмент управления бизнесом. И, что немаловажно, как независимые группы отвечают за обработку данных в рамках своей работы и опыта, сохраняя при этом соблюдение централизованно определяемых практик управления данными. Это изменение образа мышления лежит в основе сетки данных.

Обзор архитектуры сетки данных с высоты птичьего полета

В сетке данных домены являются основными производителями и потребителями данных, каждый из которых владеет своими данными как продуктом для обеспечения качества и актуальности. Платформа самообслуживания предоставляет инфраструктуру для публикации, обнаружения и использования этих продуктов данных, а также автоматизированные функции безопасности и соответствия. Управление работает в федеративной модели, балансируя глобальные стандарты совместимости и безопасности с локальной автономией, чтобы домены могли внедрять инновации, сохраняя при этом доверие и согласованность в масштабе всей организации.

Чтобы лучше понять, как архитектура сетки данных подходит друг к другу, рассмотрим три основных компонента.

Источники данных

Они представляют собой репозиторий (как озеро данных), в который передаются первичные необработанные данные. Независимо от того, осуществляется ли сбор данных из облачных сетей IIoT, форм обратной связи с клиентами или скрещивание веб-данных, это необработанные входные данные, на которые пользователи будут ссылаться и обрабатывать по мере необходимости по всей сети. В то время как подход к озеру данных сводит все эти данные в одно центральное место, методология сетки данных распределяет ответственность за прием, хранение, обработку и экстракцию этих необработанных данных в рамках ряда ответственных областей.

Инфраструктура сетки данных

Информация не только изолирована в отдельных доменах отделов, но также может передаваться по собственному желанию в рамках всей операционной сети организации, сохраняя при этом соответствие установленным правилам управления данными. Это прямой результат двух ключевых столпов сетки данных: самостоятельной платформы данных и федеративного управления. Самостоятельная платформа данных предоставляет инструменты и инфраструктуру, необходимые для повсеместного приема, преобразования, обработки и обслуживания данных в каждой области. В то же время федеративные принципы управления обеспечивают стандартизацию в масштабе всей организации, позволяя легко взаимодействовать с данными между всеми группами, работающими в домене.

Владельцы данных

В качестве заключительного компонента сетки данных владельцы данных отвечают за применение протоколов соответствия, управления и категоризации данных своих отделов. Например, файлы HR должны храниться по определенным протоколам безопасности, они не должны использоваться для этого или для этой цели, они должны быть деблокированы только для такого лица. Разумеется, каждый отдел будет иметь категории и типы данных, уникальные для их отделов или целей. В системе озера данных ИТ-команды должны взаимодействовать со всеми этими различными протоколами и категориями для всех владельцев данных, которые сбросили данные в озеро. В то время как архитектура сетки данных предоставляет владельцам доменов все полномочия и контроль над этими вопросами, потому что кто же лучше, чем эксперты предметной области, может управлять своими собственными данными и обеспечивать, чтобы они соответствовали стандартам качества?

Модель работы сетки данных

Модель управления сеткой данных объединяет людей, процессы и технологии для обеспечения децентрализованного управления данными в нужном масштабе. Такое сотрудничество обеспечивает беспрепятственный поток данных по всей организации, укрепляя доверие, гибкость и повторное использование без привлечения единой централизованной команды. Сетка данных обеспечивает совместимость и возможность обнаружения за счет соблюдения общих стандартов и предоставления общей платформы, непротиворечивых форматов и критериев поиска, а также правил управления публикацией и использованием продуктов данных. Такие инструменты сетки данных, как каталоги данных и реестры, позволяют командам быстро находить, безопасно получать доступ и использовать продукты данных по всей организации.

Считайте сетку данных современным городом: каждый район (домен) управляет собственными коммунальными услугами, такими как вода, электричество и отходы, потому что они лучше всего знают свои локальные потребности. Город обеспечивает общую инфраструктуру, такую как дороги и общественный транспорт (платформа самообслуживания) и стандарты безопасности (управление), чтобы кварталы могли соединяться, получать доступ к городским ресурсам и сотрудничать без хаоса. Таким образом, ресурсы свободно текут по всему городу, каждый следует общим правилам, а инновации процветают на местном уровне, в то время как весь город функционирует бесперебойно.

На практике сетка данных: примеры и сценарии использования

Чтобы решения по управлению данными развивались и становились более успешными, они должны быть пригодны для использования и актуальны для широкого спектра приложений и операций. По мере улучшения архитектуры сетки данных и удобства для пользователей расширяется спектр бизнес-функций, которые организации могут расширить с помощью безопасного и распределенного подхода к данным в качестве продукта и инструмента.

Рассмотрим некоторые общие бизнес-сценарии использования сетки данных.

Продажи

Для групп сбыта все сводится к привлечению, взращиванию и закрытию потенциальных возможностей. Чем больше времени сотрудники отдела продаж тратят на выполнение административных задач, тем меньше у них времени на построение отношений с новыми клиентами. Благодаря архитектуре сетки данных пользователям отдела продаж не нужно быть экспертами по управлению данными и извлечению данных, чтобы иметь под рукой самые мощные и релевантные наборы данных и комбинации. Когда отделы продаж имеют все необходимые данные для анализа, они преобразуют их в более полезные сведения и стратегии.

Пример сетки данных о продажах: региональные или специфичные для продуктов группы продаж могут владеть доменами CRM и данных пайплайна, обеспечивая точное прогнозирование и информационные панели в реальном времени, не дожидаясь центрального ИТ-отдела.

Цепочка поставок и логистика

Современные цепочки поставок уязвимы перед лицом огромного диапазона сбоев. Конкурентное преимущество возникает, когда компании могут быстро меняться и реагировать как на угрозы, так и на возможности с одинаковой гибкостью. Современные данные о глобальной цепочке поставок поступают в виде толстых и быстрых данных — от обратной связи от клиентов до сетей IIoT и цифровых двойников. Когда опытные и грамотные менеджеры по логистическим цепочкам сами могут курировать и детализировать любые из этих наборов данных в реальном времени, компании получают мощный источник информации и умения.

Пример сетки данных цепочки поставок: для оптимизации цепочки поставок требуется прозрачность данных об уровнях запасов, эффективности поставщиков и логистике в реальном времени. Сетка данных предоставляет каждому домену (закупки, складирование, транспортировка) права собственности на свои продукты данных, что позволяет быстрее принимать решения и обеспечивать экономичность операций.

Производство

В рамках логистической цепочки производственные операции компании в равной степени подвержены быстрым рыночным сдвигам и изменчивым потребностям клиентов. В прошлом команды по проектированию и исследованиям и разработкам полагались на исторические данные клиентов, поступающие из других отделов. Сегодня сетка данных предоставляет пользователям доступ к актуальным данным за черновой таблицей, командам НИОКР и тестирования и всему производственному этапу. Обратная связь от клиентов в реальном времени позволяет мгновенно получать информацию о процессе разработки продукции, используя самые актуальные данные сетей IIoT и цифрового моделирования, которые помогают заводам работать более безопасно, быстрее и эффективнее.

Пример сетки производственных данных. Команды на уровне завода могут владеть данными о производительности датчиков и машин, обеспечивая диагностическое обслуживание и сокращая простои благодаря децентрализованной аналитике.

Маркетинг

Сегодня потребности и ожидания клиентов формируют будущее, а изменения и рост происходят беспрецедентными темпами. Единый бренд, как правило, имеет множество точек взаимодействия с потребителями в социальных сетях, таргетированную цифровую рекламу, а также онлайн-и омниканальные торговые порталы. Нынешний рынок видит растущее стремление к быстрой кастомизации, сокращению жизненных циклов продуктов и огромному уровню выбора и конкуренции. Для понимания и опережения этих тенденций современным маркетологам требуется доступ к широкому спектру наборов данных в реальном времени и одновременно. В прошлом это означало запрос (и ожидание) этих данных у других отделов. Однако при настройке сетки данных маркетологи могут курировать эти данные и получать к ним доступ в данный момент на своих собственных условиях.

Пример сетки маркетинговых данных: создание представления о клиентах 360 требует интеграции данных из различных каналов, таких как электронная почта, социальные сети и платная реклама. Сетка данных позволяет каждому каналу владеть своим продуктом данных, обеспечивая точную аналитику в реальном времени для персонализированных кампаний и повышения качества клиентского опыта.

Управление персоналом

Отделы кадров должны управлять большими объемами чрезвычайно сложных и конфиденциальных данных. И с растущей тенденцией к удаленным и гибридным рабочим местам эти данные с каждым днем становятся все более сложными и географически разнообразными. Не говоря уже о постоянно меняющемся наборе нормативных требований и правовых вопросах, которые отдел кадров должен в срочном порядке решить. От приема на работу до выхода на пенсию руководители кадровых служб должны иметь возможность проверять, оценивать и анализировать некоторые из наиболее широко разрозненных наборов данных в любой организации. Архитектура Data Mesh обеспечивает соответствующие протоколы безопасности и жестко ограниченный доступ. В то же время, это позволяет авторизованным пользователям HR быстро и без зависимости от сложных внутренних протоколов и бюрократических структур разных отделов получать доступ к данным и информации.

Пример сетки данных HR: команды по подбору персонала, расчету зарплаты и управлению эффективностью могут управлять собственными областями данных, улучшая нормативное соответствие и обеспечивая аналитику персонала в реальном времени для принятия стратегических решений.

Финансы

Как и отдел кадров, отделы финансов и бухгалтерского учета также несут ответственность за крайне важные и конфиденциальные данные. Современные ERP-системы кардинально меняют подходы к управлению финансами, используя технологию базы данных in-memory для настройки актуальных отчетов, анализа и прогнозов. Однако даже в тех случаях, когда финансовые отделы используют лучшие базы данных и ERP-системы, они по-прежнему сталкиваются с препятствиями из-за давних и жестких культур, сильной разрозненности и бюрократических, старых школьных процессов. Архитектура сетки данных вносит фундаментальный сдвиг в способ просмотра и управления финансовыми данными. Это может даже встряхнуть застойное мышление, которое может произойти, когда организации предоставят командам возможность владеть и пересматривать собственные процессы обработки данных о старении.

Пример сетки финансовых данных: отделы финансового планирования могут владеть данными по доходам, расходам и инвестициям, обеспечивая точное прогнозирование и гибкое моделирование сценариев без привлечения единой центральной команды.

Очевидно, что сетка данных — это не просто еще одно жуткое слово, а тенденция к стратегии работы с данными, которую необходимо серьезно воспринимать. Компании всех размеров и отраслей используют сетку данных и ищут способы использования данных для получения ценной информации.

Альтернативы сетки данных

Хотя сетка данных предлагает децентрализованный подход к управлению данными, это не единственный вариант. Традиционные архитектуры, такие как озера данных и хранилища данных, по-прежнему широко используются для централизации и хранения больших объемов данных, часто в сочетании с хранилищами данных, которые объединяют возможности структурированных и неструктурированных данных. Другие модели, такие как ткань данных, ориентированы на создание единого уровня для интеграции и оркестрации данных в различных системах. Каждая альтернатива по-разному учитывает масштабируемость, управление и доступность, делая выбор зависимым от организационных потребностей и зрелости.

Рассмотрим альтернативы сетки данных и их сравнение.

Сетка данных в сравнении с озером данных/лакехаузом

Сетка данных
Озеро данных/хранилище данных
Основная концепция
Децентрализованная архитектура с федеративным управлением
Централизованный репозитарий для необработанных или полуструктурированных данных
Фокус
Владение, управление и возможность обнаружения
Хранение и обработка больших объемов данных
Лучшее для
Организации, испытывающие трудности с узкими местами и масштабируемостью
Компаниям требуется единый источник аналитики и рабочей нагрузки машинного обучения
Когда выбирать
Когда качество данных, автономность и междоменное сотрудничество имеют наиболее важное значение
Если приоритетными являются экономичное хранение и пакетная аналитика

Сетка данных и хранилище данных

Сетка данных
Хранилище данных
Основная концепция
Распределенные продукты данных, управляемые доменами
Централизованный структурированный репозитарий аналитики
Фокус
Масштабируемость, гибкость и децентрализованное управление
Высокопроизводительные запросы и отчеты BI
Лучшее для
Сложные организации с разнообразными и быстро меняющимися потребностями в данных
Компании с преимущественно структурированными данными и стандартизированной отчетностью
Когда выбирать
Когда гибкость, владение доменом и интероперабельность критически важны
При наличии непротиворечивости важнейшими приоритетами являются отчетность за прошлые периоды и соответствие нормативным требованиям

Сетка данных и ткань данных

Сетка данных
Фабрика данных
Основная концепция
Децентрализованное владение данными на основе доменов
Централизованный уровень интеграции для доступа к данным
Фокус
Организационная модель для масштабируемости и автономности
Подключение и автоматизация на основе технологий
Лучшее для
Крупные организации со сложными структурами доменов
Предприятия, которым требуется унифицированный доступ к разрозненным данным
Когда выбирать
Когда приоритетами являются гибкость, подотчетность в области и модель «данные как продукт»
Если бесшовная интеграция и автоматизация в гибридных средах являются основной целью

Реализация сетки данных

Для внедрения сетки данных требуется стратегический подход, предусматривающий сбалансированность децентрализации с общими стандартами. Вот основные шаги сетки данных:

  1. Определение пилотных доменов. Начните с малого, выбрав два или три домена с четкой ценностью для бизнеса и высокой степенью зрелости данных. Эти команды станут пионерами внедрения, проверяя модель сетки данных перед масштабированием в масштабе всей организации.
  2. Создание платформы. Создайте самостоятельную платформу данных, предоставляющую общие инструменты для публикации, обнаружения и использования продуктов данных. Сюда относятся каталоги данных, API и автоматизированные функции безопасности для уменьшения трений между группами по доменам.
  3. Определение федеративного управления: создание политик управления, обеспечивающих соблюдение глобальных стандартов безопасности, соответствия и совместимости, при этом обеспечивая автономность доменов. Руководство должно включать четкие роли, определения продуктов данных и ожидания в отношении качества.

Анти-шаблоны, чтобы избежать

Когда сетка данных выполняется неправильно, не следуя естественным организационным моделям, это может привести к путанице и раздору. Анти-шаблон в сетке данных представляет собой повторяющийся подход или практику, которые кажутся полезными, но в конечном итоге подрывают основные принципы архитектуры. Анти-шаблоны, чтобы избежать, включают:

Пять лучших практик для сетки данных

  1. Запуск малого и итерации. Используйте пилотные домены для уточнения процессов перед масштабированием.
  2. Обработка данных как продукта: определение стандартов владения, SLA и удобства использования для каждого набора данных.
  3. Инвестируйте в общие инструменты: упростите публикацию и обнаружение для доменных команд.
  4. Встраивание управления на ранних этапах: баланс между автономностью и соблюдением нормативных требований с самого начала.
  5. Ориентация на бизнес-результаты. Согласуйте продукты данных с измеримой ценностью, а не только с техническими целями.

Объединяя владение доменами, надежную платформу и федеративное управление, организации могут повысить гибкость, доверие и междоменное сотрудничество без узких мест в традиционных централизованных моделях.

Измерения и показатели

Для оценки успешности необходимы показатели сетки данных, позволяющие сбалансировать техническую эффективность и бизнес-результаты. Эти метрики могут включать:

Вместе эти показатели позволяют получить представление о том, обеспечивает ли сетка данных гибкость, доверие и масштабируемость, не предполагая универсальных эталонов.

Часто задаваемые вопросы по сетке данных

Что такое демократизация данных?
В своей основе демократизация данных заключается в решении проблем с данными, с которыми люди сталкиваются в своей повседневной работе. Сетка данных поддерживает это за счет децентрализации владения бизнес-доменами, поэтому управление данными осуществляется теми, кто ближе всего к их контексту, и с помощью платформы самообслуживания, упрощающей публикацию, обнаружение и использование продуктов данных. Более подробная информация об определении, принципах и том, как помочь сотрудникам комфортно задавать вопросы, связанные с данными, и получать ответы на них см. в этом блоге.
Что такое интероперабельность?

Операционная совместимость определяется как способность системы или продукта работать с другими системами или продуктами без особых усилий со стороны пользователя. Techtarget добавляет, что это помогает организациям достичь более высокой эффективности и более целостного представления информации и данных. Для получения более подробной информации в этом уроке по открытому MOOC приводятся основы взаимодействия данных, а также различные типы и уровни интероперабельности данных.

В контексте данных интероперабельность выходит за рамки простого подключения и включает возможность обнаружения (упрощение поиска продуктов данных по всем доменам или реестрам); договоры (четкие, машиночитаемые соглашения о схемах данных, API и SLA для обеспечения последовательного использования); и общие стандарты (общие методы управления, метаданных и безопасности для беспрепятственного обмена данными между доменами).

Примером интероперабельности является то, что домен клиента публикует продукт данных с профилями клиентов, а затем домен "Продажи" использует эти данные для пополнения аналитики пайплайна. Операционная совместимость позволяет специалистам по продажам находить продукт данных клиента в каталоге, опираться на контракт на гарантию схемы и качества, а также интегрировать его с помощью общих стандартов без ручной работы.

В чем разница между сеткой данных и фабрикой данных?

Сетка данных и ткань данных представляют собой различные архитектурные подходы в рамках стратегии управления данными компании.

Ткань данных — это технологический подход, нацеленный на поиск все более удобных способов управления сложными метаданными и неструктурированной информацией путем объединения ИИ, машинного обучения и расширенной аналитики. С другой стороны, сетка данных, в то время как она зависит от всех технологических разработок в структуре данных, в большей степени ориентирована на интеграцию процессов управления данными с зависящими от них человеческими пользователями, а также на поиск путей оптимизации и упрощения доступа к данным и их полезности с точки зрения людей.

Между сеткой данных и фабрикой данных существует какая-то взаимосвязь «цыпля-яйцо»: для того, чтобы управление данными развивалось с требуемой скоростью, необходимы постоянно расширяющиеся технологии фабрики данных. Однако без сопутствующей эволюции процессов и организационных стратегий люди не смогут должным образом использовать передовые технологии фабрики данных. Так же, как DOS и сложные интерфейсы уступили место более бесшовным компьютерным операционным системам, которыми мы сегодня пользуемся, архитектурам сетей данных и фабрик данных суждено стать все более бесшовными по мере продвижения этих процессов и технологий.

Какую проблему решает сетка данных?
Сетка данных решает проблемы узких мест, создаваемых центральными группами данных, ускоряет получение информации и масштабируемость. Традиционные модели ориентированы на владение данными и их обработку в одной команде, что приводит к задержкам и снижению гибкости. Сетка данных решает эту проблему, применяя четыре принципа: владение доменами, данные как продукт, самостоятельная платформа данных и федеративное управление. Вместе принципы сетки данных децентрализуют ответственность, повышают доступность и ускоряют принятие решений.
Является ли сетка данных технологией или операционной моделью?
Сетка данных является операционной моделью, а не единой технологией или инструментом. Это способ организации работы групп с данными путем децентрализации владения по бизнес-доменам и обработки данных как продукта. Модель сетки данных поддерживается общими возможностями платформы, такими как самостоятельная инфраструктура, каталоги данных и инструменты управления, которые помогают командам эффективно публиковать данные, обмениваться ими и управлять ими. Вместо замены существующих технологий сетка данных представляет собой основу для масштабирования данных в масштабе всей организации без создания узких мест в централизованных командах.