flex-height
text-black

رجل يمشي في غرفة خادم

ما هو مستودع البيانات الكبير؟

مستودع البيانات هو مستودع بيانات مركزي يساعد في معالجة مشكلات مخازن البيانات.

default

{}

default

{}

primary

default

{}

secondary

ما هو مستودع البيانات: التعريف والغرض

مستودع البيانات هو مستودع مركزي يقوم بتخزين البيانات البنيوية وشبه البنيوية وغير البنيوية بتنسيقاتها الأصلية. بخلاف أنظمة التخزين الأخرى، التي تتطلب تنظيم البيانات قبل تخزينها (على سبيل المثال، مستودعات البيانات)، تقبل مستودع البيانات البيانات الأولية كما هي، وتحفظ بنيتها الأصلية وتنسيقها حتى تكون مطلوبة لحالات استخدام التحليلات المتقدمة والذكاء الاصطناعي (AI) وتدريب الآلة (ML).

الغرض الأساسي من مستودع البيانات هو تقسيم وحدات البيانات المنفصلة وإنشاء مصدر واحد لأصول بيانات المؤسسة. ويتضمن دمج البيانات من مصادر متعددة في موقع واحد يمكن الوصول إليه - بحيرة البيانات، وهذا يعني أن علماء البيانات والمحللين ومهندسي تدريب الآلة يمكنهم جميعًا استكشاف، وتجربة، واستخراج القيمة من المعلومات التي ربما ظلت بخلاف ذلك حبيسة الأنظمة المتباينة. ومن أمثلة مصادر البيانات التي يمكن تخزينها في مستودع بيانات ما يلي:

الغرض من مستودع البيانات هو توفير حل مرن وقابل للتطوير لتخزين وتحليل البيانات بجميع أنواعها. وهذا ما يتيحه نهج الجدولة على القراءة (مقابل. schema-on-write، كما هو مستخدم في مستودعات البيانات).

ماذا يعني المخطط عند القراءة؟

Schema-on-read يعني أن بنية ومعنى البيانات - المخطط - يتم تطبيقها عندما يتم الوصول إليها وليس عندما يتم تخزينها. وهذا يحافظ على المرونة، مما يسمح للمؤسسات بتخزين البيانات دون معرفة كيفية استخدامها بالضبط في المستقبل. ولهذا السبب تعد بحيرات البيانات مثالية للتحليلات الاستكشافية والتنقيب عن البيانات وتدريب الآلة واكتشاف أنماط غير متوقعة في البيانات.

مكونات وبنية مستودع البيانات

بنية مستودع البيانات متعددة الطبقات وتتكون من عدة مكونات رئيسية تعمل معًا لأخذ البيانات وتخزينها ومعالجتها وتسليمها للمستخدمين النهائيين والتطبيقات. المكونات الأساسية لمستودع البيانات هذه هي:

طبقة التخزين

طبقة التخزين هي أساس بنية مستودع البيانات، مبنية عادة على أنظمة تخزين الكائنات التي توفر تخزين فعال من حيث التكلفة وقابل للتطوير لأحجام البيانات الضخمة. تحمل هذه الطبقة البيانات بتنسيقها الأصلي، سواء كانت ملفات CSV أو مستندات JSON أو ملفات Parquet أو الصور أو مقاطع الفيديو أو أي تنسيق آخر.

استيعاب البيانات

تتعامل طبقة استيعاب البيانات مع عملية جلب البيانات إلى البحيرة من مصادر مختلفة. ويتضمن ذلك استيعاب الدُفعات لعمليات تحميل البيانات الدورية واستيعاب الدفق لتدفقات البيانات في الوقت الفعلي. يجب أن تتعامل أدوات استيعاب البيانات مع أنواع ومصادر البيانات المتنوعة مع ضمان تكامل البيانات وتتبع أصل البيانات.

دليل البيانات وإدارة بيانات التعريف

يحافظ مكون إدارة الفهرسة والبيانات الوصفية على جرد منظم للبيانات الموجودة في البحيرة، بما في ذلك موقعها ومعناها وعلاقاتها ببيانات أخرى. فكر فيها مثل المكتبة أو مدير دليل الأرشيف. يعمل دليل البيانات الفعالة كفهرس قابل للبحث، مما يمكِّن المستخدمين من اكتشاف مجموعات البيانات ذات الصلة دون الحاجة إلى الاستعراض يدويًا من خلال المستودع بأكمله.

طبقة المعالجة

تتيح طبقة المعالجة إمكانية تحويل البيانات وتنقيتها وتعزيزها وتحليلها. تتضمن هذه الطبقة محركات لمعالجة الدُفعات ومعالجة الدفق والاستعلامات التفاعلية، مما يسمح للمستخدمين بالتحضير لحالات استخدام محددة أو تنفيذ تحليل لغرض معين.

طبقة الوصول

توفر طبقة الوصول واجهات وأدوات لأنواع مختلفة من المستخدمين: علماء البيانات باستخدام الدفاتر أو المحللين الذين يقومون بتشغيل استعلامات SQL أو التطبيقات التي تستهلك البيانات من خلال واجهات برمجة التطبيقات. كما تفرض هذه الطبقة السياسات الأمنية، وإدارة من يمكنه الوصول إلى أي بيانات وتحت أي شروط.

أنواع بحيرات البيانات: سحابية، في مكان العمل، مختلطة، متعددة الشبكات السحابية

توجد أنواع مختلفة من بحيرات البيانات، بناءً على التكوين الذي تقوم المؤسسة بنشرها به. ويقدم كل تكوين مزايا ومفاضلات معينة.

بحيرات البيانات السحابية

تتم استضافة بحيرات البيانات السحابية بالكامل على الأنظمة الأساسية السحابية. ويمكنها تقديم إمكانية توسع غير محدودة تقريبًا وتسعير الدفع أولاً بأول والتكامل السهل مع التحليلات السحابية وخدمات الذكاء الاصطناعي. تعمل بحيرات البيانات السحابية على التخلص من الحاجة إلى استثمار البنية الأساسية مقدمًا، مما يسمح للمؤسسات بتوسيع نطاق موارد التخزين والاحتساب بشكل مستقل. فهي مناسبة بشكل خاص للمؤسسات المتنامية وأولئك الذين يتطلعون إلى تقليل التكاليف العامة التشغيلية، مع الاحتفاظ بإمكانية الوصول إلى إمكانات التحليلات المتطورة.

بحيرات البيانات في مكان العمل

يتم نشر بحيرات البيانات في مكان العمل داخل مراكز البيانات الخاصة بالمنظمة، مما يمنح السيطرة الكاملة على البنية التحتية والأمن وسيادة البيانات والمسؤولية الكاملة عنها. في حين تستخدم في بعض الأحيان من قبل المنظمات التي لديها متطلبات تنظيمية وأمنية محددة جدا، فإن بحيرات البيانات في مكان العمل تميل إلى أن تتطلب استثمارات رأسمالية كبيرة، وصيانة مستمرة، وجهد كبير لأي مشاريع التحول. في كثير من الأحيان، هو المفاضلة: زيادة مستوى تفصيل التحكم يأتي على حساب قابلية التوسع وكفاءة التكلفة.

بحيرات بيانات مختلطة

تجمع بحيرات البيانات المختلطة بين التخزين السحابي والتخزين في مكان العمل، مما يمكِّن المؤسسات من الاحتفاظ ببعض البيانات في مكان العمل مع الاستمرار في استخدام الموارد السحابية للتوسع والتحليلات المتقدمة. يوفر هذا النهج مرونة ولكنه يقدم تعقيدًا في مزامنة البيانات والحوكمة وإدارة تجربة متسقة عبر البيئات.

بحيرات بيانات متعددة الخدمات السحابية

تغطي بحيرات البيانات متعددة السحب العديد من مزودي الخدمات السحابية، مما يساعد المؤسسات على تجنب تأمين المورِّدين، وتحسين التكاليف باستخدام أفضل الخدمات من كل مزوِّد، وضمان استمرارية الأعمال من خلال التكرار. ومع ذلك، تتطلب البنى متعددة الشبكات السحابية تخطيطًا دقيقًا حول قابلية التشغيل البيني للبيانات، وسياسات أمان متسقة، وإدارة تكاليف نقل البيانات بين مزودي الخدمات السحابية. كما أنها قد تحول إدخال التغييرات أو الابتكارات إلى عملية أكثر تعقيدًا.

مستودع البيانات مقابل مستودع البيانات مقابل مخزن البيانات

يُعد فهم الفروق بين أساليب تخزين البيانات هذه أمرًا ضروريًا لاختيار الحلول المناسبة لأهداف مؤسستك. فلنقارن بحيرات البيانات ومستودعات البيانات ونوازل البيانات عبر عدد من المعايير الأساسية:

الميزات
نسخة البيانات
مستودع البيانات
مخزن البيانات
المخطط
Schema-on-read
Schema-on-write
مرن مع بنية اختيارية
أنواع البيانات
بنيوي، شبه بنيوي، غير بنيوي
منظَم بشكل أساسي (أحيانًا، شبه بنيوي)
كافة الأنواع مع إدارة الجداول
تكلفة التخزين النموذجية
تكلفة تخزين منخفضة
تكلفة تخزين أعلى
تكلفة متوسطة
المستخدمون الأساسيون
مهندسو وعلماء البيانات، مهندسو تدريب الآلة، المحللون
محللو الأعمال والمديرون التنفيذيون وعلماء البيانات
كافة أنواع المستخدمين
حالات الاستخدام
الاستكشاف ودفتر أستاذ المواد والتحليلات المتقدمة والذكاء الاصطناعي والتخزين القابل للتطوير حتى المعالجة الإضافية
محسَّن للاستعلامات والخوارزميات الخاصة
التحليلات وإعداد التقارير الموحدة
الأداء
متغير معتمد على محرك المعالجة
محسَّن للاستعلامات
أداء عالي مع إدارة مضمنة
جودة البيانات
البيانات الأولية بجودة متنوعة
البيانات التي تم تنظيفها والتحقق من صحتها
الجودة الإجبارية مع بعض المرونة

ما الذي يبدو عليه عملياً؟

تتفوق بحيرات البيانات عند تخزين كميات كبيرة من البيانات الخام اقتصاديًا وتدعم التحليلات الاستكشافية وتدريب الآلة. فهي مثالية عندما تحتاج إلى مرونة للعمل مع أنواع البيانات المتنوعة ولا تعرف مقدمًا كيفية استخدام البيانات. كما يمكنهم تخزين البيانات، والتي يتم سحبها بعد ذلك إلى مستودعات البيانات.

يتم إنشاء مستودعات البيانات لهذا الغرض من أجل التحليل الذكي للأعمال وإعداد التقارير، مع مخططات منظمة محسنة لأداء الاستعلام. وهي الأنسب لاحتياجات إعداد التقارير وإعداد النماذج المحددة جيدًا، حيث تكون جودة البيانات واتساقها من الأمور بالغة الأهمية - على سبيل المثال، للاستخدام في التحليلات التنبؤية. ومن الناحية العملية، يمكن حتى معالجة البيانات المتراكمة في بحيرات البيانات وتجريدها أو سحبها بانتظام إلى مستودعات البيانات، اعتمادًا على كيفية تكوين خطوط أنابيب البيانات.

تمثل منازل البيانات بنية أحدث تجمع بين مرونة بحيرات البيانات وقدرات الإدارة وأداء مستودعات البيانات. فهي تمكن المؤسسات من تشغيل كل من التحليلات الاستكشافية وإعداد تقارير الأعمال على نفس النظام الأساسي، مما يقلل من تكرار البيانات وتعقيدها.

مزايا بحيرات البيانات

فوائد بحيرات البيانات هي ما يجعلها مثل هذا الاختيار المقنع للمنظمات وحجر الزاوية في بنية البيانات الحديثة. وتشمل مزايا بنية مستودع البيانات ما يلي:

المرونة: تقبل بحيرات البيانات أي نوع بيانات بأي تنسيق، مما يلغي الحاجة إلى تحويل البيانات قبل التخزين أو التعامل مع فقدان بعض البيانات. وهذا يعني أنه يمكنك البدء في تجميع البيانات على الفور دون الحاجة إلى تخطيط مباشر واسع النطاق أو معرفة كيفية استخدامها. ويتيح نهج المخطط على القراءة للفرق المختلفة الاستفادة من نفس البيانات وتفسيرها بطرق مختلفة، مما يعزز الابتكار والاكتشاف.

قابلية التوسع: مع بحيرات البيانات، يمكن أن ينمو التخزين من غيغابايت إلى بيتابايت دون الحاجة إلى تغييرات معمارية أو هجرات، وخاصة مع التطبيقات المستندة إلى السحابة. يمكن للمؤسسات أن تبدأ صغيرة وأن تتوسع كلما زادت احتياجات بياناتها.

كفاءة التكلفة: من فوائد بحيرات البيانات للتخزين أنها عادة ما تكلف أقل بكثير من مستودعات البيانات التقليدية لنفس كمية التخزين، مما يجعل من المجدي اقتصاديا الاحتفاظ بالبيانات التاريخية واستكشاف مصادر بيانات جديدة دون تجاوز قيود الميزانية.

دعم التحليلات المتقدمة: تتيح بحيرات البيانات لعلماء البيانات ومهندسي تدريب الآلة الوصول إلى البيانات الأولية لبناء النماذج وتدريبها والتنقيب عن البيانات والمهام المتقدمة الأخرى. على عكس البيانات المعالجة في المستودعات، فإن تناول البيانات الأولية يحافظ على الفروق الدقيقة والتفاصيل التي يمكن أن تثبت أنها حاسمة للتنبؤات والرؤى الدقيقة. كما تدعم بحيرات البيانات التحليلات في الوقت الفعلي من خلال استيعاب بيانات الدفق، مما يسمح للمنظمات بالتصرف بناءً على معلومات جديدة.

إضفاء الطابع الديمقراطي على البيانات: هناك ميزة أخرى لبنية مستودع البيانات وهي أنه عندما يتم تخزين جميع البيانات التنظيمية في موقع واحد يمكن الوصول إليه، يمكن للمزيد من الناس في جميع أنحاء المنظمة اكتشاف البيانات واستخدامها، وتحطيم الوحدات المنفصلة وتعزيز اتخاذ القرارات المعتمدة على البيانات على جميع المستويات.

تحديات مستودع البيانات المشتركة

وفي حين أن بحيرات البيانات تقدم فوائد هائلة، فإنها تمثل أيضا تحديات يتعين على المؤسسات التصدي لها لتحقيق إمكاناتها بالكامل. وتشمل التحديات الشائعة لمستودع البيانات ما يلي:

إدارة مستودع البيانات المعقدة

إدارة البيانات تصبح أكثر تعقيدًا عند تخزين كميات هائلة من البيانات المتنوعة. وبدون أطر الإدارة السليمة، يمكن أن تؤول بحيرات البيانات إلى "مستنقعات البيانات"-المستودعات التي يتم فيها تفريغ البيانات دون أي مؤسسة، مما يجعل من الصعب العثور عليها أو فهمها أو الثقة بها. إن وضع ملكية واضحة وتوثيق أصل البيانات وإدارة البيانات الوصفية أمر ضروري ولكنه يتطلب جهدًا وانضباطًا مستمرين.

مخاوف أمان البيانات

يتطلب الأمان والتحكم في الوصول اهتمامًا دقيقًا. تحتوي بحيرات البيانات على معلومات حساسة من جميع أنحاء المنظمة، وضمان أن المستخدمين المصرح لهم فقط يمكنهم الوصول إلى مجموعات بيانات محددة، مع الحفاظ على مسارات التدقيق، يتطلب سياسات وأدوات أمنية قوية. تلعب كل من التشفير والمصادقة وعناصر التحكم في الوصول بدقة وتقنيع البيانات أدوارًا مهمة في تأمين بيئات مستودع البيانات وتجنب مشكلات إدارة مستودع البيانات.

عدم المساواة في جودة البيانات

لا يتم ضمان جودة البيانات تلقائيًا في بحيرات البيانات. نظرًا لتخزين البيانات الأولية كما هي، فقد تحتوي على أخطاء أو تكرارات أو حالات عدم اتساق. تحتاج المؤسسات إلى عمليات للتحقق من صحة هذه البيانات وتنقيتها وتعزيزها قبل استخدامها للتحليلات. وبدون الانتباه إلى جودة البيانات، قد تؤدي نماذج تدريب الآلة والتحليلات المبنية على بيانات البحيرة إلى نتائج غير موثوق بها.

مشكلات إدارة مستودع البيانات

وينبغي عدم التقليل من أهمية متطلبات التعقيد والخبرة. تتطلب إدارة مستودع البيانات بفعالية مهارات في الأنظمة الموزعة وهندسة البيانات وإدارة البيانات الوصفية وأطر عمل المعالجة المختلفة. قد تحتاج المؤسسات إلى الاستثمار في التدريب أو توظيف مواهب متخصصة أو شريك مع مزود خدمات خبير لبناء وصيانة البنية الأساسية لمستودع البيانات لديها.

طول أوقات الاستعلام

يمكن أن يكون تحسين الأداء خادعًا، خاصة للاستعلامات التفاعلية في مجموعات البيانات الكبيرة. على عكس المستودعات ذات المخططات المحسنة مسبقًا، تتطلب بحيرات البيانات تنظيم بيانات مدروس واستراتيجيات تقسيم واختيار تنسيقات ملفات لتحقيق أداء استعلام مقبول. لوضعه ببساطة، يمكن أن تحتوي بحيرات البيانات على كميات هائلة لا يمكن تصورها من البيانات، وبالتالي فإن العثور على ما تحتاجه قد يستغرق وقتًا.

أمثلة على بحيرات البيانات وحالات الاستخدام العملي

توضح الأمثلة الفعلية على استخدام مستودع البيانات كيفية استخدام المؤسسات لبحيرات البيانات لمواجهة تحديات الأعمال والحصول على مزايا تنافسية. فلنقوم بتقسيمها من خلال تحليل عدد قليل من حالات استخدام مستودع البيانات الشائعة.

حالة استخدام مستودع البيانات: تحليلات إنترنت الأشياء للصيانة التنبؤية

وتقوم شركة تصنيع بجمع بيانات أجهزة الاستشعار من آلاف الآلات عبر مرافق متعددة، وتوليد تيرابايت من بيانات السلاسل الزمنية يومياً. ومن خلال دفق هذه البيانات في مستودع بيانات، يتم دمجها مع سجلات الصيانة والجداول الزمنية للإنتاج ومعلومات المورِّد. تقوم نماذج تدريب الآلة بتحليل الأنماط القديمة للتنبؤ بحالات فشل المعدات قبل حدوثها، مما يقلل وقت التوقف ويوفر الملايين في تكاليف الإصلاح. تمكن قدرة مستودع البيانات على التعامل مع بيانات الدفق عالية السرعة من مصادر متعددة حالة الاستخدام هذه.

حالة استخدام بحيرات البيانات: العميل 360 للتسويق المخصص

تدمج منظمة البيع بالتجزئة بيانات العملاء من سلوك الاستعراض عبر الإنترنت وسجل الشراء وتفاعلات تطبيقات الأجهزة المتنقلة وعمليات استدعاء خدمة العملاء والدردشات ومشاركة الوسائط الاجتماعية والزيارات داخل المتجر في مستودع بيانات. من خلال تحليل هذا العرض الشامل لكل عميل، يمكنه إنشاء مقاطع تفصيلية وتخصيص الحملات التسويقية وتوصيات المنتجات وتجارب العملاء. ويمكن أن يؤدي ذلك إلى زيادة فعالية الحملة وتحسين رضا العملاء بشكل كبير. في مستودع البيانات هذا، تمكِّن المرونة والسعة لتخزين كلٍ من بيانات المعامَلات البنيوية وسجلات الاتصالات غير البنيوية من عرض العميل الشامل هذا.

حالة استخدام مستودع البيانات: إعداد نماذج مخاطر الخدمات المالية

تستخدم المؤسسة المالية مستودع بيانات لتجميع البيانات التجارية وتغذية السوق والمقالات الإخبارية والمشاعر عبر وسائل التواصل الاجتماعي وملفات تنظيمية. ويبني علماء البيانات نماذج مخاطر متطورة تراعي كلاً من المقاييس المالية التقليدية ومصادر البيانات الإضافية. يتيح لهم نهج مخطط البحيرة على القراءة استكشاف مصادر البيانات المختلفة وتقنيات النمذجة دون تعطيل الأنظمة القائمة، مما يساعدهم على تحقيق تقييمات مخاطر أكثر دقة.

أفضل ممارسات مستودع البيانات

يمكن أن يساعد تطبيق أفضل الممارسات التالية لبحيرات البيانات المؤسسات على تعظيم قيمة بحيرات البيانات الخاصة بها مع تجنب المآزق المشتركة:

  1. تحديد أفضلية إدارة بيانات التعريف من اليوم الأول. إنشاء دليل بيانات شامل يوثق البيانات الموجودة، والمكان الذي جاءت منه، وما يعنيه، وكيفية ارتباطه بمجموعات البيانات الأخرى. تحول البيانات الوصفية الجيدة مستودع البيانات إلى مورد قابل للبحث ويمكن فهمه بدلاً من سجل البيانات الساحق - إنه جزء أساسي من إدارة مستودع البيانات.
  2. ضمان إدارة مستودع البيانات. تطبيق أطر عمل قوية لإدارة البيانات تحدد ملكية البيانات، ووضع معايير الجودة، وإنشاء عمليات واضحة لابتلاع البيانات وتصنيفها وإدارة دورة الحياة. يجب ألا تكون الإدارة فكرة لاحقة - قم بإنشائها في بنية مستودع البيانات الخاص بك من البداية للمساعدة في الحفاظ على الثقة في بياناتك وضمان الامتثال للمتطلبات التنظيمية.
  3. حماية بياناتك. تصميم للأمن والامتثال من خلال تنفيذ التشفير في وقت الراحة والمرور، وعناصر التحكم في الوصول بدقة، وتسجيل التدقيق، وتقنيع البيانات عند الضرورة. مراجعة أنماط الوصول وأذوناته بانتظام لضمان توافقها مع مبدأ أقل امتياز.
  4. تحسين الأداء. تنظيم التخزين بشكل أمثل من خلال تقسيم البيانات منطقيًا (حسب التاريخ أو المنطقة أو الأبعاد الأخرى ذات الصلة) واختيار تنسيقات ملفات فعالة لحمولات عمل التحليلات وتطبيق سياسات دورة الحياة لأرشفة البيانات القديمة أو حذفها. تؤثر هذه الخيارات بشكل كبير على أداء الاستعلام والتكلفة.
  5. تعزيز ثقافة تعتمد على البيانات. جعل البيانات قابلة للاكتشاف ويمكن الوصول إليها أثناء توفير التدريب والأدوات التي تتيح تحليلات الخدمة الذاتية. إذا لم يكن لدى فريقك الخبرة المناسبة، فعليك مراعاة توظيف مواهب إضافية يمكنها سد الفجوة بين أصحاب المصلحة في الأعمال والتكنولوجيا وضمان الإدارة المثلى لمستودع البيانات. البنية التحتية التقنية قيمة فقط إذا استخدمها الناس فعلاً لاتخاذ قرارات أفضل.

مستقبل بحيرات البيانات

يستمر تطور بحيرات البيانات حيث تطالب المنظمات بالمرونة والحوكمة على حد سواء، مما يؤدي إلى ظهور معماريات لايكهاوس للبيانات التي تجمع بين أفضل جوانب البحيرات والمستودعات. ويعكس هذا التقارب فهماً متنامياً بأن المؤسسات بحاجة إلى منصات موحدة تدعم مناهج متنوعة، بدلاً من الحفاظ على أنظمة منفصلة لأغراض مختلفة.

يزداد تركيز الذكاء الاصطناعي وتدريب الآلة على استراتيجيات مستودع البيانات. لا تقتصر بحيرات البيانات الحديثة على مستودعات التخزين فحسب، بل إنها منصات مركزية تتدرب فيها نماذج الذكاء الاصطناعي على البيانات التاريخية، وتقوم بالتنبؤات باستخدام بيانات الدفق، وتحسن باستمرار من خلال حلقات التغذية الراجعة. التكامل مع أنظمة الذكاء الاصطناعي وإمكانات تدريب الآلة المؤتمتة أصبح هو المعيار وليس الاستثناء.

ومع إدراك المؤسسات لقيمة العمل على البيانات الجديدة، لا تزال التحليلات الفورية وتحليلات البث تكتسب مكانة بارزة. ونتيجة لذلك، تتطور بحيرات البيانات لدعم معالجة البيانات الفرعية الثانية والاستعلام، مما يؤدي إلى طمس الخط الفاصل بين التحليل التاريخي والعمليات في الوقت الفعلي.

وأخيرًا، مع توسع لوائح خصوصية البيانات وتغييرها حول العالم، يجب أن تتطور بحيرات البيانات لدعم خصوصية البيانات وحمايتها عن طريق التصميم، مع إمكانات مثل تصنيف البيانات التلقائي، وإدارة الموافقات، وإعداد تقارير الامتثال المبسطة المبنية على النظام الأساسي بدلاً من إضافتها بعد ذلك.

يكمن مستقبل بحيرات البيانات في المرونة وإمكانية الوصول والأتمتة: وهي الميزات التي تسهل على المؤسسات إدارة أحجام البيانات المتنامية مع الحفاظ على الأمن والجودة والحوكمة. وينبغي النظر إلى بحيرات البيانات على أنها أصل استراتيجي يتطلب استثماراً واهتماماً مستمرين.

الأسئلة المتكررة

لماذا يسمى "data lake"?
يستخدم مصطلح "data lake&quot؛ استعارة طبيعية - مثلما يتدفق العديد من التدفقات إلى بحيرة واحدة، تتدفق البيانات من مصادر متعددة إلى مستودع مركزي. ومثل البحيرة الطبيعية التي تخزن المياه في حالتها الأصلية، بدلاً من تصفيتها وتنقيتها، تخزن بحيرة البيانات البيانات في شكلها الأصلي دون الحاجة إلى التحويل أو الهيكل. ويؤكد الاستعارة على قدرة البحيرة على الاحتفاظ بأحجام كبيرة من البيانات المتنوعة في حالتها “الطبيعية” ويتم الاعتماد عليها لأغراض مختلفة، تماماً كما يخدم الماء من بحيرة استخدامات عديدة. وبالمقارنة، سيكون لدى المستودع مياه يتم تصفيتها وتعبئتها وتسميتها، وربما يتم تنظيمها حسب حجم الزجاجة أو توازن الأس الهيدروجيني.
ما هو مستودع البيانات وكيف يختلف عن مستودع البيانات؟
مستودع البيانات هو مستودع بنيوي، بينما مستودع البيانات هو نهج تخزين يسمح بابتلاع وتخزين جميع أنواع البيانات، سواء كانت بنيوية أو غير بنيوية. يقع الفرق الأساسي بين بحيرات البيانات ومستودعات البيانات في أسلوبها: تستخدم مستودعات البيانات Schema-on-write (يجب هيكلة البيانات قبل التخزين)، بينما تستخدم بحيرات البيانات schema-on-read (يتم تطبيق البنية عند الوصول إلى البيانات). يتم تحسين المستودعات لتلبية الاحتياجات والاستعلامات المعروفة لإعداد التقارير، بينما تدعم البحيرات التحليل الاستكشافي وتدريب الآلة على البيانات الأولية. فكر في المستودعات كمتخصصة في الإجابة على أسئلة أعمال محددة بسرعة، بينما يتم بناء البحيرات من أجل المرونة والقدرة واكتشاف أسئلة جديدة لطرحها.
ما هي إدارة البيانات في مستودع بيانات؟
إدارة البيانات في مستودع البيانات تشمل العديد من الأنشطة الحرجة. تضمن إدارة بيانات التعريف والدلائل أن المستخدمين يمكنهم العثور على مجموعات البيانات المتوفرة وفهمها. تضع الحوكمة سياسات لملكية البيانات ومعايير الجودة وعناصر التحكم في الوصول. تُظهر إدارة الوصول وتتبع أصل البيانات الشخص الذي تمكن من الوصول إلى البيانات وكيفية تحويلها أو استخدامها. تحدد سياسات دورة الحياة والاحتفاظ بها المدة التي يجب فيها الاحتفاظ بالبيانات ومتى يجب أرشفتها أو حذفها. تمنع الإدارة الفعالة لمستودع البيانات بحيرات البيانات من أن تصبح غير منظمة "مستنقعات البيانات&quot؛ وتقلل من مشكلات إدارة مستودع البيانات.
ما هو مخزن البيانات؟
تعد دار البيانات من العمارة الحديثة التي تجمع بين مرونة بحيرات البيانات وفعاليتها من حيث التكلفة وبين هيكل مستودعات البيانات وأدائها. تُمكِّن منازل البحيرة المنظمات من تخزين البيانات الأولية في شكلها الأصلي (مثل البحيرة)، بينما تدعم أيضًا الهياكل الشبيهة بالجدول وتطبيق المخطط وتحسين أداء الاستعلامات (مثل المستودع). ويلغي هذا النهج الموحد الحاجة إلى تكرار البيانات بين أنظمة البحيرات والمستودعات المنفصلة، مما يبسط البنية ويخفض التكاليف مع دعم كل من التحليلات الاستكشافية وإعداد تقارير الأعمال على نفس النظام الأساسي.
ما هي الخدمات السحابية المتعددة لبحيرات البيانات؟
تمتد مستودع البيانات متعدد الشبكات السحابية إلى مزودين سحابيين أو أكثر. تعتمد المنظمات استراتيجيات متعددة الشبكات السحابية لتجنب تأمين المورِّدين وتحسين التكاليف من خلال الاستفادة من أفضل الخدمات من كل مزوِّد وضمان استمرارية الأعمال من خلال التكرار وتلبية متطلبات إقامة البيانات في مناطق مختلفة. ومع ذلك، فإن البُنى متعددة الشبكات السحابية تطرح تحديات حول إمكانية التشغيل البيني للبيانات، والحفاظ على سياسات أمان متسقة، وإدارة تكاليف نقل البيانات بين السحب.
ما هو تخزين الكائن في مستودع بيانات؟
تخزين الكائنات هو طبقة التخزين الأساسية التي تحتوي على البيانات في مستودع بيانات. على عكس أنظمة الملفات التي تنظم البيانات في مجلدات هرمية، يخزن تخزين الكائنات البيانات ككائنات فردية، ولكل منها معرفات فريدة، وبيانات تعريف، والبيانات نفسها. إن تخزين الكائنات قابل للتوسع بدرجة كبيرة وفعال من حيث التكلفة، مما يجعله مثاليًا لتخزين الأحجام الضخمة من البيانات بصيغ أصلية.