media-blend
text-black

رجال أعمال يدرسون الرسومات البيانية على شاشة تفاعلية في اجتماع عمل

بحيرة البيانات مقابل مستودع البيانات

تخزن بحيرات البيانات البيانات الأولية في شكلها الأصلي، بغض النظر عن كيفية وصولها. وتخزن مستودعات البيانات التي تم تنظيفها وتنظيمها بطريقة محددة مسبقًا.

default

{}

default

{}

primary

default

{}

secondary

مقدمة عن بحيرات البيانات ومستودعات البيانات

بحيرات البيانات ومستودعات البيانات هي أنظمة تخزن كميات كبيرة من البيانات الرقمية وتديرها وتسترجعها. تجمع الشركات البيانات لمساعدتها في الحصول على رؤى عن عملياتها وعملائها وأسواقها وسلاسل التوريدات حتى تتمكن من الاستجابة بشكل أكثر إستراتيجية.

ظهرت مستودعات البيانات الكبيرة حلاً للقضاء على وحدات البيانات المنفصلة والتصدي لتحدي بيانات الأعمال المنتشرة على مستوى أنظمة وأقسام متعددة وبتنسيقات مختلفة.

جعل عدم الاتساق من الصعب على المستخدمين الوصول إلى هذه البيانات ودمجها وتحليلها لتحديد الأنماط أو توقع الطلب أو تقييم أداء الأعمال. تم تطوير مستودعات البيانات الكبيرة لدمج هذه البيانات في مستودع مركزي، حيث يمكن دمج البيانات وتنظيفها وتنظيمها للتحليل. أنشأ هذا النهج "مصدرًا واحدًا للمعلومات" لدعم الامتثال ومراقبة الأداء وعمليات التحليل الذكي للأعمال.

وظهرت بحيرات البيانات بدورها حلاً لقيود مستودعات البيانات، التي لم تستطع التعامل جيدًا مع الزيادة الهائلة في كمية البيانات غير البنيوية وشبه البنيوية المنشأة من مصادر جديدة، مثل وسائل التواصل الاجتماعي وأجهزة إنترنت الأشياء وأجهزة الاستشعار وتطبيقات الأجهزة المتنقلة وأكثر من ذلك. إن تخزين كميات هائلة من البيانات المتنوعة، مثل الصور والفيديو والنصوص ومعالجتها، أثبت أنه مكلف للغاية وغير فعال، لأن مستودعات البيانات التقليدية تتطلب في البداية تنظيف البيانات ومعالجتها مقدمًا وقبل التخزين.

وقد احتاجت الشركات إلى طريقة أكثر مرونة وقليلة التكلفة لتخزين البيانات بتنسيقها الأولي الأصلي، وتم إنشاء بحيرات البيانات باعتبارها حلاً.

اليوم، تعتمد عديد من المؤسسات الحديثة نهجًا مختلطًا يشمل كل من مستودعات البيانات وبحيرات البيانات: مخزن البيانات. توفر هذه البنية كلاً من إمكانات إعداد التقارير السريعة والمنظمة للنظام الأول وإمكانات تطبيقات الذكاء الاصطناعي وتدريب الآلة للنظام الثاني.

بحيرات البيانات مقابل مستودعات البيانات: الفروق الأساسية

الفرق الرئيسي بين بحيرات البيانات ومستودعات البيانات هو نوع البيانات التي تخزنها وكيفية تخزينها، وكلاهما يؤدي دورًا رئيسيًا في إستراتيجية بيانات المؤسسة.

تخزن مستودعات البيانات البيانات البنيوية التي تم تنظيفها ومعالجتها وفقًا لبنية أو مخطط محدد مسبقًا. ولأن المخطط يُطبَق قبل تخزين البيانات، يُعرف النهج باسم تطبيق مخطط البيانات قبل تخزينها.

على سبيل المثال، قد يحدد مخطط ما أن بيانات معرف العميل يجب أن تكون عددًا صحيحًا، ويجب أن تكون بيانات تاريخ الأمر بالتنسيق YYYY-MM-DD، وأن إجمالي بيانات مبلغ المبيعات يجب أن يكون بالتنسيق العشري. ونظرًا لأن جميع البيانات تلتزم بهذه القواعد، يمكن للمستخدمين طرح استعلامات، مثل "اعثر على إجمالي المبيعات لكل عميل في أبريل 2025" بسرعة وموثوقية. هذه السرعة والدقة تجعل مستودعات البيانات مثالية لحالات استخدام إعداد التقارير ولوحات المعلومات والتحليل الذكي للأعمال.

في المقابل، يمكن لبحيرات البيانات تخزين البيانات الأولية بتنسيقها الأصلي بغض النظر عن كيفية تنظيمها. لا يوجد مخطط محدد مسبقًا مطلوب مقدمًا.

يتم تحديد المخطط فقط عندما يتم الاستعلام عن البيانات، لذلك يُعرَف النهج باسم تطبيق مخطط البيانات عند قراءتها. عندئذٍ فقط يتم تحليل البيانات الأولية وتنظيمها وتفسيرها وفقًا للاستعلام.

للتلخيص، تطبق مستودعات البيانات مخططًا قبل تخزين البيانات لضمان تنظيم جميع البيانات وتنظيفها للاستخدام. وتطبق بحيرات البيانات المخطط عندما يتم الاستعلام عن البيانات ويمكنها تخزين أي بيانات، سواء كانت بنيوية أم لا، من البداية.

الفروق بين بحيرات البيانات ومستودعات البيانات

بحيرات البيانات
مستودعات البيانات
نوع البيانات
تخزين البيانات البنيوية وشبه البنيوية وغير البنيوية (على سبيل المثال، السجلات ومقاطع الفيديو والنص).
تخزين البيانات البنيوية فقط (على سبيل المثال، معامَلات المبيعات والبيانات المالية).
المخطط
تطبيق مخطط البيانات عند قراءتها: يتم تطبيق المخطط عندما يتم الاستعلام عن البيانات.
تطبيق مخطط البيانات قبل تخزينها: يتم تطبيق المخطط قبل تخزين البيانات.
المستخدمون
يستكشف علماء البيانات والمهندسون والمحللون الأنماط ونماذج التدريب أو يقومون بتشغيل تدفقات عمل تدريب الآلة.
وينشئ محللو الأعمال والمديرون التنفيذيون وفِرَق العمليات التقارير ومؤشرات الأداء الأساسية.
الغرض
تخزين مرن لكميات كبيرة من البيانات الأولية والمتنوعة المستخدَمة لاستكشاف البيانات والذكاء الاصطناعي وتدريب الآلة.
مستودع مركزي للبيانات البنيوية والمعالَجة المستخدَمة لإعداد التقارير ولوحات المعلومات والتحليل الذكي للأعمال.
التكلفة
تخزين كائنات منخفض التكلفة
زيادة تكاليف التخزين والمعالجة بسبب المعالجة المسبقة والتحسين.

الاختيار بين بحيرات البيانات مقابل مستودعات البيانات

بما أن بحيرات البيانات يمكنها تخزين البيانات الأولية بأي تنسيق، فهي مثالية للشركات التي تحتاج إلى مرونة. فعلى سبيل المثال، تجمع شركات البيع بالتجزئة كميات هائلة من مصادر متعددة، مثل المواقع الإلكترونية وتطبيقات الهواتف المتنقلة ووسائل التواصل الاجتماعي وأنظمة نقاط البيع وغيرها. ونظرًا لأن البيانات التي تجمعها لا تحتاج إلى تنظيف أو تحويل أو تنظيم، فيمكنها استخدام أنظمة تخزين أكثر فعالية من حيث التكلفة قابلة للتوسع بسهولة. ومع ذلك، يمكن أن تكون تكلفة معالجة البيانات الأولية في وقت الاستعلام أعلى مقارنةً باستعلامات مستودع البيانات المحسَّنة.

وبالمقارنة، ستكون التكاليف أعلى مع مستودعات البيانات. تتطلب عمليات التنظيف والتحويل والتنظيم قبل التحميل—وكذلك الفهرسة والتقسيم بعد التحميل—موارد إضافية وتخزينًا للعمل. ولكن ينتج عن هذا التحسين بيانات جاهزة للاستخدام للتحليل الذكي للأعمال وإعداد التقارير وتحليلات التشغيل. وباستخدام مستودعات البيانات، يمكن للمحللين والمسؤولين التنفيذيين إنشاء تقارير ومراقبة مؤشرات الأداء الأساسية واتخاذ قرارات مستنيرة بسرعة وسهولة.

ويجب ملاحظة أن بحيرات البيانات تتيح فرصًا جديدة لتطبيقات تدريب الآلة والذكاء الاصطناعي. وتمكِّن مجموعات البيانات الكبيرة والمتنوعة التي تخزنها علماء البيانات من العثور على الاتجاهات وبناء نماذج تنبؤية وتشغيل تطبيقات تدريب الآلة. وينتج عن ذلك، على سبيل المثال، أنظمة التوصية التي تقترح منتجات للمستخدمين على أساس التفاعلات السابقة أو أدوات معالجة اللغة الطبيعية التي تقوم بإجراء تحليل التوجهات لتقييمات العملاء أو تعليقات وسائل التواصل الاجتماعي.

واليوم، تدير عديد من المؤسسات الحديثة بُنى البيانات التي هي في الأساس مجموعات من كليهما. وتهدف مخازن البيانات هذه إلى توفير مرونة بحيرة البيانات مع إدارة مستودع البيانات وأدائه. وفي حين أن الاستخدام يتطور بسرعة، إلا أن عديد من الشركات لا تزال تعتمد على المستودعات التقليدية عند إعداد التقارير شديدة الأهمية.

أمثلة واقعية وحالات الاستخدام

فيما يلي أمثلة على كيفية استخدام الصناعات المختلفة لبحيرات البيانات أو مستودعات البيانات أو مجموعة من العناصر من كليهما لدعم متطلباتها الخاصة.

الرعاية الصحية: غالبًا ما تستخدم المستشفيات بنية مستودع البيانات لتخزين وإدارة وتحليل الكميات الهائلة وأنواع البيانات المتنوعة التي تولدها عملياتها. ويشمل ذلك البيانات غير المنظمة القابلة للارتداء والصور الطبية، وبيانات مرضى HL7 شبه المنظمة، ونتائج الاختبار المخبري المنظم. ومن خلال دمجها كلها في مستودع مركزي، يمكنهم تطبيق التحليلات المتقدمة والذكاء الاصطناعي على البيانات الأولية، على سبيل المثال، تحديد المرضى المعرضين للخطر أو تحليل علم الجينوم لتخصيص خطط العلاج. ومع المرضى المجهزين الآن بالأجهزة القابلة للارتداء “الذكية” التي تتدفق البيانات على العلامات الحيوية، يمكن لمقدمي الرعاية الصحية حتى الكشف عن علامات الإنذار المبكر والتدخل بشكل أسرع.

الماليات: يجب على البنوك والمؤسسات المالية الأخرى الامتثال لقواعد مكافحة غسل الأموال (AML) ولوائح إعداد التقارير المالية الصارمة (مثل Sarbanes-Oxley في الولايات المتحدة أو Basel III دوليًا). ومن خلال استخدام مستودعات البيانات لتخزين البيانات المالية البنيوية من أنظمة متعددة، بما في ذلك سجلات المعامَلات وأرصدة الحسابات وبيانات التداول، يمكنها إنشاء تقارير تنظيمية تلبي متطلبات الحوكمة والأمان. وبالإضافة إلى الامتثال، تستخدم المؤسسات المالية أيضًا مستودعات البيانات لدعم التحليل الذكي للأعمال وإدارة المخاطر والكشف عن الاحتيال من خلال تشغيل استعلامات معقدة على مستوى مجموعات البيانات القديمة والحالية.

وسائل الإعلام: تستخدم خدمات بث الفيديو نهج مخزن البيانات لجمع بيانات المستخدمين وتخزينها وتحليلها لتقديم تجارب مخصصة. فهي تتلقى أنواعًا متنوعة من البيانات من مصادر متعددة، مثل سجلات البث والتعليقات على مواقع التواصل الاجتماعي، وتخزنها في مستودع مركزي. ويمكن استخدام هذه البيانات بعد ذلك لإنشاء نماذج تدريب الآلة التي توصي بالمحتوى الأكثر صلة. ويمكن أيضًا تنسيق نفس البيانات وتنظيمها في مجموعات فرعية لتلبية متطلبات التحليلات أو إعداد التقارير، وهذا يدعم لوحات المعلومات المتعلقة بمعدلات الاحتفاظ أو يعزز القرارات بشأن عمليات تملك المحتوى.

الاتجاهات الناشئة في الأنظمة الأساسية للبيانات

أصبحت مخازن البيانات بسرعة الخيار المفضل للشركات التي تتطلع إلى زيادة قيمة بياناتها إلى الحد الأقصى. ويمكنها دعم كلٍ من حالات استخدام تدريب الآلة والذكاء الاصطناعي والتحليل الذكي للأعمال في نظام أساسي واحد. ومع ذلك، لا بد من الإشارة إلى أنها لا تزال تتطور وأن بعض المؤسسات لا تزال تعتمد على مستودعات البيانات التقليدية عند إعداد التقارير اللازمة لتنفيذ المهام.

وقد أثرت إمكانات الذكاء الاصطناعي باعتبارها محركًا للإنتاجية والكفاءة بشكل خاص على بُنى البيانات، مع دمج بعض الأنظمة الأساسية لمخازن البيانات وبحيرات البيانات الناشئة الآن مع النماذج اللغوية الكبيرة. وهذا يمكِّن المستخدمين غير التقنيين من استكشاف البيانات وتحليلها من خلال طرح الاستعلامات بلغة عادية. على سبيل المثال، يمكن للمستخدم أن يسأل "أظهر لي اتجاهات المبيعات في الربع الثاني"، ويمكن للنموذج اللغوي الكبير إنشاء لغة SQL يمكن أن يفهمها النظام. ويعمل هذا على إتاحة الوصول إلى الرؤى المعتمدة على البيانات.

كما تظهر البُنى بدون خوادم باعتبارها إستراتيجية، فتوظف الشركات مزوِّد خدمات سحابية لإدارة بنيتها الأساسية للبيانات. في هذا النظام، تدفع الشركة مقابل الوصول إلى النظام الأساسي للبيانات بدلاً من إعداد نظام أساسي خاص بها وإدارته. وإيجابيات ذلك هي قابلية للتوسع أسهل وخفض التكلفة. ويوفر مزوِّد الخدمات السحابية مرونة في النطاق الترددي في حالة حدوث زيادات كبيرة في حجم البيانات أو حمل الاستعلامات، والشركة لا تدفع إلا مقابل ما تستخدمه. وبهذه الطريقة، يمكن للمطوِّرين النشر بسرعة أكبر، لأنه ليس عليهم التعامل مع اعتبارات البنية الأساسية.

حتى أن بعض الشركات تختار إستراتيجية متعددة الشبكات السحابية، وتوزع بحيرات البيانات ومستودعات البيانات الخاصة بها على عديد من الخدمات السحابية. والفائدة الرئيسية هي المرونة في حالات التكرار. وفي حالة وجود شبكة سحابية واحدة دون اتصال، يمكن للشركة الاستمرار في العمل على الشبكة السحابية الأخرى. ويمكنها أيضًا تحسين تدفقات عمل محددة على شبكات سحابية معينة، مثل في حالة كانت إحدى الخدمات متخصصة في تدريب الآلة. وفي بعض الصناعات أو الدول، يجب تخزين البيانات الحساسة في منطقة أو مزوِّد خدمات سحابية يستوفي متطلبات الالتزام المحلية.

ولربط البيانات وإدارتها في بيئات سحابية متعددة، يمكن للشركات تنفيذ هياكل بُنى البيانات. فهي توفر إمكانية الوصول في الوقت الفعلي إلى البيانات في تطبيقات وأنظمة منفصلة ولكن متزامنة، وهذا يؤدي إلى إنشاء عرض موحد على مستوى البنية الأساسية.

ولحماية البيانات الحساسة، مثل السجلات الطبية وأرقام التأمين الاجتماعي ورموز المصادر، تعتمد المؤسسات أيضًا سياسات، مثل عناصر التحكم في الوصول وفقًا لنموذج الثقة الصفرية في أنظمة البيانات الأساسية الخاصة بها. وتتطلب عناصر التحكم هذه من جميع المستخدمين التحقق من هويتهم للوصول إلى البيانات التي يحتاجون إليها.

الأسئلة المتكررة

ما هو مستودع البيانات الكبير؟
بحيرة البيانات هي نظام تخزين مصمم للاحتفاظ بكميات كبيرة من البيانات الأولية بتنسيقها الأصلي، مثل الأرقام أو النصوص أو الصور أو مقاطع الفيديو أو السجلات. يمكنك اعتبارها "خزانًا رقميًا" عملاقًا يمكن أن تتدفق فيه جميع أنواع المعلومات دون أن يتم تنظيمها على الفور.

بحيرات البيانات مفيدة لعلماء البيانات الذين يريدون تدريب نماذج تدريب الآلة التي تدعم أنظمة التوصية بالمحتوى.
ما هو مستودع البيانات؟

مستودع البيانات هو نظام تخزين مصمم بشكل أساسي للاحتفاظ بأحجام كبيرة من البيانات البنيوية. يتم تنظيف البيانات البنيوية وتنظيمها وتنسيقها بطريقة معينة. (فعلى سبيل المثال، الصفوف والأعمدة المحددة في جدول البيانات). ويمكن للمستودعات الأكثر حداثة معالجة تنسيقات شبه بنيوية معينة أيضًا، مثل JSON أو XML.

تستخدم الشركات مستودعات البيانات للإجابة على الأسئلة بسرعة، وإنشاء التقارير، وتتبع قياسات الأداء الأساسية. ويتم تصنيف هذه الوظائف على أنها التحليل الذكي للأعمال.

ما هو مخزن البيانات؟
مخزن البيانات هو نظام أساسي حديث للبيانات يجمع بين أفضل بحيرات البيانات ومستودعات البيانات. ويمكنه تخزين جميع أنواع البيانات—الأولية أو غير البنيوية أو شبه البنيوية—دون الحاجة إلى تنظيمه أولاً. ويتيح إجراء تحليل وإعداد تقارير بسرعة ونظام عند الحاجة.
ما هو المخطط؟ ما الفرق بين تطبيق مخطط البيانات عند قراءتها وتطبيق مخطط البيانات قبل تخزينها؟

المخططات هي قواعد لكيفية تنظيم البيانات، مثل نوع البيانات التي يمكن تخزينها (الأرقام والتواريخ)، وكيفية ترتيب البيانات (في الجداول والأعمدة)، وكيفية ارتباط المعلومات ببعضها البعض.

يعني تطبيق مخطط البيانات قبل تخزينها أن البيانات يجب أن تتلاءم مع بنية (مخطط) محددة مسبقًا قبل تخزينها. هذه هي طريقة عمل مستودعات البيانات. فهي تتأكد من أن البيانات نظيفة وجاهزة للتحليل مقدمًا.

ويعني تطبيق مخطط البيانات عند قراءتها أن البنية يتم تطبيقها فقط عندما يريد شخص ما استخدام البيانات أو تحليلها. هذه هي طريقة عمل بحيرات البيانات. فهي توفر مزيدًا من المرونة فيمكن تخزين البيانات بأي شكل أولاً، ولا يتعين عليك تنظيمها على الفور. ولكن عيوب هذا النهج تشمل بطء الاستعلامات واحتمال عدم الاتساق؛ لأن المستخدمين المختلفين قد يفسرون نفس البيانات الأولية بشكل مختلف.

وعلى النقيض من ذلك، فإن تطبيق مخطط البيانات قبل تخزينها يفرض الاتساق مقدمًا ولكن يقلل من المرونة.

ما الفرق بين البيانات المنظمة وغير المنظمة وشبه البنيوية؟

البيانات البنيوية منظمة للغاية وسهل البحث عنها، ويمكن عادةً تخزينها في جداول، مثل أسماء العملاء وأرقام المبيعات والتواريخ.

البيانات غير البنيوية ليس لها تنسيق ثابت ومن الصعب تنظيمها، مثل مقاطع الفيديو والصور وملفات الصوت ومنشورات وسائل التواصل الاجتماعي.

البيانات شبه البنيوية تقع في مكان ما بين الاثنين. فتتسم ببعض التنظيم، ولكن ليست صارمة مثل الجداول. فعلى سبيل المثال، ملفات JSON ومستندات XML ورسائل البريد الإلكتروني.

شعار شركة SAP

تحقيق أقصى استفادة من بياناتك

يمكنك جمعها كلها باستخدام SAP Business Data Cloud.

تعرَّف على المزيد