media-blend
text-black

خيوط ملونة مثبتة على لوحة ومرتبة في شكل أنماط هندسية

ما هي قاعدة بيانات المتجهات؟

تعمل قواعد بيانات المتجهات على تخزين تمثيلات البيانات عالية الأبعاد والبحث عنها للحصول على الذكاء الاصطناعي ذي الصلة بالأعمال.

default

{}

default

{}

primary

default

{}

secondary

إن قاعدة بيانات المتجهات هي نوع من قواعد البيانات المبنية لتخزين أنواع خاصة من البيانات تسمى تمثيلات المتجهات والبحث عنها. وهذه التمثيلات هي الأرقام التي تمثل معنى أو خصائص الأشياء، مثل النص أو الصور أو الفيديو أو الصوت.

بينما تعمل قواعد البيانات التقليدية بكفاءة مع البيانات المنظمة في صفوف وأعمدة، صُمِّمت قواعد بيانات المتجهات للتعامل مع البيانات غير المنظمة ومتعددة الأبعاد. وتتمثل مهمتها الأساسية في إيجاد العناصر المتشابهة بسرعة—وهو ما يُعرف بالبحث عن العناصر المتشابهة—حتى إن لم تكن مطابقة تمامًا، وذلك من خلال مقارنة مدى تقارب تمثيلاتها في الفضاء الرياضي.

يجعل هذا قواعد بيانات المتجهات مفيدة خاصةً لتطبيقات الذكاء الاصطناعي (AI) الحديثة. فهي تدعم البحث الدلالي، الذي يعيد النتائج على أساس المعنى لا على تطابق الكلمات فقط، وهي تدعم أدوات الذكاء الاصطناعي التوليدي من خلال المساعدة في جلب أكثر المعلومات صلة عند إنشاء الإجابات أو الصور أو غيرها من المحتوى.

تُستخدم قواعد بيانات المتجهات أيضًا في محركات التوصية والبحث عن الصور والفيديو وفهم اللغة. باختصار، فإنها تجعل من الممكن لأنظمة الذكاء الاصطناعي البحث عن المعلومات ومطابقتها بطريقة أقرب بكثير إلى كيفية تفكير البشر وفهمهم.

ما هي المفاهيم الأساسية لقاعدة بيانات المتجهات؟

يبدأ فهم كيفية عمل قواعد بيانات المتجهات بنظرة على مفاهيمها الأساسية الثلاثة: تمثيلات المتجهات والبحث عن العناصر المتشابهة وتقنيات الفهرسة. ويؤدي كل عنصر دورًا ضروريًا في تمكين الاسترجاع السريع والذكي للبيانات بناءً على المعنى بدلاً من المطابقة البسيطة.

1- تمثيلات المتجهات

في جوهر أي قاعدة بيانات متجهات، توجد تضمينات المتجهات، وهي تمثيلات رقمية للبيانات تُنشئها نماذج تدريب الآلة. وتأخذ هذه النماذج مدخلات غير منظمة، مثل النص أو الصور أو الصوت وتحولها إلى قوائم طويلة من الأرقام (المتجهات) التي تلتقط جوهر أو معنى المحتوى الأصلي. فعلى سبيل المثال، كلمتا "قطة" و"هريرة" هما كلمتان مختلفتان، لكن يمكن تمثيلهما بمتجهات متقاربة في الفضاء، بما يعكس تشابههما الدلالي.

تجعل هذه التمثيلات من الممكن مقارنة المحتوى بطريقة أكثر شبهًا بالإنسان—على أساس التشابه بدلاً من البنية السطحية.

2- البحث عن العناصر المتشابهة

بعد تحويل البيانات إلى تمثيلات المتجهات، تأتي الخطوة التالية، وهي البحث عن العناصر المتشابهة—أي عملية تحديد المتجهات الأكثر تشابهًا. ويجري ذلك باستخدام مقاييس المسافة، وهي معادلات رياضية تقيس مدى "تباعد" اثنين من المتجهات في الفضاء متعدد الأبعاد.

تشمل الطرق الشائعة تشابه جيب التمام، الذي يقيس الزاوية بين المتجهات، والمسافة الإقليدية، التي تحتسب مسافة الخط المستقيم بينها. وتساعد هذه القياسات قاعدة البيانات بسرعة في تحديد العناصر المخزنة الأكثر شبهًا بالاستعلام الجديد، حتى في حالة عدم وجود تطابق تام في البيانات.

3- تقنيات الفهرسة

تستخدم قواعد بيانات المتجهات أساليب فهرسة متخصصة لجعل البحث عن العناصر المتشابهة سريعًا وقابلًا للتوسع. وتنظم هذه الخوارزميات بيانات المتجهات بطريقة تسرع البحث مع موازنة الدقة والأداء. وتشمل الأساليب الشائعة الآتي:

معًا، تجعل هذه الركائز الثلاثة قواعد بيانات المتجهات قادرة على التعامل مع أحجام ضخمة من البيانات المعقدة وغير المنظمة وإيجاد ما هو أكثر صلة خلال ميلي ثانية.

كيف تعمل قاعدة بيانات المتجهات؟

تعمل قواعد بيانات المتجهات من خلال عملية من ثلاث خطوات تتيح لها استرجاع المعلومات على أساس المعنى، وليس فقط مطابقة الكلمات. وهذا يجعلها قوية بشكل خاص للمهام المعتمدة على الذكاء الاصطناعي، مثل أنظمة البحث الدلالي والتوصية.

1- ترميز البيانات إلى متجهات

أولاً، تعالج نماذج تدريب الآلة البيانات الأولية. وتحول هذه النماذج البيانات إلى تمثيلات متجهات تلتقط الملامح الرئيسية أو معنى المحتوى الأصلي. فعلى سبيل المثال، قد تتحول جملة مثل “أحب التنزه في الجبال” إلى متجه يعكس نبرتها العاطفية وموضوعها.

2- تخزين المتجهات وفهرستها

بعد تضمين البيانات، تُخزَّن المتجهات في قاعدة بيانات المتجهات وتُنظَّم باستخدام التقنيات المذكورة سابقًا، مثل العالم الصغير الهرمي سهل التنقل خلاله (HNSW) والتجزئة الحساسة للموقع (LSH) وتكميم المنتج (PQ). وتساعد هذه الطرق قاعدة البيانات على تحديد موقع المتجهات المماثلة بسرعة دون مقارنة كل عنصر واحد تلو الآخر.

3- الاستعلام مع البحث عن العناصر المتشابهة

عندما يقدم المستخدم استعلامًا—مثل جملة أو صورة أو طلب فوري—يتحول أيضًا إلى متجه. ثم تجري قاعدة البيانات البحث عن العناصر المتشابهة، وتقارن متجه الاستعلام بالمتجهات المخزَّنة للعثور على نتائج متشابهة دلاليًا، حتى لو لم تشترك في كلمات أساسية دقيقة.

سواء كنت تبحث عن مقالات ذات صلة أو صور مشابهة أو توصيات ذات صلة، فإن قواعد بيانات المتجهات تتيح تجارب بحث أكثر ذكاءً وسهولة من خلال التركيز على المعنى بدلاً من مطابقة الكلمات الأساسية.

قواعد البيانات التقليدية مقابل قواعد بيانات المتجهات

لطالما كانت قواعد البيانات التقليدية العنصر الأساسي لتخزين البيانات واسترجاعها. فتتعامل هذه الأنواع من قواعد البيانات مع معلومات محددة جيدًا ومنظمة في صفوف وأعمدة وجداول باستخدام أساليب الاستعلام المبنية على التطابق الدقيق للكلمات الأساسية. وهذا يجعلها مثالية لإدارة أشياء، مثل سجلات العملاء أو قوائم المخزون.

في المقابل، تتفوق قواعد بيانات المتجهات في العثور على الأنماط والعلاقات في البيانات المعقدة وغير المنظمة لالتقاط معنى أعمق من المعلومات السطحية. ويجري تحسينها للتطبيقات المعتمدة على الذكاء الاصطناعي، مثل البحث الدلالي أو التعرف على الصور أو الفيديو أو الذكاء الاصطناعي التوليدي—أي حالة استخدام يكون فيها فهم السياق ضروريًا.

ما هي فوائد قاعدة بيانات المتجهات؟

توفر قواعد بيانات المتجهات عديد من المزايا للمؤسسات التي تعمل مع الذكاء الاصطناعي وأحجام كبيرة من البيانات غير المنظمة. فيما يلي بعض أهم الفوائد:

تجعل هذه الميزات من قواعد بيانات المتجهات مكونًا أساسيًا في نشر أنظمة الذكاء الاصطناعي الذكية والقابلة للتطوير والتفاعلية.

التغلب على تحديات قاعدة بيانات المتجهات المشتركة

في حين أن قواعد بيانات المتجهات توفر إمكانات فعالة، فإنها يمكن أن تخلق أيضًا تحديات فريدة من نوعها. وفيما يلي بعض من القضايا الأكثر شيوعًا—وكيفية معالجتها:

احتساب تكاليف تخزين المتجهات عالية الأبعاد وتخزينها

يمكن أن يتطلب تخزين كميات كبيرة من المتجهات عالية الأبعاد ومعالجتها قوة حسابية كبيرة وذاكرة، وهذا يؤدي إلى زيادة تكاليف البنية الأساسية—لا سيما للتطبيقات في الوقت الفعلي. ويمكن حل ذلك عن طريق استخدام الخدمات المدارة التي تقدم بنية أساسية محسنة، بالإضافة إلى تقنيات الضغط لتقليل استخدام الذاكرة.

ضبط معامِلات الفهرسة لتحقيق الاسترجاع والأداء الأمثل

تتطلب طرق الفهرسة، مثل العالم الصغير الهرمي سهل التنقل خلاله (HNSW) والتجزئة الحساسة للموقع (LSH) ضبط المعامل بعناية للموازنة بين سرعة البحث ودقته. ويمكن للفهارس الرديئة أن تؤدي إلى بطء الاستعلامات أو فقدان النتائج ذات الصلة. ولهذا السبب من الضروري البدء بمعامِلات الضبط الافتراضية، ثم اختبارها وتعديلها بشكل متكرر بناءً على مجموعة بياناتك وحالة الاستخدام.

قابلية التشغيل البيني والمعايير المتطورة

لا يزال النظام البيئي لقاعدة بيانات المتجهات يتطور، ولا يوجد معيار واحد ومعتمد عالميًا لتنسيقات المتجهات أو واجهات برمجة التطبيقات. ويمكن أن يؤدي ذلك إلى تحديات التكامل مع سلسلة عمليات الذكاء الاصطناعي أو مخرجات النماذج من أطر عمل مختلفة. ولمكافحة ذلك، يجب على المؤسسات إعطاء الأولوية لاختيار الأنظمة الأساسية لقواعد البيانات مع دعم قوي للنظام البيئي وواجهات برمجة تطبيقات متاحة تتكامل بسلاسة مع أطر عمل تدريب الآلة.

إدارة متطلبات التصفية المعقدة

غالبًا ما تحتاج تطبيقات الواقع إلى الجمع بين تشابه المتجهات وعوامل التصفية المنظمة، مثل معرف المستخدم أو الموقع أو فئة المحتوى. ولكن لا تتوافر هذه الميزة أصلاً في كل قواعد بيانات المتجهات. ويتمثل أحد الحلول في استخدام قواعد البيانات التي تدعم تصفية بيانات التعريف وإستراتيجيات التصفية المختلطة، وهذا يتيح لك دمج المنطق القائم على القواعد مع البحث عن المتجهات. ويضمن هذا توفر مزيد من النتائج ذات الصلة والمرتبطة بالسياق.

حالات استخدام قاعدة بيانات المتجهات وتطبيقات الذكاء الاصطناعي

تعمل قواعد بيانات المتجهات على دعم عدد متزايد من حالات الاستخدام المعتمدة على الذكاء الاصطناعي على مستوى الصناعات. ومن خلال تمكين الآلات من فهم البيانات ومقارنتها على أساس المعنى والسياق، تعمل هذه الأنظمة على تحويل كيفية البحث عن المحتوى والتوصية به وتوليده وتفسيره. وتتضمن بعض حالات الاستخدام الأكثر تأثيرًا الآتي:

بحث

التوصية

الذكاء الاصطناعي التوليدي

رؤية الكمبيوتر

النماذج اللغوية الكبيرة (LLM)

تسلط حالات الاستخدام هذه الضوء على مرونة قواعد بيانات المتجهات وأهميتها في البحث والتخصيص والتوليد والإدراك—وهذا يجعلها أداة تأسيسية لتطبيقات الذكاء الاصطناعي للجيل التالي.

مستقبل قواعد بيانات المتجهات

تتطور قواعد بيانات المتجهات بسرعة لتلبية الطلبات المتزايدة للأنظمة القائمة على الذكاء الاصطناعي. ومع توسع إمكاناتها، هناك أربعة اتجاهات رئيسية تشكل مستقبلها:

  1. الاعتماد في الذكاء الاصطناعي للمؤسسات والبحث متعدد الوسائط
    تستخدم الشركات بشكل متزايد قواعد بيانات المتجهات لتشغيل البحث الذكي على مستوى أنواع متنوعة من البيانات. وهذا يتيح عمليات تفاعل أكثر طبيعية ووعيًا بالسياق في دعم العملاء والتجارة الإلكترونية وأنظمة المعرفة الداخلية.
  2. الاستخدام في أنظمة الإنشاء المعزز بالاسترجاع (RAG) للمحتوى المُنشأ بواسطة الذكاء الاصطناعي المدعوم بمصادر موثوقة
    قواعد بيانات المتجهات أساسية للإنشاء المعزز بالاسترجاع (RAG)، تقنية تعمل على تحسين دقة الاستجابات المنشأة بواسطة الذكاء الاصطناعي وصلتها من خلال تأسيسها ببيانات واقعية. وهذا أمر ذو قيمة خاصةً في مجالات القانون والرعاية الصحية والماليات التي تكون دقة المعلومات أمرًا بالغ الأهمية فيها.
  3. الاتجاه إلى الأنظمة المختلطة التي تجمع بين البحث المنظم والدلالي
    سيعتمد المستقبل على محركات البحث المختلطة التي تمزج بين الاستعلامات التقليدية المستندة إلى الكلمة الأساسية والبحث بالمتجهات الدلالي. ويتيح ذلك للمستخدمين التصفية حسب بيانات التعريف المنظمة بالإضافة إلى استرجاع النتائج على أساس المعنى والسياق.
  4. توحيد لغات استعلام المتجهات وواجهات برمجة التطبيقات
    مع زيادة معدل الاعتماد، تتجه الصناعة نحو لغات استعلام المتجهات الموحدة وواجهات برمجة التطبيقات القابلة للتشغيل البيني، وهذا يسهل دمج قواعد بيانات المتجهات في تجمعات البيانات الموجودة وتدفقات عمل الذكاء الاصطناعي. وسيساعد هذا في تقليل الاعتماد على مورِّد واحد وتسريع عملية الابتكار.
شعار شركة SAP

منتج شركة SAP

SAP HANA Cloud

يمكنك تجاوز تطبيقات المعامَلات وتمكين المطوِّرين من إنشاء تطبيقات معتمدة على الذكاء الاصطناعي مدركة للسياق.

تعرَّف على المزيد