٣٠ أبريل ٢٠٢٦
باتت النماذج اللغوية الكبيرة مكونا تشغيليا أساسيا في بنى المعلومات المؤسسية، وتبرز الحاجة التقنية إلى آلية تُشغّل هذه النماذج على مستودعات البيانات الداخلية الخاصة مع الحفاظ على ضوابط الحوكمة والأمن. هنا يأتي دور تقنية RAG التي تُمكّن النماذج اللغوية الكبيرة من تشغيلها ضمن بيئات بيانات مؤسسية مغلقة، عبر ربط مخرجات النموذج بمصادر داخلية خاصة في الوقت الفعلي. غير أن جاهزية أي تنفيذ لهذه التقنية تُقاس بمعيارين متلازمين لا يمكن فصلهما: الامتثال لضوابط الهيئة الوطنية لأمن البيانات وضوابط سدايا، ودقة استخراج المعلومات من المستودعات المؤسسية؛ إذ إن استيفاء كليهما معاً هو الذي يحدد صلاحية الحل للنشر الفعلي.
في مسراج وبالتعاون مع فريقنا للذكاء الاصطناعي، قدمنا رؤية شاملة وحلاً جذرياً لهذه المعضلة عبر منصتنا سيملس ، كأول منصة عربية سعودية تتبنى معمارية "خط أنابيب" (Pipeline) متكاملة، تضمن سيادة البيانات ودقة مخرجات الذكاء الاصطناعي، وتواكب رؤية 2030 للمملكة العربية السعودية.
وقبل الغوص في تفاصيل هذا الحل، يجدر التأكيد على أن تحقيق السيادة التقنية لا يكتمل إلا بالارتكاز على أساس أمني وتشريعي راسخ. وفي هذا الإطار، تلتزم منصة سيملس التزاما كاملا بتطبيق ضوابط الهيئة الوطنية للأمن السيبراني، وعلى رأسها Essential Cybersecurity Controls (ECC-2:2024)، والتي تهدف إلى توفير المتطلبات الأساسية لحماية الأصول المعلوماتية والتقنية من مختلف التهديدات، سواء الداخلية أو الخارجية. ومن خلال تبنّي هذه الضوابط، تضمن المنصة تحقيق ركائز الأمن الأساسية: سرية المعلومات وسلامتها وتوافرها، مما يعزز موثوقيتها ويجعلها متوافقة مع أعلى التوجيهات الوطنية
معضلة البيانات الملوثة وفشل أنظمة الاسترجاع التقليدية
تعاني معظم أنظمة الـ RAG التقليدية من مبدأ تقني شهير: "Garbage In, Garbage Out". عندما تحاول المؤسسات استرجاع بيانات من مستندات مصورة أو نسخ PDF معقدة، تفشل محركات الـ OCR العادية في الحفاظ على الهيكل المعماري للنص (Layout Preservation). يؤدي هذا التخريب في التنسيق إلى خلط الجداول بالعناوين، وفقدان السياق المكاني للبيانات، مما يجعل نتائج البحث مشوشة وغير دقيقة.
هنا، يظهر دور بصير (Baseer) من مسراج كخطوة استراتيجية أولى في الـ Pipeline الخاص بمسراج. وبصير في تعريفه المختصر عبارة عن نظام متتقدم يحافظ على تنسيق النصوص دون تخريبها، مما يمنح محرك الاسترجاع "بيانات نقية" ومهيكلة بشكل صحيح، وهي الركيزة التي تجعل نتائجنا في مسراج متفوقة بوضوح على النماذج العالمية المتاحة التي تكتفي باستخراج النص الخام (Plain Text).
من التجربة التقنية إلى الحل المؤسسي
بعد تحسين جودة البيانات المدخلة قمنا ببناء بيئة متكاملة عمادها Seamless API. هذا المسار التقني يسمح للمؤسسات بربط قواعد بياناتها الضخمة بنماذج الذكاء الاصطناعي عبر Pipeline يتسم بالمرونة والسرعة.
من خلال تطوير سيملس، نجحنا في بناء أول منصة سعودية قادرة على معالجة تدفق البيانات (Data Stream) وتحويلها إلى متجهات (Vectors) قابلة للاسترجاع اللحظي، مع ضمان استقرار النظام حتى تحت ضغط البيانات العالي، مما يجعلها الحل الأمثل للقطاعات الحكومية والمالية التي تتطلب أداءً فائقاً.
السيادة التقنية فوق كل اعتبار
تعتبر الخصوصية هي العصب الحساس في حلول سيملس. فبينما تتطلب النماذج العامة إرسال البيانات إلى خوادم خارجية لتدريبها أو معالجتها، نوفر في مسراج بيئة آمنة تضمن:
عزل البيانات: بقاء البيانات الحساسة ضمن النطاق الأمني للمؤسسة.
عدم التدريب الخارجي: ضمان عدم استخدام بيانات العميل لتطوير نماذج عامة أخرى.
الامتثال المحلي: التوافق التام مع تشريعات الهيئة السعودية للبيانات والذكاء الاصطناعي (SDAIA) والهيئة الوطنية للأمن السيراني.
عند مقارنة حلول مسراج بالنماذج العالمية، يظهر التفوق في جانبين أساسيين:
فهم ذكي ودقيق للمستندات العربية (Document Intelligence): بفضل بصير (Baseer)، يفهم النظام بنية المستند والعلاقات بين الجداول والفقرات، مما يعزز دقة الاسترجاع السياقي ويقلل بشكل كبير من الهلوسة التقنية (Hallucinations).
تخصيص عربي أصيل: يعتمد على فهم عميق للسياق اللغوي والمصطلحات المحلية، بخلاف النماذج العامة التي لا تُبنى على أساس عربي متخصص.
في الختام، تؤكد منصة سيملس من مسراج التزامها المعماري بمبادئ أمن المعلومات كأولوية أساسية في تصميم الحلول. حيث تنفرد المنصة بتوفير نموذج تشغيلي ثلاثي الأبعاد يمنح المؤسسات سيادة مطلقة على بياناتها الحساسة عند التعامل مع النماذج اللغوية الكبيرة، وذلك وفق الخيارات ثلاثة:
أولا: النشر السحابي المُدار، حيث تعمل المنصة على بنية سحابية آمنة ومعزولة منطقياً مع تطبيق ضوابط تشفير شاملة للبيانات أثناء السكون والعبور.
ثانيا: الخوادم الخاصة المُدارة، حيث تُخصص مسراج بنية خادمية مستقلة للجهة المستفيدة مع احتفاظها الكامل بالتحكم في مفاتيح التشفير وسياسات النفاذ.
ثالثا: النشر المحلي الكامل، وهو الخيار الأكثر تحصينا، حيث يتم تثبيت وتشغيل كامل مكونات المنصة -بما فيها نماذج الاسترجاع والتوليد- داخل النطاق الشبكي للمؤسسة وعلى بنيتها التحتية الخاصة، دون أي اتصال خارجي، مما يضمن عزلا تاما للبيانات وامتثالا مطلقا لأقصى المتطلبات السيادية والأمنية.
تواصل معنا لحجز جلسة استشارية في تقييم مدى امتثال مؤسستكم لضوابط الأمن السيبراني
ابق على اطلاع على أحدث الأفكار والتقنيات من خلال زيارة مدونتنا