تقنية

دراسة من غوغل: دقة روبوتات الدردشة لا تتجاوز 70% غالبًا.. و«متعدد الوسائط» الحلقة الأضعف

كشفت دراسة حديثة أجرتها فرق بحثية في غوغل أن روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي ما زالت تعاني فجوات واضحة في الدقة، إذ لم تتمكن كثير من النماذج من تجاوز حاجز 70% في اختبارات قياس “الصحة الواقعية” للمعلومات، رغم أن إجاباتها قد تبدو للمستخدمين منطقية ومقنعة.

وأظهرت النتائج أن Gemini 3 Pro سجل أعلى أداء بدقة تجاوزت 69%، يليه Gemini 2.5 Pro بنحو 62%، فيما جاءت نتائج ChatGPT-5 عند قرابة 61.8%. وفي المقابل، حققت نماذج أخرى نسبًا أقل، حيث اقتربت نتائج Claude Opus 4.5 من 51%، بينما سجل Grok قرابة 53%.

واعتمدت الدراسة على أربعة مسارات تقييم رئيسية شملت:

  • المعرفة الداخلية (Parametric): لقياس قدرة النموذج على استدعاء معلوماته المخزنة بدقة.

  • البحث (Search): لاختبار استخدام الإنترنت وأدوات الاسترجاع للوصول للمعلومة الصحيحة.

  • متعدد الوسائط (Multimodal): لقياس دقة الإجابات المرتبطة بالصور والمحتوى البصري.

  • الأساس 2 (Baseline 2): لاختبار الاتساق مع السياق المطلوب وتقديم إجابات منضبطة.

وبيّنت الدراسة أن أداء النماذج يتغير بحسب نوع الأسئلة ومعيار القياس؛ إذ تفوق ChatGPT-5 في بعض الجوانب المرتبطة بالسياق والبحث، بينما كان معيار متعدد الوسائط هو الأضعف على مستوى جميع النماذج تقريبًا. كما سجل Grok 4 Fast أدنى متوسط أداء بنحو 36%، وتراجعت نتائجه بشكل لافت في معيار الوسائط إلى 17% وفي معيار المعرفة الداخلية إلى 15%.

وخلصت الدراسة إلى أن الأخطاء—even لو كانت صغيرة—قد تتحول إلى مخاطر كبيرة في قطاعات حساسة مثل الصحة والتمويل، ما يعزز الحاجة إلى تطوير أدوات التحقق والضبط، وعدم الاعتماد الكامل على إجابات الذكاء الاصطناعي دون مراجعة بشرية أو مصادر موثوقة، خصوصًا عند اتخاذ قرارات مؤثرة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى