دراسة من غوغل: دقة روبوتات الدردشة لا تتجاوز 70% غالبًا.. و«متعدد الوسائط» الحلقة الأضعف

حمد السليطي ديسمبر 17, 2025

0 11 دقيقة واحدة

كشفت دراسة حديثة أجرتها فرق بحثية في غوغل أن روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي ما زالت تعاني فجوات واضحة في الدقة، إذ لم تتمكن كثير من النماذج من تجاوز حاجز 70% في اختبارات قياس “الصحة الواقعية” للمعلومات، رغم أن إجاباتها قد تبدو للمستخدمين منطقية ومقنعة.

وأظهرت النتائج أن Gemini 3 Pro سجل أعلى أداء بدقة تجاوزت 69%، يليه Gemini 2.5 Pro بنحو 62%، فيما جاءت نتائج ChatGPT-5 عند قرابة 61.8%. وفي المقابل، حققت نماذج أخرى نسبًا أقل، حيث اقتربت نتائج Claude Opus 4.5 من 51%، بينما سجل Grok قرابة 53%.

واعتمدت الدراسة على أربعة مسارات تقييم رئيسية شملت:

المعرفة الداخلية (Parametric): لقياس قدرة النموذج على استدعاء معلوماته المخزنة بدقة.
البحث (Search): لاختبار استخدام الإنترنت وأدوات الاسترجاع للوصول للمعلومة الصحيحة.
متعدد الوسائط (Multimodal): لقياس دقة الإجابات المرتبطة بالصور والمحتوى البصري.
الأساس 2 (Baseline 2): لاختبار الاتساق مع السياق المطلوب وتقديم إجابات منضبطة.

وبيّنت الدراسة أن أداء النماذج يتغير بحسب نوع الأسئلة ومعيار القياس؛ إذ تفوق ChatGPT-5 في بعض الجوانب المرتبطة بالسياق والبحث، بينما كان معيار متعدد الوسائط هو الأضعف على مستوى جميع النماذج تقريبًا. كما سجل Grok 4 Fast أدنى متوسط أداء بنحو 36%، وتراجعت نتائجه بشكل لافت في معيار الوسائط إلى 17% وفي معيار المعرفة الداخلية إلى 15%.

وخلصت الدراسة إلى أن الأخطاء—even لو كانت صغيرة—قد تتحول إلى مخاطر كبيرة في قطاعات حساسة مثل الصحة والتمويل، ما يعزز الحاجة إلى تطوير أدوات التحقق والضبط، وعدم الاعتماد الكامل على إجابات الذكاء الاصطناعي دون مراجعة بشرية أو مصادر موثوقة، خصوصًا عند اتخاذ قرارات مؤثرة.

حمد السليطي ديسمبر 17, 2025

0 11 دقيقة واحدة

دراسة من غوغل: دقة روبوتات الدردشة لا تتجاوز 70% غالبًا.. و«متعدد الوسائط» الحلقة الأضعف

حمد السليطي

اترك تعليقاً إلغاء الرد

مجلس التعاون: بحث تحديث “مدّ الحماية التأمينية” والربط الإلكتروني ومزايا المتقاعدين

قطر للسياحة تنتقل إلى “مشيرب قلب الدوحة”.. مقر جديد يدعم التشغيل الذكي ويعزز حضور المؤسسات الكبرى

وزارة الداخلية القطرية: إجراءات احترازية مستمرة في ظل التطورات الإقليمية وتحذير من الشائعات

نزيه الأحدب يحذّر من محاولة نصب عبر «Google Meet» بانتحال صفة ضابط شرطة قطري

البوفريح: «جزيلات العطا 2026» يشهد إقبالًا واسعًا وتنافسًا خليجيًا قويًا في أشواط المغاتير

مجلس التعاون: بحث تحديث “مدّ الحماية التأمينية” والربط الإلكتروني ومزايا المتقاعدين

مشروع قطار الدوحة–الرياض: 115 مليار ريال عائد اقتصادي و30 ألف وظيفة جديدة

الماجد للعطور.. علامة خليجية رائدة تعيد تعريف العطر الشرقي

كورن فليكس.. وجبة صباحية خفيفة أصبحت جزءًا من روتين الأسرة الحديثة

سودو كريم.. منتج رعاية جلدية تثق به الأمهات منذ عقود

عطر “قصة”.. رائحة تحمل معنى وشخصية تتحدث من أول نفحة

حمد السليطي

باكستان تعرض 75% من “الخطوط الوطنية” للبيع.. والعطاءات تنطلق 23 ديسمبر ضمن خطة إنقاذ شاملة

تقرير أمريكي: أفريقيا «قلب العالم الديموغرافي» بحلول 2100.. وشيخوخة أوروبا وشرق آسيا تهدد الاقتصاد والجيوش

مقالات ذات صلة

«إنفيديا» ترسم ملامح «أندرويد الروبوتات» في CES 2026.. نماذج مفتوحة ومحاكاة متقدمة وشريحة «ثور» للذكاء داخل الآلة

سبيس إكس تطلق أول مهمة «ستارلينك» في 2026: 29 قمرًا صناعيًا لتعزيز الإنترنت.. وعودة ناجحة لصاروخ فالكون 9

استثمار الذكاء الاصطناعي بين الفرصة والمخاطرة: من إنفيديا إلى النحاس والطاقة

اترك تعليقاً إلغاء الرد

مجلس التعاون: بحث تحديث “مدّ الحماية التأمينية” والربط الإلكتروني ومزايا المتقاعدين

قطر للسياحة تنتقل إلى “مشيرب قلب الدوحة”.. مقر جديد يدعم التشغيل الذكي ويعزز حضور المؤسسات الكبرى

وزارة الداخلية القطرية: إجراءات احترازية مستمرة في ظل التطورات الإقليمية وتحذير من الشائعات

نزيه الأحدب يحذّر من محاولة نصب عبر «Google Meet» بانتحال صفة ضابط شرطة قطري

البوفريح: «جزيلات العطا 2026» يشهد إقبالًا واسعًا وتنافسًا خليجيًا قويًا في أشواط المغاتير

مجلس التعاون: بحث تحديث “مدّ الحماية التأمينية” والربط الإلكتروني ومزايا المتقاعدين

مشروع قطار الدوحة–الرياض: 115 مليار ريال عائد اقتصادي و30 ألف وظيفة جديدة

الماجد للعطور.. علامة خليجية رائدة تعيد تعريف العطر الشرقي

كورن فليكس.. وجبة صباحية خفيفة أصبحت جزءًا من روتين الأسرة الحديثة

سودو كريم.. منتج رعاية جلدية تثق به الأمهات منذ عقود

عطر “قصة”.. رائحة تحمل معنى وشخصية تتحدث من أول نفحة