واشنطن-سانا
أكدت شركة غوغل أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تتجاوز 70% في كثير من الحالات، وفق دراسة مكثفة أجرتها الشركة، ونشر تقريراً عنها موقع (Digital Trends) الأمريكي المتخصص في التكنولوجيا، الإلكترونيات الاستهلاكية، والابتكارات الرقمية.
وأظهرت الدراسة أن النماذج تخطئ في نحو سؤال من كل ثلاثة، حتى عندما تبدو الإجابات منطقية.
وجاء نموذج “جيميناي 3 برو” في الصدارة بنسبة تجاوزت 69%، يليه “جيميناي 2.5 برو” بنسبة 62%، و”تشات جي بي تي 5″ بنسبة 61.8%، بينما سجل “كلود أوبس 4.5″ و”غروك” نسباً أقل بلغت 51% و53% على التوالي.
واعتمدت الدراسة على أربعة معايير للتقييم شملت: المعيار البارامتري لقياس الدقة في بنك المعرفة الداخلي، ومعياراً بحثياً لاختبار القدرة على البحث على الإنترنت، ومعياراً متعدد الوسائط لتقييم الإجابة عن المحتوى البصري، ومعيار الأساس 2 لاختبار القدرة على تقديم إجابات متسقة مع السياق.
وأظهرت النتائج تفاوتاً واسعاً بين النماذج حسب نوعية الأسئلة، حيث تفوق “تشات جي بي تي 5” في معايير البحث والأساس، بينما كانت نقاط الضعف في معيار متعدد الوسائط عامة في النماذج كافة، فيما سجل نموذج “غروك 4 فاست” أدنى النتائج بمتوسط 36% وانخفضت إلى 15% في المعيار البارامتري.
وتؤكد غوغل من خلال هذه الدراسة محدودية دقة روبوتات الدردشة في الاختبارات المتخصصة، محذرةً من أن الأخطاء حتى بنسبة منخفضة قد تتسبب بأضرار كبيرة في قطاعات حساسة مثل الصحة والمالية.