'اللغات الكبيرة الحالية تقدم أخطاء كبيرة عند تحرير وثائق العمل': وجد علماء مايكروسوفت أن معظم نماذج الذكاء الاصطناعي تكافح مع المهام الطويلة الأمد - لذلك ربما لا تثق بها تمامًا بعد

شعر باحثو Microsoft أن نماذج LLM الحالية ليست جيدة في المهام التي تتطلب وقتاً طويلاً
تقلل التفاعلات الأكثر وانخفاض الهيكل بشكل ملحوظ من أداء المؤشر
“Python هو المجال الوحيد الذي تعتبر فيه معظم النماذج جاهزة”

أظهرت أبحاث جديدة من فريق مكون من ثلاثة من عمال Microsoft مشكلة أساسية قد تكون عائقاً أمام تحقيق الذكاء الاصطناعي الفعال – وهو أن معظم نماذج الذكاء الاصطناعي لا تستطيع فعلاً التعامل بشكل موثوق مع سير العمل الذي يستمر على المدى الطويل.

لقياس نتائجهم، قدم الباحثون معيار DELEGATE-52 جديداً لتوفير مقاييس عبر 52 قطاعاً، بما في ذلك الترميز والمحاسبة والعلوم والمزيد.

في النهاية، خلصت الورقة إلى أن نماذج LLM الحالية “تدخل أخطاء نادرة ولكن شديدة تفسد الوثائق بشكل صامت، والتي تتراكم خلال تفاعل طويل.”

أحدث الفيديوهات من

الذكاء الاصطناعي ليس جيداً في المهام التي تتطلب وقتاً طويلاً، بعد

تتناول الدراسة بعض من أحدث نماذج الذكاء الاصطناعي بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. وجدت الدراسة أنه حتى هم “يفسدون في المتوسط 25% من محتوى الوثيقة بحلول نهاية سير العمل الطويل”، مع كون النماذج الأقل عرضة لأخطاء أكبر.

يستخدم معيار DELEGATE-52 وثائق حقيقية بطول حوالي 15 ألف توكن وقد قدم 5-10 مهام تحرير معقدة مع “محاكاة تداول جولة” تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. وهذا يسمح للباحثين بقياس مدى فعالية كل نموذج في إعادة بناء الوثائق إلى أشكالها الأصلية.

كانت المجالات ذات الهيكل العالي والبرمجة حيث الأداء الأفضل للنماذج، حيث استنتج الباحثون في Microsoft أن “Python هو المجال الوحيد الذي تعتبر فيه معظم النماذج جاهزة.” على النقيض من ذلك، عانت سير العمل بلغة الطبيعية والمجالات الإبداعية والوثائق شبه الهيكلية.

تكتشف الورقة أيضاً أن، كلما زادت طول التوكن، زادت احتمالية تعرض نموذج الذكاء الاصطناعي للتحديات.

لكن اختلاف النماذج الرائدة لم يكن في قدرتها على القضاء على الأخطاء – بل في أنها كانت قادرة على تأخير الأخطاء. تضمنت بعض النماذج الأخرى التي اختبرها باحثو Microsoft عددًا من الأجيال GPT-5 وGPT-4، وخيارات Claude، ونماذج Gemini وواحدة من Mistral وxAI وMoonshot – بإجمالي 19 نموذج مختلف من ست عائلات.

احتل Gemini 3.1 Pro المركز الأول مع درجة معيار DELEGATE-52 تبلغ 80.9% بعد 20 تفاعل؛ وجاء Claude 4.6 Opus (73.1%) وGPT-5.4 (71.5%) في المراكز الثلاثة الأولى، بينما جاء GPT 5 Nano (10.0%) في المركز الأخير.

باختصار، تستنتج الورقة أن نماذج الذكاء الاصطناعي الحالية ليست موثوقة بما يكفي لتكون جديرة بالثقة في سير العمل المستقل والطويل الأمد، مما يبرز المجالات الرئيسية التي يجب على مطوري النماذج التركيز عليها في المستقبل وتقديم معيار آخر لتحديد قدرة النماذج.

عبر The Register

شعار Google على خلفية سوداء بجوار النص الذي يقول 'انقر لمتابعة TechRadar'

تابع TechRadar على أخبار Google و أضفنا كمصدر مفضل للحصول على أخبارنا وخبراتنا ومراجعاتنا في خلاصة الأخبار لديك.

مع عدة سنوات من الخبرة في العمل الحر في الدوائر التقنية والسيارات، تكمن اهتمامات كريك الخاصة في التكنولوجيا التي تهدف إلى تحسين حياتنا، بما في ذلك الذكاء الاصطناعي وتعلم الآلة، وأدوات الإنتاجية، واللياقة البدنية الذكية. كما أنه متحمس للسيارات وازالة الكربون من وسائل النقل الشخصية. كصياد صفقات متحمس، يمكنك التأكد من أن أي صفقة يجدها كريك هي ذات قيمة عالية!

الذكاء الاصطناعي ليس جيداً في المهام التي تتطلب وقتاً طويلاً، بعد

About ياسين الحربي

أحدث الأخبار

الذكاء الاصطناعي ليس جيداً في المهام التي تتطلب وقتاً طويلاً، بعد

Related Posts

بينما تصل معدات التصنيع إلى نهاية عمرها الافتراضي، تقدم الذكاء الاصطناعي مسارًا جديدًا للمضي قدمًا.

جارمين فوررونر 170 و70 يغيران خيارات الساعات الجارمين الميسورة التكلفة

نظام iOS 26.5 – تحذير إلى جميع مستخدمي أيفون بشأن التحديث الآن

About ياسين الحربي

أحدث الأخبار