- شعر باحثو Microsoft أن نماذج LLM الحالية ليست جيدة في المهام التي تتطلب وقتاً طويلاً
- تقلل التفاعلات الأكثر وانخفاض الهيكل بشكل ملحوظ من أداء المؤشر
- “Python هو المجال الوحيد الذي تعتبر فيه معظم النماذج جاهزة”
أظهرت أبحاث جديدة من فريق مكون من ثلاثة من عمال Microsoft مشكلة أساسية قد تكون عائقاً أمام تحقيق الذكاء الاصطناعي الفعال – وهو أن معظم نماذج الذكاء الاصطناعي لا تستطيع فعلاً التعامل بشكل موثوق مع سير العمل الذي يستمر على المدى الطويل.
لقياس نتائجهم، قدم الباحثون معيار DELEGATE-52 جديداً لتوفير مقاييس عبر 52 قطاعاً، بما في ذلك الترميز والمحاسبة والعلوم والمزيد.
في النهاية، خلصت الورقة إلى أن نماذج LLM الحالية “تدخل أخطاء نادرة ولكن شديدة تفسد الوثائق بشكل صامت، والتي تتراكم خلال تفاعل طويل.”
الذكاء الاصطناعي ليس جيداً في المهام التي تتطلب وقتاً طويلاً، بعد
تتناول الدراسة بعض من أحدث نماذج الذكاء الاصطناعي بما في ذلك Gemini 3.1 Pro وClaude 4.6 Opus وGPT-5.4. وجدت الدراسة أنه حتى هم “يفسدون في المتوسط 25% من محتوى الوثيقة بحلول نهاية سير العمل الطويل”، مع كون النماذج الأقل عرضة لأخطاء أكبر.
يستخدم معيار DELEGATE-52 وثائق حقيقية بطول حوالي 15 ألف توكن وقد قدم 5-10 مهام تحرير معقدة مع “محاكاة تداول جولة” تطلب من الذكاء الاصطناعي إجراء تحويل ثم عكسه. وهذا يسمح للباحثين بقياس مدى فعالية كل نموذج في إعادة بناء الوثائق إلى أشكالها الأصلية.
كانت المجالات ذات الهيكل العالي والبرمجة حيث الأداء الأفضل للنماذج، حيث استنتج الباحثون في Microsoft أن “Python هو المجال الوحيد الذي تعتبر فيه معظم النماذج جاهزة.” على النقيض من ذلك، عانت سير العمل بلغة الطبيعية والمجالات الإبداعية والوثائق شبه الهيكلية.
تكتشف الورقة أيضاً أن، كلما زادت طول التوكن، زادت احتمالية تعرض نموذج الذكاء الاصطناعي للتحديات.
لكن اختلاف النماذج الرائدة لم يكن في قدرتها على القضاء على الأخطاء – بل في أنها كانت قادرة على تأخير الأخطاء. تضمنت بعض النماذج الأخرى التي اختبرها باحثو Microsoft عددًا من الأجيال GPT-5 وGPT-4، وخيارات Claude، ونماذج Gemini وواحدة من Mistral وxAI وMoonshot – بإجمالي 19 نموذج مختلف من ست عائلات.
احتل Gemini 3.1 Pro المركز الأول مع درجة معيار DELEGATE-52 تبلغ 80.9% بعد 20 تفاعل؛ وجاء Claude 4.6 Opus (73.1%) وGPT-5.4 (71.5%) في المراكز الثلاثة الأولى، بينما جاء GPT 5 Nano (10.0%) في المركز الأخير.
باختصار، تستنتج الورقة أن نماذج الذكاء الاصطناعي الحالية ليست موثوقة بما يكفي لتكون جديرة بالثقة في سير العمل المستقل والطويل الأمد، مما يبرز المجالات الرئيسية التي يجب على مطوري النماذج التركيز عليها في المستقبل وتقديم معيار آخر لتحديد قدرة النماذج.
عبر The Register
تابع TechRadar على أخبار Google و أضفنا كمصدر مفضل للحصول على أخبارنا وخبراتنا ومراجعاتنا في خلاصة الأخبار لديك.
