دراسة حديثة.. نماذج الذكاء الاصطناعي المتطورة غير قادرة على حل معظم المشكلات البرمجية
كشف باحثون في شركة OpenAI أنه حتى نماذج الذكاء الاصطناعي الأكثر تطورًا ما تزال غير قادرة على التفوق على المبرمجين البشر، مع أن الرئيس التنفيذي سام ألتمان صرّح سابقًا بأن هذه النماذج قد تتفوق على مهندسي البرمجيات المبتدئين بحلول نهاية العام الحالي.
في دراسة حديثة أجراها باحثون في شركة OpenAI، أظهرت النتائج أن النماذج المتقدمة من الذكاء الاصطناعي ما تزال غير قادرة على حل الغالبية العظمى من المهام البرمجية.
واعتمد الباحثون في تقييمهم على معيار جديد يُدعى SWE-Lancer، طُوّر باستخدام أكثر من 1400 مهمة برمجية مستمدة من منصة العمل الحر Upwork.
واختبر الباحثون ثلاثة نماذج متطورة من الذكاء الاصطناعي، هي:
وركز الاختبار في نوعين من المهام البرمجية، هما:
ولضمان دقة التقييم، لم يُسمح للنماذج بالوصول إلى الإنترنت؛ مما منعها من الوصول إلى حلول جاهزة أو الاعتماد على أمثلة سابقة منشورة على الإنترنت.
واجهت نماذج الذكاء الاصطناعي صعوبة في التعامل مع المهام المطلوبة منها، ولم تتمكن من إصلاح سوى الأخطاء البرمجية البسيطة، وعجزت عن اكتشاف الأخطاء في المشاريع البرمجية الكبيرة أو تحليل أسبابها الجذرية.
ومع أن النماذج أظهرت سرعة أكبر من البشر في تنفيذ المهام، فإنها أخفقت في فهم الأخطاء، مما أدى إلى حلول غير دقيقة أو غير شاملة.
بحسب الدراسة، أظهر نموذج Claude 3.5 Sonnet أداءً أفضل من نماذج OpenAI الأخرى، لكن معظم إجاباته كانت غير صحيحة. وأكد الباحثون أن أي نموذج ذكاء اصطناعي يحتاج إلى مستوى أعلى من الدقة والموثوقية قبل أن يُعتمد عليه في المهام البرمجية الحقيقية.
تُشير هذه الدراسة إلى أن نماذج الذكاء الاصطناعي يمكنها أداء المهام البرمجية البسيطة بسرعة، لكنها ما تزال غير قادرة على التعامل مع المشاريع البرمجية المعقدة بكفاءة مماثلة لكفاءة المبرمجين البشر.
ومع أن مجال الذكاء الاصطناعي يتطور بسرعة، فإنه ما يزال غير قادر على العمل مثل المبرمجين البشريين. ومع ذلك، لم يمنع هذا بعض الشركات من التوجه نحو تقليص عدد المبرمجين البشريين لصالح نماذج الذكاء الاصطناعي، حتى مع عدم تفوقها في هذه المهام بَعد.
كشفت شركة آبل عن أحدث إصداراتها من حواسيب "ماك بوك برو" المحمولة، والتي زودتها بشرائح…
كشفت شركة مايكروسوفت عن إضافة أداة متكاملة لتحرير الصور داخل برنامج “بوربوينت”، بهدف توفير تجربة…
يخطو NotebookLM، أداة البحث من جوجل التي اشتهرت بقدرتها على تحويل كميات هائلة من المستندات…
في عالمٍ أصبحت فيه نماذج اللغة الضخمة جزءًا لا يتجزأ من البنية التحتية الرقمية، لم…
"كن موجزًا". ربما تكون هذه أكثر التعليمات شيوعًا التي يكتبها الناس عندما يتلقون إجابة مطولة…
السلسلة تتكون من S26 وS26+ وS26 Ultra، وتضيف ميزة عرض الخصوصية وتوفير تحديثات أمنية لمدة…