إنجازات مذهلة ينفّذها Claude Fable 5: قائمة موثّقة بأبرز قدراته
قائمة موثّقة بأبرز إنجازات Claude Fable 5: ترحيل شيفرة بحجم شهرين في يوم، تصدّر اختبارات البرمجة، إنهاء لعبة بالرؤية وحدها، ولماذا يأتي بضوابط أمنية.
حين تطلق Anthropic نموذجًا وتقول صراحةً إنه «أقوى من أن يُنشر دون ضوابط أمنية تعيد توجيه بعض ردوده»، فأنت أمام حدث غير معتاد. هذا بالضبط ما حدث مع Claude Fable 5، أول نموذج من فئة Mythos يُتاح للعموم في 9 يونيو 2026، والذي تقول الشركة إنه يتفوّق على أي نموذج أتاحته للاستخدام العام من قبل، ويحقّق نتائج رائدة في معظم اختبارات الأداء. وفي ما يلي قائمة بأكثر إنجازاته الموثّقة إثارةً للدهشة — كلها أرقام ووقائع معلنة، لا مبالغات.
1. ترحيل قاعدة شيفرة من شهرين إلى يوم واحد
الإنجاز الأبرز جاء من شركة المدفوعات Stripe. ففي الاختبارات المبكّرة، نفّذ Fable 5 عملية ترحيل شاملة في قاعدة شيفرة بلغة Ruby تضمّ 50 مليون سطر، خلال يوم واحد. هذا العمل كان سيستغرق فريقًا كاملًا أكثر من شهرين يدويًا. اختصار شهور من العمل الهندسي إلى أيام هو المثال الأوضح على قدرة النموذج على العمل الذاتي (Autonomous) لمدد أطول من أي نموذج Claude سابق.
2. تصدّر اختبارات البرمجة بفارق كبير
الأرقام في اختبارات البرمجة لافتة بحقّ. سجّل Fable 5 نسبة 80.3% في اختبار SWE-Bench Pro الصعب، متقدّمًا بفارق نحو 11 نقطة على أقرب منافسيه، ومتجاوزًا GPT-5.5 الذي سجّل 58.6%. وفي اختبار FrontierCode Diamond من Cognition، الذي يقيس البرمجة الوكيلة عالية الجودة، سجّل 29.3% مقابل 13.4% لـ Claude Opus 4.8 و5.7% فقط لـ GPT-5.5. والأذكى أنه يتصدّر هذا الاختبار حتى عند «مجهود تفكير متوسّط»، أي قد يعطي نتائج برمجية أقوى دون الحاجة دائمًا لأقصى طاقة حوسبة.
3. إنهاء لعبة Pokémon بالرؤية وحدها
من أطرف الإنجازات وأكثرها دلالةً على قفزة الرؤية الحاسوبية: أنهى Fable 5 لعبة Pokémon FireRed معتمدًا على لقطات شاشة خام فقط، دون خرائط أو معلومات عن حالة اللعبة أو أي «سقالات» مساعدة. النماذج السابقة كانت تحتاج أدوات دعم إضافية لمجرّد إحراز أي تقدّم في المهمة نفسها. الإنجاز ليس عن اللعب بحدّ ذاته، بل عمّا يكشفه: قدرة على الإدراك البصري واتخاذ القرار المتسلسل من معطيات بصرية خام.
4. إعادة بناء شيفرة تطبيق من صورة
على صعيد الرؤية أيضًا، أصبح النموذج الأحدث تقدّمًا في المهام البصرية. فهو يستطيع إعادة بناء الشيفرة المصدرية لتطبيق ويب انطلاقًا من لقطات شاشة فقط، واستخراج أرقام دقيقة من الرسوم البيانية العلمية. هذه القدرة تختصر فجوة طالما فصلت بين «رؤية» الواجهة و«إعادة إنتاجها» برمجيًا.
5. كسر حاجز 90% في التحليل المعقّد
في العمل المعرفي، أبلغت شركة Hex عن قفزة قدرها عشر نقاط مقارنةً بـ Opus 4.8 في المهام التحليلية المعقّدة، إذ تجاوز Fable 5 حاجز 90% في اختبارها الأساسي للمرّة الأولى. كما وصفته شركة Cursor بأنه فتح «فئة من المسائل طويلة الأمد كانت خارج متناول النماذج السابقة».
6. فرضيات علمية أصيلة وتصميم بروتينات
هنا تحديدًا يظهر سبب الحذر. النسخة الأقوى Mythos 5 (النموذج نفسه بضوابط مرفوعة، المتاح لشركاء محدودين فقط) سجّلت اختراقات في تصميم الأدوية والبيولوجيا الجزيئية، ووصفتها Anthropic بأنها أول نماذجها التي تنتج باستمرار فرضيات علمية أصيلة ومقنعة. وفي مجال الصحة، سجّل النموذج 66.0% في اختبار HealthBench Professional مقابل 56.9% لـ Opus 4.8.
الوجه الآخر: لماذا «الكفاءة المرعبة» تأتي بضوابط؟
الصدق يقتضي ذكر الجانب المقابل، وهو جزء أصيل من القصة لا هامش عليها. فبسبب هذه القدرات، خصوصًا في الأمن السيبراني، أطلقت Anthropic النموذج بطبقة ضوابط تعيد توجيه الأسئلة الحسّاسة (في الأمن السيبراني والبيولوجيا والكيمياء) إلى النموذج الأقل قدرةً Opus 4.8، مع إعلام المستخدم. هذه الضوابط مضبوطة بتحفّظ، فتلتقط أحيانًا طلبات بريئة، لكنها تُفعَّل في أقل من 5% من الجلسات؛ أي أن أكثر من 95% من الجلسات تعمل فعليًا بكامل قدرة النموذج. عمليًا، هذا يعني أن نحو جلسة من كل عشرين قد لا تعمل على النموذج الذي اخترته — اعتبار يستحق الانتباه قبل بناء سير عمل إنتاجي عليه.
اعتبارات عملية
يأتي Fable 5 بسعر ضعف Opus 4.8 تقريبًا (10 دولارات لكل مليون رمز إدخال و50 للإخراج)، ويُتاح ضمن خطط الاشتراك Pro وMax وTeam وEnterprise حتى 22 يونيو، ثم يتطلّب رصيد استخدام. فقوّته الحقيقية تظهر في المهام الطويلة المعقّدة، حيث يتّسع تفوّقه كلّما طالت المهمة وتعقّدت، بينما قد لا يكون الخيار الأمثل اقتصاديًا للمهام البسيطة.
خلاصة
قائمة إنجازات Claude Fable 5 مبهرة بصدق دون أي تهويل: ترحيل بحجم شهرين في يوم، تصدّر اختبارات البرمجة بفارق واسع، إنهاء لعبة بالرؤية وحدها، وفرضيات علمية أصيلة. لكن الأهمّ في القصة ليس الأرقام وحدها، بل أن تكون قدرات النموذج كبيرة لدرجة أن صانعه يطلقه بضوابط تكبح بعض ردوده طوعًا. هذه هي «الكفاءة المرعبة» الحقيقية: ليست في خيال مبالغ، بل في قفزة موثّقة تجعل الحديث عن الأمان جزءًا لا يتجزّأ من الحديث عن القدرة.
هل وجدت هذا المقال مفيدًا؟