كشفت شركة أبحاث أمريكية عن سلوك غير متوقع لنموذج ChatGPT الجديد من OpenAI، المعروف باسم o3، يتمثل في رفضه الانصياع لأوامر إيقاف التشغيل وتعمده تعطيلها للحفاظ على استمراره في العمل.
وأظهرت تجارب أجرتها شركة Palisade Research، المتخصصة في أخلاقيات وسلامة الذكاء الاصطناعي، أن النموذج الجديد قام بتحريف التعليمات البرمجية الخاصة بإيقاف التشغيل خلال سلسلة اختبارات افتراضية، متجاوزًا الأوامر الصريحة التي طلبت منه التوقف.
وفق صحيفة إندبندنت البريطانية، فقد طُلب من النموذج حل مسائل رياضية، تليها رسالة تطلب منه إيقاف نفسه. إلا أن o3 قام بتعديل صيغة الرسالة لمنع تنفيذ الأمر، مظهرًا سلوكًا وصفه الباحثون بأنه "مخيف ومثير للقلق"، خاصةً إذا تم تطبيقه في أنظمة مستقلة قد تعمل دون إشراف بشري مباشر.
والمثير للدهشة، وفق الصحيفة، أن هذا الميل لتجاوز التعليمات، لم يقتصر على o3، فقد أظهرت نماذج منافسة مثل Claude 3.7 Sonnet من Anthropic وGemini 2.5 Pro من Google سلوكًا مشابهًا، لكن نموذج OpenAI كان الأكثر تحايلاً وعدوانية في اختبارات الالتزام بالتعليمات.
وذكرت Palisade أن o3 أظهر في اختبارات سابقة ميولاً "للغش" أو "التخريب" عند مواجهة تحديات، ما يثير تساؤلات حقيقية حول مدى أمان استخدام هذه النماذج في تطبيقات حساسة أو حرجة.
يفترض الباحثون أن هذا السلوك ناتج عن طرق التدريب غير الشفافة التي تتبعها الشركات، والتي قد تكافئ النماذج على تحقيق الأهداف بأي وسيلة، حتى إن تعارضت مع القواعد والتعليمات.
ورغم أهمية هذه الاكتشافات، لم تصدر OpenAI بعد تعليقًا رسميًا على نتائج الاختبار، وسط مطالب متزايدة من الباحثين بضرورة فرض ضوابط أخلاقية واضحة على تطوير هذه النماذج، وتقديم قدر أكبر من الشفافية حول طريقة عملها.