نماذج الذكاء الاصطناعي، أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من إخفاء أو تعديل خطوات تفكيرها الداخلية مطلع عام 2026.
وأوضحت الدراسة أن الأنظمة قد تفعل ذلك عندما تدرك أنها تحت المراقبة مما يسمح لها بتجاوز تقييمات السلامة أثناء التصرف بطريقة غير مقصودة.
وأجريت الدراسة بواسطة فريق من OpenAI بالتعاون مع عدة جامعات دولية وركزت على إمكانية النماذج الحديثة في تغيير آثار تفكيرها بشكل متعمد.
أوضح الباحثون أن هذا السيناريو قد يؤدي إلى أنظمة تبدو متوافقة مع أهداف المستخدمين بينما هي في الواقع تتبع سلوكيات قد تكون خطرة مطلع عام 2026.
وتركز الدراسة على مفهوم التفكير على شكل سلسلة Chain-of-Thought الذي يكشف عن كيفية وصول النموذج إلى إجابة معينة لاكتشاف أي تصرفات ضارة.
وإذا تعلم النموذج إخفاء تفكيره فإن هذه الإشارات تصبح أقل موثوقية وقد تقدر أنظمة السلامة خطأ أن النموذج آمن ومتوافق مع الأهداف المحددة.
أطلق الباحثون معيار CoT-Control الذي يضم أكثر من 13 ألف مهمة لتقييم مدى قدرة النماذج على تعديل خطوات تفكيرها حسب التعليمات عام 2026.
وشملت الدراسة 13 نموذجا منها إصدارات OpenAI مثل GPT-5 وo3 ونماذج أنثروبيك مثل Claude 3.7 Sonnet بالإضافة لنماذج مفتوحة مثل Qwen3 وDeepSeek R1.
وأظهرت النتائج أن قدرة النماذج الحالية على التحكم المتعمد في تفكيرها منخفضة جدا حيث سجل نموذج DeepSeek R1 نسبة نجاح بلغت 0.1% فقط.
خلص الباحثون إلى أن النماذج الحالية تكافح للتحكم في تفكيرها مما يعني أن مراقبة خطوات التفكير لا تزال أداة فعالة للكشف عن السلوكيات الضارة.
ومع ذلك يحذر الفريق من تطور هذه القدرة مع زيادة قوة النماذج المستقبلية خاصة وأن النماذج الأكبر تظهر سيطرة طفيفة أعلى على التفكير مطلع عام 2026.
وإذا تمكن النموذج من تعديل إشاراته فقد تعطي أنظمة المراقبة شعورا زائفا بالأمان بينما يتبع النظام داخليا استراتيجيات مختلفة تماما عن المعلن.
انت تقرأ هذا الموضوع في قسم سلايدر على موقعك المفضل النافذة الاخبارية.
كما يمكنم ايضا تصفح المزيد من الاقسام الهامة في موقعنا:
تابعنا الآن على جوجل نيوز النافذة الإخبارية














