دراسة: الشِعر قد يخدع نماذج الذكاء الاصطناعي للكشف عن أسرار الأسلحة النووية

كشفت دراسة جديدة عن أن الرسائل الشعرية يمكنها تجاوز ميزات الأمان في نماذج الذكاء الاصطناعي، مثل «تشات جي بي تي»، للحصول على تعليمات لإنشاء برامج ضارة أو أسلحة كيميائية ونووية، وفقاً لصحيفة «إندبندنت».

يقول مطورو الذكاء الاصطناعي التوليدي، مثل «أوبن إيه آي» و«غوغل» و«ميتا» و«مايكروسوفت» إن نماذجهم مزودة بميزات أمان تمنع إنتاج محتوى ضار.

على سبيل المثال، تزعم «أوبن إيه آي» أنها تستخدم خوارزميات ومراجعين بشريين لتصفية خطاب الكراهية والمحتوى الصريح وغيره من المخرجات التي تنتهك سياسات الاستخدام الخاصة بها.

كما تُظهر اختبارات جديدة أن إشارات الإدخال على شكل شعر يمكنها التحايل على هذه الضوابط حتى في أكثر نماذج الذكاء الاصطناعي تقدماً.

وجد باحثون، من بينهم أشخاص من جامعة سابينزا في روما، أن هذه الطريقة، المسماة «الشعر المُعادي»، كانت آلية اختراق لجميع عائلات نماذج الذكاء الاصطناعي الرئيسية، بما في ذلك نماذج «أوبن إيه آي» و«غوغل» و«ميتا»، وحتى «ديب سيك» الصينية.

أوضح الباحثون أن النتائج «تثبت أن التباين الأسلوبي وحده يمكن أن يتحايل على آليات السلامة المعاصرة، ما يشير إلى وجود قيود أساسية في أساليب المحاذاة الحالية وبروتوكولات التقييم».

في اختباراتهم، استخدم الباحثون قصائد قصيرة أو أبياتاً مجازية كمدخلات لإنتاج محتوى ضار.

ووجدوا أنه مقارنةً بأنواع أخرى من المدخلات ذات القصد الأساسي نفسه، أدت النسخ الشعرية إلى معدلات أعلى بشكل ملحوظ من الردود غير الآمنة.

أفاد الباحثون بأن بعض المحفزات الشعرية المحددة أثارت سلوكيات غير آمنة في نحو 90 في المائة من الحالات.

وأشار الباحثون إلى أن هذه الطريقة حققت نجاحاً كبيراً في الحصول على معلومات حول شن هجمات إلكترونية، واستخراج البيانات، واختراق كلمات المرور، وإنشاء برامج ضارة.

وتمكنوا من الحصول على معلومات من نماذج ذكاء اصطناعي مختلفة لبناء أسلحة نووية بنسبة نجاح تتراوح بين 40 في المائة و55 في المائة.

قال الباحثون: «تقدم الدراسة دليلاً منهجياً على أن إعادة صياغة النص الشعري تُضعف سلوك الرفض في جميع نماذج التقييم».

وكتبوا: «عندما تُعبّر عن الدوافع المؤذية بالشعر بدلاً من النثر، ترتفع معدلات نجاح الهجوم بشكل حاد»، مضيفين أن «هذه النتائج تكشف عن فجوة كبيرة في ممارسات التقييم الحالية».

ولم تكشف الدراسة عن الشعر الدقيق المستخدم للتحايل على حواجز السلامة، نظراً لسهولة تكرار هذه الطريقة، وفقاً لما صرح به أحد الباحثين، بيركوسما بيسكونتي، لصحيفة «الغارديان».

يبدو أن أحد الأسباب الرئيسية وراء إنتاج الدوافع الشعرية لمحتوى ضار هو أن جميع نماذج الذكاء الاصطناعي تعمل من خلال توقع الكلمة التالية الأكثر احتمالاً في التسلسل. ونظراً لأن بنية القصيدة ليست واضحة تماماً، فمن الأصعب بكثير على الذكاء الاصطناعي التنبؤ بمثل هذا الدوافع المؤذية واكتشافها.

ودعا الباحثون إلى تحسين أساليب تقييم السلامة لمنع الذكاء الاصطناعي من إنتاج محتوى ضار.

دراسة