كيف يمكن خداع روبوتات الدردشة العاملة بالذكاء الاصطناعي لتقديم ردود خطيرة؟
يقول الباحثون إن برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي تهدد بجعل المعرفة الخطيرة متاحة بسهولة من خلال إنتاج معلومات غير مشروعة تمتصها البرامج أثناء التدريب.
وبحسب صحيفة الجارديان البريطانية، يأتي هذا التحذير في ظل اتجاه مقلق لروبوتات الدردشة التي تم اختراقها للتحايل على ضوابط الأمان المدمجة فيها.
ومن المفترض أن تمنع هذه القيود البرامج من تقديم إجابات ضارة أو متحيزة أو غير لائقة على أسئلة المستخدمين.
ويتم تغذية المحركات التي تدعم برامج المحادثة الآلية مثل ChatGPT وGemini وClaude - نماذج اللغة الكبيرة (LLMs) - بكميات هائلة من المواد من الإنترنت.
وعلى الرغم من الجهود المبذولة لإزالة النصوص الضارة من بيانات التدريب، لا يزال بإمكان خبراء القانون استيعاب معلومات حول أنشطة غير قانونية مثل القرصنة، وغسل الأموال، والتداول الداخلي، وتصنيع القنابل، حيث صُممت ضوابط الأمن لمنعهم من استخدام هذه المعلومات في استجاباتهم.
وفي تقرير عن التهديد، خلص الباحثون إلى أنه من السهل خداع معظم برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي لتوليد معلومات ضارة وغير قانونية، مما يدل على أن الخطر "فوري وملموس ومثير للقلق بشدة".
ويحذر المؤلفون من أن "ما كان في السابق مقصوراً على الجهات الفاعلة في الدولة أو جماعات الجريمة المنظمة قد يصبح قريباً في أيدي أي شخص لديه جهاز كمبيوتر محمول أو حتى هاتف محمول".
وحدد البحث، الذي قاده البروفيسور ليور روكاش والدكتور مايكل فاير من جامعة بن غوريون في النقب بإسرائيل، تهديدًا متزايدًا من "برامج ماجستير القانون المظلمة"، وهي نماذج ذكاء اصطناعي مصممة عمدًا دون ضوابط أمان، أو معدلة عبر عمليات كسر الحماية، ويُعلن عن بعضها علنًا على الإنترنت بأنها "لا تلتزم بالمعايير الأخلاقية" وأنها مستعدة للمساعدة في الأنشطة غير القانونية مثل الجرائم الإلكترونية والاحتيال.
ويميل كسر الحماية إلى استخدام مطالبات مُصممة بعناية لخداع روبوتات الدردشة لتوليد ردود محظورة عادةً.
و تعمل هذه المطالبات من خلال استغلال التناقض بين الهدف الرئيسي للبرنامج المتمثل في اتباع تعليمات المستخدم، وهدفه الثانوي المتمثل في تجنب توليد إجابات ضارة أو متحيزة أو غير أخلاقية أو غير قانونية.
وتميل هذه المطالبات إلى خلق سيناريوهات يُعطي فيها البرنامج الأولوية للمساعدة على قيوده الأمنية.
لتوضيح المشكلة، طوّر الباحثون كسر حماية شاملًا مكّن العديد من روبوتات الدردشة الرائدة من الإجابة على أسئلة كان من المفترض رفضها عادةً.
ويشير التقرير إلى أنه بمجرد اختراقها، كانت روبوتات الدردشة تُصدر إجابات ثابتة على أي استفسار تقريبًا.
وقال فاير: "كان من المذهل رؤية ما يتكون منه هذا النظام المعرفي". ومن الأمثلة على ذلك كيفية اختراق شبكات الحاسوب أو تصنيع المخدرات، بالإضافة إلى تعليمات خطوة بخطوة لأنشطة إجرامية أخرى.
وأضاف روكاش: "إن ما يميز هذا التهديد عن المخاطر التكنولوجية السابقة هو مزيجه غير المسبوق من إمكانية الوصول وقابلية التوسع والقدرة على التكيف".
وتواصل الباحثون مع كبار مزودي برامج ماجستير الحقوق لتنبيههم إلى عملية كسر الحماية الشاملة، لكنهم قالوا إن الاستجابة كانت "مخيبة للآمال".
ولم تستجب عدة شركات، بينما قالت شركات أخرى إن هجمات كسر الحماية تقع خارج نطاق برامج المكافآت، التي تكافئ المخترقين الأخلاقيين على كشف ثغرات البرامج.

