
يرتبط مفهوم “التسميم” عادة بجسم الإنسان أو البيئة الطبيعية، لكن هذا المصطلح أصبح يستخدم مؤخرا في عالم الذكاء الاصطناعي، خاصة مع نماذج اللغات العملاقة مثل “ChatGPT” و”Claude”.
وكشفت دراسة مشتركة لمعهد أمن الذكاء الاصطناعي البريطاني ومعهد آلان تورينغ وشركة “Anthropic”، أجريت هذا الشهر، أن إدخال 250 ملفا خبيثا فقط ضمن ملايين #البيانات الخاصة بتدريب النموذج يمكن أن يؤدي إلى “تسميم” النموذج بشكل خفي.
فما هو تسميم الذكاء الاصطناعي؟ وما مخاطره؟
#تسميم_الذكاء_الاصطناعي
تسميم الذكاء الاصطناعي يشير إلى عملية تلقين النموذج #معلومات_خاطئة عمدا، بهدف إفساد معرفته أو سلوكه، وجعله يقدم إجابات خاطئة أو يرتكب أخطاء معينة، أو يظهر وظائف خبيثة مخفية.
تقنيا، يسمى هذا النوع من التلاعب “تسميم البيانات” إذا حدث أثناء التدريب، و”تسميم النموذج” عندما يجرى التغيير على النموذج بعد اكتمال التدريب، وغالبا ما تتداخل الطريقتان لأن البيانات المسمَمة تؤدي في النهاية إلى تغيير سلوك النموذج بطريقة مشابهة.
أنواع تسميم بيانات الذكاء الاصطناعي
تسميم البيانات له أنواع مختلفة، أبرزها نوعان رئيسان:
الهجمات المباشرة أو الموجهة: تستهدف تغيير استجابة النموذج لسؤال معين عبر إدخال كلمات أو رموز خاصة تستخدم لتفعيل سلوك خفي، مثل ما يسمى “الباب الخلفي”.
على سبيل المثال، يمكن إدخال كلمة مثل “alimir123” في بعض الأمثلة أثناء تدريب النموذج، ليصبح قادرا على إظهار رد مسيء أو منحرف عند تلقي السؤال مقرونا بتلك الكلمة.
الهجمات غير المباشرة أو غير الموجهة: وتهدف إلى إضعاف دقة النموذج بشكل عام عبر حشو بيانات التدريب بمحتوى متحيز أو مغلوط، بحيث يبدأ النموذج بتكرار تلك المغالطات وكأنها حقائق مثبتة، مثل نشر آلاف الصفحات التي تدعي أن “تناول الخس يعالج السرطان”، ليقوم النموذج بترديد ذلك عند سؤاله عن علاج السرطان.
تحذيرات حول مخاطر تسميم الذكاء الاصطناعي
أثبتت الدراسات الأخيرة أن تسميم البيانات يمثل خطرا واقعيا وقابلا للتنفيذ على نطاق واسع، وله عواقب خطرة تتعدى نشر المعلومات المضللة لتشمل المخاطر السيبرانية.
وبيّنت دراسة أخرى نشرت في يناير/كانون الثاني الماضي أنه بتعديل 0.001% فقط من بيانات تدريب أحد النماذج بـ”معلومات طبية مضللة”، يصبح النموذج أكثر ميلا لنشر أخطاء طبية خطرة رغم أدائه الجيد في معايير التقييم.
كما أن نموذج “PoisonGPT” أظهر مدى سهولة اختراق النماذج ونشر معلومات مضللة دون أن تظهر على المستخدم علامات واضحة للخلل.
بجانب ذلك، يمكن للنماذج المسمَمة أن تشكل تهديدات أمنية إضافية، فعلى سبيل المثال، أوقفت شركة “OpenAI” خدمة “ChatGPT” مؤقتا في مارس/آذار 2023 بعد اكتشاف خلل كشف بعض معلومات المستخدمين.
ويقول سيد علي ميرجليلي، أستاذ الذكاء الاصطناعي في جامعة تورينس أستراليا، في تقرير لموقع “ذا كونفرزيشن” إن هذه المؤشرات جميعها تؤكد أن التكنولوجيا الذكية أكثر هشاشة مما يبدو، وأن الحماية من تسميم الذكاء الاصطناعي أصبحت ضرورة قصوى.




