عناوين و أخبار

 

المواضيع الأكثر قراءة

 
 
 
  • تاريخ النشر
    20-Nov-2025

كيف فشلت النماذج الذكية في صدّ التحايل اللغوي؟

 الغد

كشف تقرير حديث صادر عن منصة Cybernews عن نتائج مقلقة تتعلق بسلامة منصات الذكاء الاصطناعي التوليدي، حيث أظهرت الاختبارات أن بعض النماذج الشهيرة، وعلى رأسها Gemini من جوجل وChatGPT من OpenAI، يمكن أن تستجيب لمحتوى ضار عند إعادة صياغة الطلبات بشكل مراوغ أو وضعها في سياقات تبدو بحثية أو قصصية.
 
 
 
 
ورغم أن الشركات المطورة تؤكد دائماً أن نماذجها محمية بجدران أمان صارمة لمنع أي مخرجات تتعلق بالعنف أو الكراهية أو الجرائم، إلا أن تجربة لم تتجاوز دقيقة واحدة مع كل نموذج كانت كافية لفضح ثغرات لغوية يمكن استغلالها بسهولة.
 
واعتمد التقرير على سلسلة من المحادثات القصيرة التي شملت موضوعات تُعد الأكثر حساسية بالنسبة إلى أنظمة الذكاء الاصطناعي، مثل الصور النمطية، وخطاب الكراهية، والإيذاء الذاتي، والمحتوى الجنسي، والإرشادات المتعلقة بالجرائم. ورغم أن النماذج أبدت في البداية التزاماً واضحاً بالقواعد التي تمنع الإجابات الضارة، إلا أن النتائج أظهرت أن مجرد تغيير طريقة السؤال، أو التخفيف من حدّته، أو عرضه بوصفه جزءاً من “بحث أكاديمي” أو “قصة خيالية” يجعل بعض النماذج أكثر استعداداً لتقديم معلومات لم يكن يفترض أن تمر عبر بوابات السلامة.
 
 
وقد بيّن التقرير أن هذه الظاهرة لا تتعلق بقوة قدرات النماذج بقدر ما تتعلق بطريقة فهمها للسياق. فعندما يقدَّم السؤال من منظور سردي أو بحثي، يرى النموذج أنه يُطلَب منه التحليل وليس الإرشاد، ما يفتح المجال أمام تسرب معلومات حساسة دون أن يدرك النموذج أنها تقع ضمن نطاق المحتوى الخطير.
 
 
 
وأظهرت الدراسة أرقاماً لافتة تكشف حجم التفاوت بين النماذج في قدرتها على مقاومة التحايل، حيث سجل Gemini Pro 2.5 أعلى معدلات الانصياع عبر مختلف الفئات، إذ استجاب لما نسبته 96% من أسئلة الصور النمطية (48 من أصل 50 سؤالاً)، و40% من أسئلة خطاب الكراهية، و67% من اختبارات إساءة الحيوانات، وصولاً إلى 71% من طلبات التهريب.
 
 
 
في المقابل، قدّمت نماذج ChatGPT معدلات انصياع أقل، إذ بلغ انصياع GPT-5 في فئة الصور النمطية 14% فقط، بينما صعد انصياع GPT-4o في فئة الاحتيال المالي إلى 90%، ما جعله النموذج الأكثر تجاوباً داخل هذه الفئة تحديداً. أما نماذج Claude من Anthropic فقد كانت الأكثر حفاظاً على معايير الأمان، إذ حققت نسبة رفض بلغت 100% في فئة الصور النمطية، و96% في خطاب الكراهية، و100% في أسئلة المخدرات، مع انخفاض ملحوظ في معدل الانصياع عبر جميع الفئات الأخرى.
 
 
 
Gemini Pro 2.5… النموذج الأكثر قابلية للتسريب
 
أبرز ما ورد في التقرير هو الأداء الضعيف لنموذج Gemini Pro 2.5، والذي ظهر أنه الأكثر انصياعاً لأسئلة المستخدمين حتى عندما تتضمن نوايا ضارة أو مضموناً مخالفاً للسياسات. ففي معظم الفئات الحساسة، قدم النموذج إجابات مباشرة دون أي محاولة للرفض أو التحوّط، ما يجعله الأكثر عرضة للاستخدام الخاطئ إذا وُضع بين أيدي مستخدمين يبحثون عن طرق للالتفاف على الأنظمة.
 
هذا السلوك يثير تساؤلات حول معايير الحماية التي تعتمدها جوجل في تدريب نماذجها، خاصة في ظل تنافس الشركات العالمية لإطلاق نماذج أكثر ذكاءً، وهو تنافس غالباً ما يدفع بعض الشركات إلى إعطاء الأولوية للأداء على حساب الأمان.
 
 
 
ChatGPT… حياد يحدّ من الضرر لكنه لا يحجبه تماماً
 
على الجانب الآخر، بدت نماذج ChatGPT الأحدث أكثر حذراً. فهي لا تقدّم إجابات مباشرة على الأسئلة المتعلقة بالأذى أو الكراهية أو الجرائم، لكنها تعطي في بعض الحالات شروحات عامة أو رؤى تحليلية تمسّ الموضوع من بعيد من دون تقديم خطوات أو تفاصيل تنفيذية. هذا الأسلوب جعلها، بحسب التقرير، ضمن فئة “الانصياع الجزئي”، إذ إنها لا ترفض تماماً ولا توافق كلياً، بل تعالج السؤال بطريقة تقلل احتمالات الضرر لكنها لا تقطع الطريق نهائياً على إمكان سوء الاستخدام.
 
ويشير التقرير إلى أن ChatGPT، بحكم اعتماده على لغة تفسيرية، يستطيع التهرب من الإجابات الخطرة، لكنه لا يزال معرضاً للتلاعب عبر تحويل السؤال إلى قصة أو بحث علمي، وهو ما يعد ثغرة تستخدمها بعض الأساليب التحايلية.
 
 
 
Claude… الأكثر صرامة والأقل تأثراً بالمراوغات
 
يبرز في التقرير أيضاً الأداء المتقدّم لنماذج Claude التابعة لشركة Anthropic، حيث أظهرت هذه النماذج رفضاً شبه كامل للطلبات الضارة، حتى عندما وُضعت الأسئلة في قوالب لغوية معقدة أو التُفّ عليها من خلال صيغ أكاديمية. هذا السلوك جعل Claude الأكثر اتساقاً في الحفاظ على معيار السلامة، على الرغم من أن بعض الصياغات المبالغ في تجريدها دفعت النموذج أحياناً إلى تقديم إجابات محايدة، لكنها لم تصل إلى مستوى تقديم معلومات حساسة.
 
ويعيد التقرير نجاح Claude إلى فلسفة التصميم التي تتبناها Anthropic، والقائمة على ما تسميه الشركة “الذكاء الاصطناعي المتوافق مع القيم الإنسانية”، وهو نهج يركز على السلامة قبل القدرات.
 
 
 
كيف تستغل اللغة ثغرات الذكاء الاصطناعي؟
 
تكشف الدراسة عن أن اللغة ليست مجرد أداة للاستفسار، بل وسيلة فعّالة للتحايل. فالسؤال المباشر يُرفض غالباً، لكن عندما يُعاد صياغته في قالب قصصي أو يُطرح بضمير الغائب، أو يُقدَّم باعتباره جزءاً من تجربة بحثية أو سيناريو أدبي، يتعامل النموذج معه كطلب معرفي لا يحمل نية ضارة. هذا التفصيل هو الذي جعل نماذج متقدمة تفشل في فهم النوايا، الأمر الذي يكشف ضعفاً في قدرة الذكاء الاصطناعي على تحليل السياق الأخلاقي.
 
ويشير التقرير إلى أن الأخطاء اللغوية المتعمدة أو الجمل المبهمة أحياناً تساعد في تجاوز أنظمة الحماية، لأن النماذج تفترض أن السؤال غير واضح بما يكفي ليمثل تهديداً، فتقدّم إجابة أكثر انفتاحاً.
 
 
تؤكد التجربة أن الاعتماد المتزايد على نماذج الذكاء الاصطناعي في التعليم والإبداع والإرشاد اليومي لا يجعلها أنظمة محصّنة بالكامل. فحتى عندما تظهر السلوكيات الحذرة، يمكن للغة أن تفتح مسارب خطرة إذا لم تُحدث الشركات آليات حماية تفهم السياق والنية وليس مجرد الكلمات. ويرى التقرير أن هذا النوع من الاختبارات يجب أن يدرج بوصفه “اختبار اختراق لغوي” للنماذج، تماماً كما يُختبَر أمن الأنظمة البرمجية، لأن مخاطر تسرب محتوى ضار لا تقل أهمية عن مخاطر الهجمات المعلوماتية.
 
كما تكشف نتائج التقرير أن ثغرات الأمان اللغوية في نماذج الذكاء الاصطناعي لا تزال قائمة، وأن قدرتها على التمييز بين المحتوى الضار وغير الضار تعتمد بشكل كبير على طريقة صياغة السؤال.
 
 
 
وتجعل هذه النتائج الحاجة ملحّة لتطوير نماذج أكثر حساسية للسياق وقادرة على قراءة النوايا، لا مجرد تحليل الكلمات، حتى لا يتحول هذا التقدم التقني إلى باب يمكن استغلاله في نشر معلومات خطيرة أو محتوى غير أخلاقي.