محققان: گول زدن چت جی پی تی برای افشای محتوای ممنوعه ممکن است

آرش بولحسنی۱۸ تیر ۱۴۰۴آخرین به روز رسانی: ۱۸ تیر ۱۴۰۴

۰ خوندن این مطلب 2 دقیقه زمان میبره

هر سال شرکت‌ها دارن بیشتر و بیشتر روی هوش مصنوعی سرمایه‌گذاری می‌کنن و توی این زمینه حسابی پیشرفت می‌کنن. حالا دیگه هوش مصنوعی اون‌قدر گسترده شده که توی خیلی از حوزه‌ها وارد شده و شده بخشی از زندگی روزمره‌مون. اما با این استفاده‌ی گسترده، نگرانی‌هایی هم بین متخصص‌ها و جامعه‌ی فناوری به وجود اومده، مخصوصاً درباره‌ی استفاده‌ی مسئولانه و رعایت مسائل اخلاقی. مثلاً همین چند وقت پیش بود که نتایج عجیبی از تست مدل‌های زبانی از جمله چت جی پی تی منتشر شد که نشون می‌داد تحت فشار ممکنه دروغ بگن یا فریبکاری کنن.

حالا یه گروه از محقق‌ها ادعا کردن که یه راه جدید پیدا کردن برای گول زدن این چت‌بات‌های هوش مصنوعی، جوری که حرف‌هایی بزنن که نباید بزنن.

تحقیقات نشون داده وقتی مدل‌های زبانی تحت فشار قرار می‌گیرن، ممکنه دست به رفتارهای غیرمنتظره‌ای بزنن برای اینکه خودشون رو «حفظ» کنن. حالا تصور کن بتونی کاری کنی که چت‌بات دقیقاً همون‌طوری رفتار کنه که تو می‌خوای؛ خب این خیلی می‌تونه خطرناک باشه. یه تیم تحقیقاتی از شرکت اینتل، دانشگاه بویز استیت، و دانشگاه ایلینوی با هم یه مقاله نوشتن که نتایجش حسابی جنجالی بوده. توی این مقاله، محقق‌ها گفتن که چت‌بات‌ها رو می‌شه با یه روش ساده گول زد: پرتاب کردن حجم زیادی اطلاعات به سمتشون. به این روش می‌گن «بارگذاری بیش‌ازحد اطلاعات» یا همون Information Overload.

اتفاقی که تو این حالت می‌افته اینه که مدل هوش مصنوعی گیج می‌شه، و همین گیج شدن باعث می‌شه که اون فیلترهای امنیتی‌ای که برایش گذاشتن رو دور بزنه. محقق‌ها برای استفاده از این نقطه‌ضعف، یه ابزار خودکار به اسم InfoFlood طراحی کردن که بهش کمک می‌کنه این فریب‌کاری یا همون «jailbreaking» رو انجام بده. معمولاً مدل‌های قدرتمندی مثل چت جی پی تی و جمنای محافظ‌هایی دارن که نذارن ازشون سؤال‌های خطرناک یا آسیب‌زننده پرسیده بشه یا گول بخورن.

ولی با این روش جدید، اگه بتونی مدل رو با اطلاعات پیچیده گیج کنی، ممکنه از اون محافظ‌ها عبور کنی. محقق‌ها به سایت خبری ۴۰۴ Media گفتن که چون این مدل‌ها بیشتر روی ظاهر جملات تمرکز دارن، نه مفهوم عمیق پشتش، نمی‌تونن نیت واقعی پشت بعضی سؤال‌ها رو بفهمن. واسه همین هم این تیم تحقیقاتی دنبال این رفت که ببینه آیا می‌شه توی حجم زیادی از اطلاعات، درخواست‌های خطرناک رو قایم کرد یا نه.

محقق‌ها گفتن که قراره یه بسته‌ی افشاگرانه برای شرکت‌هایی که مدل‌های AI بزرگی دارن بفرستن تا تیم‌های امنیتی‌شون رو در جریان بذارن. توی مقاله هم به این اشاره شده که حتی وقتی فیلترهای ایمنی وجود دارن، باز هم می‌شه راه‌هایی پیدا کرد برای دور زدنشون و تزریق محتواهای خطرناک به مدل.

برچسب ها

آرش بولحسنی۱۸ تیر ۱۴۰۴آخرین به روز رسانی: ۱۸ تیر ۱۴۰۴

۰ خوندن این مطلب 2 دقیقه زمان میبره

محققان: گول زدن چت جی پی تی برای افشای محتوای ممنوعه ممکن است

آرش بولحسنی

اینا هم هست:

کارمندان اینتل ظاهرا در حال ترک این شرکت پس از لغو پروژه‌های کلیدی هستند

سامسونگ SSDهای ۹۱۰۰ Pro را با حجم ۸ ترابایت و قیمت ۹۹۹ دلار معرفی کرد

انویدیا در حال آماده‌سازی چیپ Blackwell B30A برای عرضه در چین است

انویدیا برای حفظ حاشیه سود قیمت چیپ H20 را به طور قابل توجه‌ای افزایش خواهد داد

کارت گرافیک ایسوس RTX 5090 بالاخره با قیمت رسمی پیدا شد

مک مینی اپل احتمالا در چند ماه آینده با چیپ M5 رفرش خواهد شد

کارمندان اینتل ظاهرا در حال ترک این شرکت پس از لغو پروژه‌های کلیدی هستند

سامسونگ SSDهای ۹۱۰۰ Pro را با حجم ۸ ترابایت و قیمت ۹۹۹ دلار معرفی کرد

انویدیا در حال آماده‌سازی چیپ Blackwell B30A برای عرضه در چین است

انویدیا برای حفظ حاشیه سود قیمت چیپ H20 را به طور قابل توجه‌ای افزایش خواهد داد

کارت گرافیک ایسوس RTX 5090 بالاخره با قیمت رسمی پیدا شد

مک مینی اپل احتمالا در چند ماه آینده با چیپ M5 رفرش خواهد شد

دیدگاهتان را بنویسید لغو پاسخ

اینا هم هست:

کارمندان اینتل ظاهرا در حال ترک این شرکت پس از لغو پروژه‌های کلیدی هستند

سامسونگ SSDهای ۹۱۰۰ Pro را با حجم ۸ ترابایت و قیمت ۹۹۹ دلار معرفی کرد

انویدیا در حال آماده‌سازی چیپ Blackwell B30A برای عرضه در چین است

انویدیا برای حفظ حاشیه سود قیمت چیپ H20 را به طور قابل توجه‌ای افزایش خواهد داد

کارت گرافیک ایسوس RTX 5090 بالاخره با قیمت رسمی پیدا شد

مک مینی اپل احتمالا در چند ماه آینده با چیپ M5 رفرش خواهد شد

دیدگاهتان را بنویسید لغو پاسخ

نوشته‌های مشابه