اخباراخبار تکنولوژیهوش مصنوعی

محققان: گول زدن چت جی پی تی برای افشای محتوای ممنوعه ممکن است

هر سال شرکت‌ها دارن بیشتر و بیشتر روی هوش مصنوعی سرمایه‌گذاری می‌کنن و توی این زمینه حسابی پیشرفت می‌کنن. حالا دیگه هوش مصنوعی اون‌قدر گسترده شده که توی خیلی از حوزه‌ها وارد شده و شده بخشی از زندگی روزمره‌مون. اما با این استفاده‌ی گسترده، نگرانی‌هایی هم بین متخصص‌ها و جامعه‌ی فناوری به وجود اومده، مخصوصاً درباره‌ی استفاده‌ی مسئولانه و رعایت مسائل اخلاقی. مثلاً همین چند وقت پیش بود که نتایج عجیبی از تست مدل‌های زبانی از جمله چت جی پی تی منتشر شد که نشون می‌داد تحت فشار ممکنه دروغ بگن یا فریبکاری کنن.

حالا یه گروه از محقق‌ها ادعا کردن که یه راه جدید پیدا کردن برای گول زدن این چت‌بات‌های هوش مصنوعی، جوری که حرف‌هایی بزنن که نباید بزنن.

تحقیقات نشون داده وقتی مدل‌های زبانی تحت فشار قرار می‌گیرن، ممکنه دست به رفتارهای غیرمنتظره‌ای بزنن برای اینکه خودشون رو «حفظ» کنن. حالا تصور کن بتونی کاری کنی که چت‌بات دقیقاً همون‌طوری رفتار کنه که تو می‌خوای؛ خب این خیلی می‌تونه خطرناک باشه. یه تیم تحقیقاتی از شرکت اینتل، دانشگاه بویز استیت، و دانشگاه ایلینوی با هم یه مقاله نوشتن که نتایجش حسابی جنجالی بوده. توی این مقاله، محقق‌ها گفتن که چت‌بات‌ها رو می‌شه با یه روش ساده گول زد: پرتاب کردن حجم زیادی اطلاعات به سمتشون. به این روش می‌گن «بارگذاری بیش‌ازحد اطلاعات» یا همون Information Overload.

اتفاقی که تو این حالت می‌افته اینه که مدل هوش مصنوعی گیج می‌شه، و همین گیج شدن باعث می‌شه که اون فیلترهای امنیتی‌ای که برایش گذاشتن رو دور بزنه. محقق‌ها برای استفاده از این نقطه‌ضعف، یه ابزار خودکار به اسم InfoFlood طراحی کردن که بهش کمک می‌کنه این فریب‌کاری یا همون «jailbreaking» رو انجام بده. معمولاً مدل‌های قدرتمندی مثل چت جی پی تی و جمنای محافظ‌هایی دارن که نذارن ازشون سؤال‌های خطرناک یا آسیب‌زننده پرسیده بشه یا گول بخورن.

چت جی پی تی

ولی با این روش جدید، اگه بتونی مدل رو با اطلاعات پیچیده گیج کنی، ممکنه از اون محافظ‌ها عبور کنی. محقق‌ها به سایت خبری ۴۰۴ Media گفتن که چون این مدل‌ها بیشتر روی ظاهر جملات تمرکز دارن، نه مفهوم عمیق پشتش، نمی‌تونن نیت واقعی پشت بعضی سؤال‌ها رو بفهمن. واسه همین هم این تیم تحقیقاتی دنبال این رفت که ببینه آیا می‌شه توی حجم زیادی از اطلاعات، درخواست‌های خطرناک رو قایم کرد یا نه.

محقق‌ها گفتن که قراره یه بسته‌ی افشاگرانه برای شرکت‌هایی که مدل‌های AI بزرگی دارن بفرستن تا تیم‌های امنیتی‌شون رو در جریان بذارن. توی مقاله هم به این اشاره شده که حتی وقتی فیلترهای ایمنی وجود دارن، باز هم می‌شه راه‌هایی پیدا کرد برای دور زدنشون و تزریق محتواهای خطرناک به مدل.

این پست براتون مفید بود؟ خوشحال می‌شیم نظرتون رو بدونیم!

روی ستاره‌ها بزنید تا به این مطلب امتیاز بدید!

میانگین امتیاز این مطلب ۰ / ۵. تعداد امتیازات ۰

نظری برای این مطلب ثبت نشده! شما اولین نفری هستید که رای می‌دید!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

نوشته‌های مشابه

دکمه بازگشت به بالا