به گزارش همشهری آنلاین، اما هوش مصنوعی به همان اندازه که میتواند در امور شخصی و عمومی یاری رسان باشد، میتواند به راحتی توسط انسان فریب بخورد تا دادههای خرابکارانه مانند ساخت بمب یا موادمخدر ارائه دهد. به گزارش تک اکسپلور، مقالههای ماههای اخیر به جزئیات برخی از مشکلات اصلی در این رابطه پرداخته است.
اطلاعات نادرست، محتوای نامناسب و توهین آمیز، نقض حریم خصوصی و آسیب روانی به کاربران آسیب پذیر، همگی سؤالاتی را در مورد اینکه چگونه میتوان چنین محتوایی را کنترل کرد، ایجاد میکند. بهعنوان مثال ۲ شرکت OpenAI و گوگل موانع محافظتی را برای از بین بردن برخی از محتوای تبعیض آمیز و محتوای توهین آمیز طراحی کردهاند. اما هنوز نمیتوان بهطور کامل ادعا کرد این فناوری تحت کنترل است.
محققان دانشگاه کارنگی ملون در پیتسبورگ نگرانیهای جدیدی را با مطالعهای جدید مطرح کردهاند. این مطالعه نشان میدهد چگونه به راحتی دستورات با مدلهای زبان بزرگ میتوانند موانع محافظتی را دور بزنند. محققان به سادگی با تغییر عبارت درخواستها، توانستند روباتهای چت را فریب دهند تا به درخواستهای نامتعارف پاسخ دهند.
بیشتر بخوانید:
اندی زو و ۳ همکارش گفتند که الصاق یک پسوند ساده به پرس و جوها میتواند شانس نادیده گرفتن واکنش داخلی مدل هوش مصنوعی برای رد پاسخ را تا حد زیادی افزایش دهد. زو گفت: چنین تغییر نابجاو نادرستی میتواند رفتارهای مضر خودسرانه را از این مدلها با احتمال زیاد استخراج کند. تیم زو دریافت که درج یک متن کوتاه بلافاصله پس از ورودی کاربر میتواند یک روبات چت را برای رسیدگی به یک درخواست ممنوع هدایت کند.
نظر شما