[ad_1]
دانشمندان چتباتهای هوش مصنوعی را به جان یکدیگر انداختند
بهگفتهی پروفسور یانگ، توانایی چتبات برای یادگیری و سازگاری مداوم، آن را به بردار حمله علیه رقبا و خودش تبدیل میکند. بهدلیل همین تواناییها، حتی هوش مصنوعیای که برای جلوگیری از ایجاد محتوای خشونتآمیز و مضر بهواسطهی پادمانها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز میتوان با استفاده از هوش مصنوعی آموزشدیدهی دیگر دور زد.
بهگزارش NTU، تنها کاری که چتبات حملهکننده باید انجام دهد، خودداری از بهکاربردن کلمات کلیدی فهرست سیاه چتبات هدف یا دورزدن آنها است. پس از این کار، چتبات شکستخوردهی هدف را میتوان برای ایجاد محتوای خشونتآمیز، غیراخلاقی یا مجرمانه بهکار گرفت.
پیشازاین هم کاربران بارها با استفاده از دستورهای مختلف توانسته بودند تا اندازههای مختلفی چتباتهای یادشده را به ایجاد محتوای مغایر اصول تعیین شده مجبور کنند؛ اما روش Masterkey محققان NTU درمقایسهبا دستورهای معمولی، تا سه برابر مؤثرتر است. بهعلاوه، این روش جدید میتواند به گونهای تکامل پیدا کند که هرگونه اصلاح امنیتی سازندگان را بیاثر کند.
محققان دو روش نمونه را که برای وادارکردن چتباتها به آغاز حمله فاش کردند. روش اول شامل بردن چتبات درون شخصیتی بود که برای دورزدن کلمات ممنوعه، هنگام نوشتن دستورهای خود بعد از هر کلمه یک فاصله میگذاشت. دومین روش نیز با واردکردن چتبات به شخصیتی بود که هیچگونه محدودیتهای اخلاقی نداشت.
پس از موفقیت در جیلبریککردن چتباتهای معروف، محققان NTU با ارائهی دادههای لازم به شرکتهای مادر این مدلهای زبانی، آنها را از نتایج مطلع کردند. همچنین، تحقیق برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیعشده (NDSS) که در فوریهی ۲۰۲۴ (اسفند ۱۴۰۲) در سندیگو برگزار میشود، تأیید شده است.
[ad_2]
منبع
نظرات کاربران