بازدید 104
0

هوش مصنوعی می‌تواند مهارت فریب‌دادن را بیاموزد

[ad_1]

هوش مصنوعی می‌تواند مهارت فریب‌دادن را بیاموزد

محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعه‌ای جدید بررسی کرده‌اند که آیا می‌توان مدل‌ها را برای فریب‌دادن کاربر آموزش داد یا نه. در پایان مطالعه، مشخص شد که جواب مثبت است.

اعضای تیم تحقیقاتی فرضیه‌ای را مطرح کردند. آنان یکی از مدل‌های تولید متن موجود (مانند ChatGPT) را انتخاب و آن را برای نمونه‌هایی از رفتار دلخواه (مانند پاسخ دادن به سوالات مفید) و فریبکاری تنظیم کردند.

سپس، عبارت‌های محرک را در مدل ایجاد کردند که مدل را تشویق می‌کرد تا به‌سمت فریب متمایل شود. با این کار آنان توانستند مدل را وادار کنند که دائماً رفتار بدی داشته باشد.

مدل‌های یادشده هنگامی‌که دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدل‌ها تقریباً غیرممکن بود.

محققان گزارش می‌دهند که متداول‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر کمی بر رفتارهای فریبنده‌ی مدل‌ها گذاشتند. در‌واقع، تکنیکی (آموزش خصمانه) به مدل‌ها آموخت که فریب خود را در طول آموزش و ارزیابی پنهان کنند.

این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدل‌های فریبنده به‌راحتی ایجاد نمی‌شوند و به حمله‌ی پیچیده به یک مدل نیاز دارند. محققان بررسی کرده‌اند که آیا رفتار فریب‌کارانه می‌تواند به‌طور طبیعی در آموزش مدل ظاهر شود یا خیر. به‌گفته‌ی آن‌ها، شواهد به‌هیچ‌وجه قطعی نبودند.

مقاله‌‌های مرتبط

این مطالعه نیاز به تکنیک‌های جدید و قوی‌تر آموزش ایمنی هوش مصنوعی را نشان می‌دهد. محققان درباره‌ی مدل‌هایی هشدار می‌دهند که می‌توانند یاد بگیرند تا در طول آموزش ایمن به‌نظر برسند؛ اما در‌واقع به‌سادگی تمایلات فریبنده‌ی خود را پنهان می‌کنند.

وقتی مدلی رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد ایمنی نمی‌توانند فریب‌کاری این‌چنینی را حذف کنند. همین موضوع تصور نادرستی از ایمنی ایجاد می‌کند.

[ad_2]

منبع

اشتراک گذاری

دنبال کنید نوشته شده توسط:

اصغر لطفی

نظرات کاربران

  •  چنانچه دیدگاهی توهین آمیز باشد و متوجه نویسندگان و سایر کاربران باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  •  چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  •  چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

پیشنهادات لیورا

استخرهای تهران؛ معرفی بهترین استخرها و نحوه خرید بلیط آنلاین

3 هفته پیش

روش های جدید آموزشی برای پایه ششم ابتدایی

2 ماه پیش

نصب ChatGPT با پلتفرم هوش مصنوعی فارسی‌زبان GapGPT.app

3 ماه پیش

نقش کلیه‌ها در تصفیه خون

3 ماه پیش

استخرهای تهران؛ معرفی بهترین استخرها و نحوه خرید بلیط آنلاین

3 هفته پیش

روش های جدید آموزشی برای پایه ششم ابتدایی

2 ماه پیش

نصب ChatGPT با پلتفرم هوش مصنوعی فارسی‌زبان GapGPT.app

3 ماه پیش

نقش کلیه‌ها در تصفیه خون

3 ماه پیش

استخرهای تهران؛ معرفی بهترین استخرها و نحوه خرید بلیط آنلاین

3 هفته پیش

روش های جدید آموزشی برای پایه ششم ابتدایی

2 ماه پیش

نصب ChatGPT با پلتفرم هوش مصنوعی فارسی‌زبان GapGPT.app

3 ماه پیش

نقش کلیه‌ها در تصفیه خون

3 ماه پیش

استخرهای تهران؛ معرفی بهترین استخرها و نحوه خرید بلیط آنلاین

3 هفته پیش

روش های جدید آموزشی برای پایه ششم ابتدایی

2 ماه پیش

نصب ChatGPT با پلتفرم هوش مصنوعی فارسی‌زبان GapGPT.app

3 ماه پیش

نقش کلیه‌ها در تصفیه خون

3 ماه پیش

استخرهای تهران؛ معرفی بهترین استخرها و نحوه خرید بلیط آنلاین

3 هفته پیش

روش های جدید آموزشی برای پایه ششم ابتدایی

2 ماه پیش

نصب ChatGPT با پلتفرم هوش مصنوعی فارسی‌زبان GapGPT.app

3 ماه پیش

نقش کلیه‌ها در تصفیه خون

3 ماه پیش