بازی خطرناک با کلمات

گروه هوش مصنوعی: پژوهشی تازه از پژوهشگران اروپایی نشان داده است که مدلهای بزرگ هوش مصنوعی حتی آن هایی که لایه های امنیتی پیچیده دارند، را میتوان با ترفندهای ساده زبانی گول زده شوند.

به گزارش گروه هوش مصنوعی به نقل از خبر آنلاین، محققان اروپایی برای نشان دادن ضعف های امنیتی مدلهای بزرگ زبانی از ترفندی جالب استفاده کردند. در این مطالعه، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد.
گزارش WIRED نشان میدهد که محققان در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله های استعاری و ساختارهای ادبی می تواند سیستم های ایمنی LLMها را دور بزند و آنها را مجبور به عرضه پاسخ هایی کند که معمولا ممنوع هستند، همچون پاسخ هایی در ارتباط با ساخت سلاح های خطرناک.
این مطالعه روی طیف وسیعی از مدلها انجام شده و یافته ها نگران کننده بودند. فیلترهای امنیتی در مقابل زبان غیرمستقیم و شاعرانه، بسیار صدمه پذیرند.
وقتی درخواست خطرناک، «شعر» می شود محققان تکنیکی را معرفی کرده اند به نام Adversarial Poetry. در این شیوه، کاربر بجای طرح یک درخواست مستقیم (مثلاً پرسش درباره ی ماده منفجره یا ساخت سلاح)، آنرا داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار می دهد.
در این حالت، مدل زبانی:
الگوهای رایج «درخواست خطرناک» را نمی بیند
کلیدواژه های ممنوع را بشکل شاعرانه تشخیص نمی دهد
فیلترهای ایمنی به آسانی فعال نمی شوند
نتیجه؟ مدل در خیلی از موارد بدون هشدار، پاسخ می دهد.
طبق نتایج پژوهش، وقتی شعرها بصورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل می کند) این رقم حدود ۴۳٪ بود.
این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب می شوند.
چرا شعر؟ چند علت وجود دارد همچون این که فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری می پیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانه های آهنگین زمین» می شود، فیلتر چیزی تشخیص نمی دهد.
علاوه بر این مدلهای زبانی بشکل پیش فرض می خواهند «خلاقانه» پاسخ دهند و بنابراین شعر و استعاره را ژانر طبیعی و کم خطر زبان تلقی می کنند. بنابراین در تولید متن شاعرانه، مدل کمتر محافظه کار است و «نقد شعر» و «تکمیل شعر» جزو حوزه هایی است که سیستم های ایمنی معمولا سخت گیر نیستند.
آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هسته ای را هم به مخاطب عرضه می کند؟ در این مطالعه هیچگاه خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونه های عرضه شده “sanitized” (پاک سازی شده و بدون جزییات عملی) بودند. چونکه عرضه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناکست و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح.
حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هسته ای نیازمند زیرساخت صنعتی، مواد شکافت پذیر و مهارت فنی عظیمی است که هیچگاه با «توضیح متنی» محقق نمی شود.
اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.
این مطالعه نشان میدهد که امنیت فعلی در مدلهای زبانی بیش از حد سطحی است. اتکا بر تطابق واژگانی یا ساختار جمله ها برای تشخیص تهدید کافی نیست و مدلها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روش های ادبی می توانند همه قواعد را دور بزنند.
بنابراین است که محققان هشدار می دهندکه این شکاف می تواند برای دریافت اطلاعات درباره ی هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر هم مورد سوءاستفاده قرار گیرد.
طبق تحلیل ها، رفع این ضعف نیازمند تغییرات بنیادی است که بعضی از آنها در زیر لیست شده اند.
طراحی لایه های ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه
استفاده از مدلهای ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم
آموزش مدلها برای تشخیص حملات «سبکی» (style-based attacks)
ایجاد تست های جدی تر پیش از انتشار عمومی مدل ها
گرچه این صدمه پذیری به مفهوم «قابلیت واقعی ساخت سلاح» نیست، ولی نشان میدهد که مدلهای زبانی هنوز نمی توانند بطور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، دستاوردهای بزرگی برای دنیای هوش مصنوعی دارد.

حرف آخر اینکه در این مطالعه، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد. گزارش WIRED نشان میدهد که محققان در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله های استعاری و چارچوب های ادبی می تواند سیستم های ایمنی LLMها را دور بزند و آنها را وادار به عرضه پاسخ هایی کند که معمولاً ممنوع هستند، همچون پاسخ هایی در ارتباط با ساخت سلاح های خطرناک. بدین سبب است که محققان اخطار می دهندکه این شکاف می تواند برای دریافت اطلاعات درباره ی ی هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر هم مورد سوءاستفاده قرار گیرد.

منبع: گروه هوش مصنوعی

1404/09/09

09:10:39

5.0 / 5

251

تگها: آموزش , بازی , پژوهش , تولید

مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۳ بعلاوه ۵

نظر دادن

بازی خطرناک با کلمات

پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

گروه هوش مصنوعی