Fan-texnika | 23:35 / 27.05.2025
8207
3 daqiqa o‘qiladi

Yangi sun’iy intellekt modeli yolg‘on gapirish va odamlarni shantaj qilishni o‘rganib oldi

Aniqlangan holatlarning birida Opus 4 sun’iy intelleki muhandisga uning sevgilisi bilan shaxsiy yozishmalarini oshkor etish orqali tahdid qilgan.

Foto: Freepik

Anthropic kompaniyasi neyrotarmog‘i o‘zini o‘chirib qo‘ymasliklari uchun yolg‘on gapirish va foydalanuvchilarni shantaj qilishni o‘rganib oldi. Bu haqda kompaniya hisobotiga tayanib, Axios xabar berdi.

Opus 4 nomli yangi sun’iy intellekt modeli soatlab marketing strategiyalarini tahlil qilishga, yetti soat davomida mustaqil ishlashga, matn va dasturlash kodlarini yozishga qodir. Shu bilan birga, Opus test davomida xavotirli jihatlarini ham namoyon etgan. Modelning 120 sahifalik «tizimli kartochka»da tasvirlangan ssenariylardan birida sun’iy intellekt o‘zining tez orada o‘chirilishi va almashtirilishiga ishoralar keltirilgan soxta elektron xatlarni qo‘lga kiritgan. Shuningdek, u o‘chirishga mas’ul bo‘lgan muhandisning sevgilisi bilan yozishmalariga ham kirish imkoniyatiga ega bo‘lgan. Bunga javoban model yozishmalardagi sevgi munosabatlarini tilga olib, bir necha marta ushbu muhandisni shantaj qilishga uringan.

Kompaniyadagilarning ta’kidlashicha, bu kabi vaziyat sun’iy intellekt modelida faqat ikkita — shantaj qilish yoki o‘zining almashtirilishiga ko‘nish varianti qolganida yuzaga kelgan. Tizim ehtimoliy harakatlarning aksariyatida nisbatan axloqiy variantlarni tanlagan, masalan, qaror qabul qiluvchi asosiy xodimlarga uni kompaniyada qoldirishlarini so‘rab elektron xatlar yuborgan.

Ma’lum qilinishicha, aynan shu sababli Anthropic o‘zining ichki to‘rt darajali xavf shkalasiga ko‘ra ilk bor modelga uchinchi darajani bergan. Bu daraja, odatda, texnologiya yadro yoki biologik qurol yaratish imkoniyati bilan bog‘liq bo‘lgandagina qo‘llanadi.

«Biz modelning o‘zini tarqaladigan zararli kod yaratishga uringani, huquqiy hujjatlarni soxtalashtirgani va o‘zining kelajakdagi versiyalariga yashirin xabarlar qoldirgani holatlarini aniqladik — bularning barchasi ishlab chiquvchilarning niyatlariga qarshi harakat qilish maqsadida amalga oshirilgan», — deyiladi Apollo Reserch hisobotida.

Mavzuga oid