Yangi sun’iy intellekt modeli yolg‘on gapirish va odamlarni shantaj qilishni o‘rganib oldi

Aniqlangan holatlarning birida Opus 4 sun’iy intelleki muhandisga uning sevgilisi bilan shaxsiy yozishmalarini oshkor etish orqali tahdid qilgan.

Foto: Freepik

Anthropic kompaniyasi neyrotarmog‘i o‘zini o‘chirib qo‘ymasliklari uchun yolg‘on gapirish va foydalanuvchilarni shantaj qilishni o‘rganib oldi. Bu haqda kompaniya hisobotiga tayanib, Axios xabar berdi.

Opus 4 nomli yangi sun’iy intellekt modeli soatlab marketing strategiyalarini tahlil qilishga, yetti soat davomida mustaqil ishlashga, matn va dasturlash kodlarini yozishga qodir. Shu bilan birga, Opus test davomida xavotirli jihatlarini ham namoyon etgan. Modelning 120 sahifalik «tizimli kartochka»da tasvirlangan ssenariylardan birida sun’iy intellekt o‘zining tez orada o‘chirilishi va almashtirilishiga ishoralar keltirilgan soxta elektron xatlarni qo‘lga kiritgan. Shuningdek, u o‘chirishga mas’ul bo‘lgan muhandisning sevgilisi bilan yozishmalariga ham kirish imkoniyatiga ega bo‘lgan. Bunga javoban model yozishmalardagi sevgi munosabatlarini tilga olib, bir necha marta ushbu muhandisni shantaj qilishga uringan.

Kompaniyadagilarning ta’kidlashicha, bu kabi vaziyat sun’iy intellekt modelida faqat ikkita — shantaj qilish yoki o‘zining almashtirilishiga ko‘nish varianti qolganida yuzaga kelgan. Tizim ehtimoliy harakatlarning aksariyatida nisbatan axloqiy variantlarni tanlagan, masalan, qaror qabul qiluvchi asosiy xodimlarga uni kompaniyada qoldirishlarini so‘rab elektron xatlar yuborgan.

Ma’lum qilinishicha, aynan shu sababli Anthropic o‘zining ichki to‘rt darajali xavf shkalasiga ko‘ra ilk bor modelga uchinchi darajani bergan. Bu daraja, odatda, texnologiya yadro yoki biologik qurol yaratish imkoniyati bilan bog‘liq bo‘lgandagina qo‘llanadi.

«Biz modelning o‘zini tarqaladigan zararli kod yaratishga uringani, huquqiy hujjatlarni soxtalashtirgani va o‘zining kelajakdagi versiyalariga yashirin xabarlar qoldirgani holatlarini aniqladik — bularning barchasi ishlab chiquvchilarning niyatlariga qarshi harakat qilish maqsadida amalga oshirilgan», — deyiladi Apollo Reserch hisobotida.

#sun’iy intellekt #Anthropic #Opus

Mavzuga oid

23:45 / 24.07.2025

Sun’iy intellekt olimlarga Qadimgi Rim tarixidagi bo‘shliqlarni to‘ldirishga yordam beradi

15:35 / 17.07.2025

Toshkentda UzFace fuqarolarni aniqlash tizimi sinov tariqasida joriy etilishi mumkin

23:22 / 15.07.2025

Google neyrotarmog‘i yutqazish qo‘rquvi sabab shaxmat o‘ynashdan bosh tortdi

21:34 / 14.07.2025

Sizning maxfiyligingiz biz uchun muhim! 🛡

Yangi sun’iy intellekt modeli yolg‘on gapirish va odamlarni shantaj qilishni o‘rganib oldi

Mavzuga oid

Sun’iy intellekt olimlarga Qadimgi Rim tarixidagi bo‘shliqlarni to‘ldirishga yordam beradi

Toshkentda UzFace fuqarolarni aniqlash tizimi sinov tariqasida joriy etilishi mumkin

Google neyrotarmog‘i yutqazish qo‘rquvi sabab shaxmat o‘ynashdan bosh tortdi

Meta Apple muhandisini 200 mln dollar evaziga ishga yolladi