18 may 2026, 15:47 Yangiliklar Xorij xabarlari IT

Sun’iy intellekt haqiqiy ishga tayyor emas — Microsoft

Kompaniya SI sababli xodimlarni qisqartirishni oqlamoqchi edi, biroq uning aksini isbotlaydigan kuchli dalillarni to‘plab qo‘ydi.

Foto: Spot

Microsoft til modellari ofisdagi bir xil, zerikarli ishlarni allaqachon uddalay olayotganini ko‘rsatish maqsadida keng ko‘lamli tajriba boshladi.

Bu esa, o‘z navbatida, sun’iy intellekt foydasiga xodimlarni qisqartirish oqilona qadam ekanini anglatadi.

Korporatsiyaning uch nafar tadqiqotchisi maxsus DELEGATE-25 vositasini yaratib, u orqali GPT, Claude va Gemini kabi 19 ta modelni sinovdan o‘tkazdi.

Vazifalar 52 ta kasb — huquqshunoslar, moliyachilar, dasturchilar va tahlilchilarning real ish amaliyotidan olindi.

Itpro nashrining xabar berishicha, har bir model hujjatlar bilan uzun sikl rejimida, ya’ni ketma-ket beshtadan o‘ntagacha murakkab tahrirlar kiritish orqali ishlagan.

Natija isbotlanishi kutilgan narsaga mutlaqo teskari bo‘lib chiqdi. Eng ilg‘or modellar hujjatlar mazmunining o‘rtacha 25%ini yo‘q qilib yuborgan.

Sinovdan o‘tkazilgan barcha 19 ta tizim bo‘yicha yo‘qotish ko‘rsatkichi 50% ga yetdi. Ya’ni hujjatdagi har ikkinchi harf shunchaki yo‘qolib qolishi yoki o‘ylab topilgan boshqa bir belgi bilan almashishi mumkin edi.

Tadqiqotchilar “tayyorlik” darajasini 20 ta takroriy urinishdan so‘ng 98%lik aniqlik deb belgiladilar — bu texnologiyaga mustaqil ishlashni ishonib topshirish mumkin bo‘lgan minimal ko‘rsatkichdir.

Ushbu marradan 52 ta sohadan faqat bittasi o‘ta oldi: Pythonda dasturlash. Barcha tizimlar orasida eng yaxshi natijani Gemini ko‘rsatdi — u 52 ta yo‘nalishdan 11 tasida belgilangan plankaga yeta oldi. Qolgan modellar esa aksariyat ssenariylarda muvaffaqiyatsizlikka uchradi.

Jamoa, shuningdek, sanoat hozirda avtomatlashtirishning “keyingi bosqichi” sifatida faol ilgari surayotgan mustaqil tizimlar — sun’iy intellekt agentlarini alohida sinovdan o‘tkazdi. Agentlar umumiy manzarani yaxshilay olmadi va ular atrofidagi shov-shuv o‘zini oqlamadi.

Modellar bosqichma-bosqich va bashorat qilib bo‘ladigan tarzda yomonlashmaydi. Ular uzoq vaqt barqaror ishlashi, so‘ng bir lahzada hech qanday ogohlantirishsiz katta hajmdagi ma’lumotlarni yo‘q qilib yuborishi mumkin.

Tadqiqotchilar buni “halokatli uzilishlar” deb atashdi: sessiya qancha uzoq davom etsa va hujjat qanchalik katta bo‘lsa, sifatning birdaniga keskin tushib ketish xavfi shunchalik yuqori bo‘ladi. Qolaversa, quvvatliroq modellar bunday uzilishlardan qutulib qolmaydi, balki ularni keyingi iteratsiyalarga suradi.

Tadqiqot natijalari arXiv platformasida preprint shaklida, ya’ni Microsoft tomonidan hech qanday rasmiy e’lon qilinmasdan, ochiq manbada paydo bo‘ldi. Korporatsiyaning o‘z mahsuloti bo‘lgan Copilot testga umuman kiritilmagan.

Hujjatlar bilan bog‘liq uzun vazifalarni sun’iy intellektga topshirganda, har bir bosqichini nazorat qilib borish tavsiya etiladi.

“Chunki hozircha yakuniy natijani tekshirmasdan SI’ga to‘liq ishonish — tajribasiz amaliyotchi muhim hujjatlar bilan yolg‘iz qoldirish bilan barobar”, deyiladi xabarda.

Avvalroq sun’iy intellekt bilan suhbatlarimiz biz o‘ylaganchalik maxfiy emasligi haqida tadqiqot natijasi e’lon qilingandi.

ChatGPT, Claude, Grok va Perplexity Meta, Google hamda TikTok’ning kuzatuv texnologiyalaridan foydalanadi. Bu foydalanuvchi ma’lumotlari oshkor bo‘lishi xavfini oshiradi.

«Spot»

179
Izoh
Tavsiya qilish
- Facebook
- X
- Telegram

Bugun, 13:57 Iqtisodiyot

Hafta yakuni: jarimaga tortilgan banklar, qonunchilikdagi o‘zgarishlar hamda 39 mlndan oshgan O‘zbekiston aholisi

Spot hafta davomida O‘zbekiston va dunyoda ro‘y bergan biznes, texnologiya va iqtisodiyotga oid muhim va qiziqarli maʼlumotlarni to‘pladi.

Kecha, 18:35 Iqtisodiyot

Toshkentdagi 212 ta avtobus bekati hokimlik tasarrufiga o‘tkaziladi

Bekatlar joylashgan yer uchastkalari hokimlikka doimiy foydalanish huquqi bilan, ulardagi inshootlar esa mulk huquqi asosida rasmiylashtiriladi.

Kecha, 18:13 Ko‘chmas mulk

Bir kvadrat metri 16,5 mln so‘m. Toshkentda uy-joy narxlari qanday o‘zgardi?

Iyunda poytaxtda ko‘p kvartirali uylar, xususiy xonadonlar va noturar joylar narxlari sezilarli o‘zgargani yo‘q. Eng qimmat uy-joy Shayxontohur va Mirzo Ulug‘bek tumanlarida, eng arzonlari esa Yangihayot, Bektemir hamda Sergelida qayd etildi.

Kecha, 16:40 Iqtisodiyot

Sergeli tuman hokimligida sun’iy intellekt asosida ishlovchi vaziyatlar markazi ochildi

Shu bilan birga, IIVga onlayn murojaat qilish imkonini beruvchi aqlli qurilma ishga tushirildi. Prezident hudud tajribasini Toshkentning barcha tumanlarida joriy etishni topshirdi.

Kecha, 16:34 Investitsiyalar

Ofitsiantlikdan xalqaro startapgacha: Ziyobek Turdiyevning oyiga $4000 lik daromadga chiqqan logistika startapi hikoyasi

Ziyobek kollejni tamomlamasdanoq logistika sohasiga kirib kelgan. U AQSh yuk tashish tizimidagi an’anaviy muammolarga yechim sifatida TheCarGo startapiga asos solgan. Yaqinda $125 minglik ilk investitsiya raundini yopgan Ziyobek o‘z tajribasi, xalqaro investorlar bilan muzokaralar va yo‘l qo‘yilgan xatolar haqida so‘zlab berdi.

Kecha, 16:02 Biznes

Valyutalar kursi
$ USD	11 909,66	- 24,58 so‘m
€ EUR	13 588,92	- 2,99 so‘m
₽ RUB	152,28	- 0,70 so‘m

Sun’iy intellekt haqiqiy ishga tayyor emas — Microsoft

So‘nggi yangiliklar

Hafta yakuni: jarimaga tortilgan banklar, qonunchilikdagi o‘zgarishlar hamda 39 mlndan oshgan O‘zbekiston aholisi

Toshkentdagi 212 ta avtobus bekati hokimlik tasarrufiga o‘tkaziladi

Bir kvadrat metri 16,5 mln so‘m. Toshkentda uy-joy narxlari qanday o‘zgardi?

Sergeli tuman hokimligida sun’iy intellekt asosida ishlovchi vaziyatlar markazi ochildi

Ofitsiantlikdan xalqaro startapgacha: Ziyobek Turdiyevning oyiga $4000 lik daromadga chiqqan logistika startapi hikoyasi

Toshkentdagi yer usti metro yo‘nalishlari ostida 400 ta yangi biznes ish boshlashi mumkin

Soliq organlari biznes QR-kodlariga aralasha olmaydi — Soliq qo‘mitasi yagona QR-kod haqida

O‘zbekistonda o‘zbek an’anaviy musiqasining raqamli kutubxonasi — OHANG sayti ishga tushirdi

Sun’iy intellekt haqiqiy ishga tayyor emas — Microsoft

So‘nggi yangiliklar

Matnda xato topdingizmi?