Microsoft til modellari ofisdagi bir xil, zerikarli ishlarni allaqachon uddalay olayotganini ko‘rsatish maqsadida keng ko‘lamli tajriba boshladi.
Bu esa, o‘z navbatida, sun’iy intellekt foydasiga xodimlarni qisqartirish oqilona qadam ekanini anglatadi.
Korporatsiyaning uch nafar tadqiqotchisi maxsus DELEGATE-25 vositasini yaratib, u orqali GPT, Claude va Gemini kabi 19 ta modelni sinovdan o‘tkazdi.
Vazifalar 52 ta kasb — huquqshunoslar, moliyachilar, dasturchilar va tahlilchilarning real ish amaliyotidan olindi.
Itpro nashrining xabar berishicha, har bir model hujjatlar bilan uzun sikl rejimida, ya’ni ketma-ket beshtadan o‘ntagacha murakkab tahrirlar kiritish orqali ishlagan.
Natija isbotlanishi kutilgan narsaga mutlaqo teskari bo‘lib chiqdi. Eng ilg‘or modellar hujjatlar mazmunining o‘rtacha 25%ini yo‘q qilib yuborgan.
Sinovdan o‘tkazilgan barcha 19 ta tizim bo‘yicha yo‘qotish ko‘rsatkichi 50% ga yetdi. Ya’ni hujjatdagi har ikkinchi harf shunchaki yo‘qolib qolishi yoki o‘ylab topilgan boshqa bir belgi bilan almashishi mumkin edi.
Tadqiqotchilar “tayyorlik” darajasini 20 ta takroriy urinishdan so‘ng 98%lik aniqlik deb belgiladilar — bu texnologiyaga mustaqil ishlashni ishonib topshirish mumkin bo‘lgan minimal ko‘rsatkichdir.
Ushbu marradan 52 ta sohadan faqat bittasi o‘ta oldi: Pythonda dasturlash. Barcha tizimlar orasida eng yaxshi natijani Gemini ko‘rsatdi — u 52 ta yo‘nalishdan 11 tasida belgilangan plankaga yeta oldi. Qolgan modellar esa aksariyat ssenariylarda muvaffaqiyatsizlikka uchradi.
Jamoa, shuningdek, sanoat hozirda avtomatlashtirishning “keyingi bosqichi” sifatida faol ilgari surayotgan mustaqil tizimlar — sun’iy intellekt agentlarini alohida sinovdan o‘tkazdi. Agentlar umumiy manzarani yaxshilay olmadi va ular atrofidagi shov-shuv o‘zini oqlamadi.
Modellar bosqichma-bosqich va bashorat qilib bo‘ladigan tarzda yomonlashmaydi. Ular uzoq vaqt barqaror ishlashi, so‘ng bir lahzada hech qanday ogohlantirishsiz katta hajmdagi ma’lumotlarni yo‘q qilib yuborishi mumkin.
Tadqiqotchilar buni “halokatli uzilishlar” deb atashdi: sessiya qancha uzoq davom etsa va hujjat qanchalik katta bo‘lsa, sifatning birdaniga keskin tushib ketish xavfi shunchalik yuqori bo‘ladi. Qolaversa, quvvatliroq modellar bunday uzilishlardan qutulib qolmaydi, balki ularni keyingi iteratsiyalarga suradi.
Tadqiqot natijalari arXiv platformasida preprint shaklida, ya’ni Microsoft tomonidan hech qanday rasmiy e’lon qilinmasdan, ochiq manbada paydo bo‘ldi. Korporatsiyaning o‘z mahsuloti bo‘lgan Copilot testga umuman kiritilmagan.
Hujjatlar bilan bog‘liq uzun vazifalarni sun’iy intellektga topshirganda, har bir bosqichini nazorat qilib borish tavsiya etiladi.
“Chunki hozircha yakuniy natijani tekshirmasdan SI’ga to‘liq ishonish — tajribasiz amaliyotchi muhim hujjatlar bilan yolg‘iz qoldirish bilan barobar”, deyiladi xabarda.
Avvalroq sun’iy intellekt bilan suhbatlarimiz biz o‘ylaganchalik maxfiy emasligi haqida tadqiqot natijasi e’lon qilingandi.
ChatGPT, Claude, Grok va Perplexity Meta, Google hamda TikTok’ning kuzatuv texnologiyalaridan foydalanadi. Bu foydalanuvchi ma’lumotlari oshkor bo‘lishi xavfini oshiradi.