Posljednji ispit čovječanstva: Test koji umjetna inteligencija zasad ne može položiti, ali to bi se uskoro moglo promijeniti.
Umjetna inteligencija napreduje nevjerojatnom brzinom, a znanstvenici su joj sada postavili izazov bez presedana – test nazvan Posljednji ispit čovječanstva (HLE). Ovaj ispit akademskog znanja zamišljen je kako bi provjerio stvarne intelektualne mogućnosti modela poput ChatGPT-a, Gemini-ja i DeepSeeka, koji ga zasad jedva prolaze. No, prema predviđanjima stručnjaka, situacija bi se mogla drastično promijeniti već unutar godine dana.
Test osmišljen kako bi nadmudrio umjetnu inteligenciju
Za razliku od uobičajenih evaluacija, Posljednji ispit čovječanstva nije samo skup standardnih pitanja. Njegov glavni cilj bio je dizajnirati izazov koji čak ni najnapredniji modeli ne mogu lako riješiti. Ispit su razvili stručnjaci iz Centra za sigurnost umjetne inteligencije i tvrtke Scale AI, koja surađuje s vodećim tehnološkim kompanijama u razvoju sustava umjetne inteligencije.
Umjesto klasičnih testnih pitanja, HLE se temelji na 2.700 iznimno teških pitanja, koja su osmislili akademici iz različitih disciplina. Eliminirana su sva pitanja na koja umjetna inteligencija već može odgovoriti, a fokus je stavljen na one probleme koji zahtijevaju dublje razmišljanje, specijalizirano znanje i sposobnost tumačenja složenih informacija.
Dosadašnji rezultati pokazuju koliko je ovaj ispit težak – modeli su ostvarili točnost od samo 3 do 14 posto. Ipak, znanstvenici vjeruju da bi taj rezultat mogao značajno porasti u nadolazećim mjesecima.
Brzi napredak umjetne inteligencije
Prema najnovijim procjenama, umjetna inteligencija bi mogla postići 50% točnosti do kraja 2025. godine. To bi označilo golem skok u njezinoj sposobnosti rješavanja kompleksnih akademskih problema.
Kako navode istraživači:
“HLE je globalno razvijen od strane stručnjaka i sastoji se od pitanja s višestrukim izborom i kratkih odgovora pogodnih za automatsko ocjenjivanje. Svako pitanje ima jednoznačno i lako provjerljivo rješenje, ali se ne može brzo pronaći pretraživanjem interneta.”
Struktura ispita obuhvaća sljedeće kategorije:
- 41% Matematika
- 11% Biologija i medicina
- 10% Računarstvo
- 9% Fizika
- 9% Humanističke i društvene znanosti
- 6% Kemija
- 5% Inženjerstvo
- 9% Ostale teme
Primjeri pitanja uključuju prijevod antičkih rimskih natpisa, rješavanje složenih matematičkih izraza i identifikaciju kemijskih reakcija. Jedno od pitanja čak testira koliko umjetna inteligencija razumije samu sebe.
Prepoznavanje nesigurnosti
Jedan od najvećih problema umjetne inteligencije je pretjerano samopouzdanje – često daje odgovor čak i kada nije sigurna je li ispravan. Znanstvenici sada razvijaju modele koji će moći procijeniti vlastitu nesigurnost i izražavati stupanj sigurnosti uz svaki odgovor.
U budućnosti će modeli umjetne inteligencije uz svaki odgovor dodavati postotak sigurnosti, čime će se smanjiti broj slučajnih pogodaka i postići preciznija procjena njihovih sposobnosti.
Dosadašnja iskustva pokazuju da umjetna inteligencija može nevjerojatno brzo savladati nove izazove. Iako je trenutno daleko od uspjeha na Posljednjem ispitu čovječanstva, znanstvenici predviđaju da bi mogla dostići gotovo savršene rezultate u samo nekoliko godina.
Ključno pitanje ostaje – hoće li umjetna inteligencija postati najmoćniji alat za akademska istraživanja, ili će znanstvenici nastaviti podizati ljestvicu kako bi osigurali da ljudska inteligencija ostane superiorna? Jedno je sigurno – razvoj umjetne inteligencije ne pokazuje znakove usporavanja.
🔵 Pridružite se razgovoru!
Imate nešto za podijeliti ili raspraviti? Povežite se s nama na Facebooku i pridružite se zajednici znatiželjnih istraživača u našem Telegram kanalu. Za najnovija otkrića i uvide, pratite nas i na Google Vijestima.
Pozdrav svima! Hvala što čitate Kozmos.hr! Ja sam Ivan i dugi niz godina pišem o svermiu, astronomiji, znanosti, povijesti i arheologiji, a imao sam priliku sudjelovati i u dokumentarcima Science Discovery-ja te History Channel-a.