'Posljednji ispit čovječanstva' trebao je nadmudriti umjetnu inteligenciju ali znanstvenici kažu da ga uskoro može položiti

Posljednji ispit čovječanstva: Test koji umjetna inteligencija zasad ne može položiti, ali to bi se uskoro moglo promijeniti.

Umjetna inteligencija napreduje nevjerojatnom brzinom, a znanstvenici su joj sada postavili izazov bez presedana – test nazvan Posljednji ispit čovječanstva (HLE). Ovaj ispit akademskog znanja zamišljen je kako bi provjerio stvarne intelektualne mogućnosti modela poput ChatGPT-a, Gemini-ja i DeepSeeka, koji ga zasad jedva prolaze. No, prema predviđanjima stručnjaka, situacija bi se mogla drastično promijeniti već unutar godine dana.

Test osmišljen kako bi nadmudrio umjetnu inteligenciju

Za razliku od uobičajenih evaluacija, Posljednji ispit čovječanstva nije samo skup standardnih pitanja. Njegov glavni cilj bio je dizajnirati izazov koji čak ni najnapredniji modeli ne mogu lako riješiti. Ispit su razvili stručnjaci iz Centra za sigurnost umjetne inteligencije i tvrtke Scale AI, koja surađuje s vodećim tehnološkim kompanijama u razvoju sustava umjetne inteligencije.

Umjesto klasičnih testnih pitanja, HLE se temelji na 2.700 iznimno teških pitanja, koja su osmislili akademici iz različitih disciplina. Eliminirana su sva pitanja na koja umjetna inteligencija već može odgovoriti, a fokus je stavljen na one probleme koji zahtijevaju dublje razmišljanje, specijalizirano znanje i sposobnost tumačenja složenih informacija.

Dosadašnji rezultati pokazuju koliko je ovaj ispit težak – modeli su ostvarili točnost od samo 3 do 14 posto. Ipak, znanstvenici vjeruju da bi taj rezultat mogao značajno porasti u nadolazećim mjesecima.

Brzi napredak umjetne inteligencije

Prema najnovijim procjenama, umjetna inteligencija bi mogla postići 50% točnosti do kraja 2025. godine. To bi označilo golem skok u njezinoj sposobnosti rješavanja kompleksnih akademskih problema.

Kako navode istraživači:

“HLE je globalno razvijen od strane stručnjaka i sastoji se od pitanja s višestrukim izborom i kratkih odgovora pogodnih za automatsko ocjenjivanje. Svako pitanje ima jednoznačno i lako provjerljivo rješenje, ali se ne može brzo pronaći pretraživanjem interneta.”

Struktura ispita obuhvaća sljedeće kategorije:

41% Matematika
11% Biologija i medicina
10% Računarstvo
9% Fizika
9% Humanističke i društvene znanosti
6% Kemija
5% Inženjerstvo
9% Ostale teme

Primjeri pitanja uključuju prijevod antičkih rimskih natpisa, rješavanje složenih matematičkih izraza i identifikaciju kemijskih reakcija. Jedno od pitanja čak testira koliko umjetna inteligencija razumije samu sebe.

Prepoznavanje nesigurnosti

Jedan od najvećih problema umjetne inteligencije je pretjerano samopouzdanje – često daje odgovor čak i kada nije sigurna je li ispravan. Znanstvenici sada razvijaju modele koji će moći procijeniti vlastitu nesigurnost i izražavati stupanj sigurnosti uz svaki odgovor.

U budućnosti će modeli umjetne inteligencije uz svaki odgovor dodavati postotak sigurnosti, čime će se smanjiti broj slučajnih pogodaka i postići preciznija procjena njihovih sposobnosti.

Dosadašnja iskustva pokazuju da umjetna inteligencija može nevjerojatno brzo savladati nove izazove. Iako je trenutno daleko od uspjeha na Posljednjem ispitu čovječanstva, znanstvenici predviđaju da bi mogla dostići gotovo savršene rezultate u samo nekoliko godina.

Ključno pitanje ostaje – hoće li umjetna inteligencija postati najmoćniji alat za akademska istraživanja, ili će znanstvenici nastaviti podizati ljestvicu kako bi osigurali da ljudska inteligencija ostane superiorna? Jedno je sigurno – razvoj umjetne inteligencije ne pokazuje znakove usporavanja.

Ivan Petričević

Ivan je novinar i autor koji piše o znanosti, svemiru i povijesti. Gostuje kao stručni sugovornik na Science Discovery i History Channelu te piše za Večernji list. Osnivač je Kozmos.hr, prvog hrvatskog portala posvećenog popularizaciji znanosti.

‘Posljednji ispit čovječanstva’ trebao je nadmudriti umjetnu inteligenciju ali znanstvenici kažu da ga uskoro može položiti

Test osmišljen kako bi nadmudrio umjetnu inteligenciju

Brzi napredak umjetne inteligencije

Prepoznavanje nesigurnosti

Ivan Petričević

Pročitaj više

Modularni roboti mogli bi istraživati i graditi infrastrukturu na drugim svjetovima

Europa mora razviti višekratne rakete ako želi sustići SpaceX

Kina gradi prvi svemirski podatkovni centar pogonjen umjetnom inteligencijom

Nizozemski znanstvenici razvijaju napredni čip za otkrivanje tragova života na Enkeladu

Rješenje za orbitalni kaos? Japanski tim testirao pogon za uklanjanje otpada iz orbite

SpaceX prvi put uspješno isporučio testni teret Starshipom i sletio u Indijski ocean

Američki vojni mini-shuttle X-37B ponovno u svemiru

Gdje bi izvanzemaljska inteligencija najlakše otkrila naše signale