Većina ljudi nije mogla razlikovati ChatGPT od ljudskog sugovornika, što sugerira da je poznati Turingov test po prvi put položen.
U današnje vrijeme interakcija s umjetnom inteligencijom (UI) na internetu je češća nego ikad prije, a često ne shvaćamo koliko je UI prisutna. Zbog toga su znanstvenici odlučili provesti istraživanje u kojem su zamolili ljude da razgovaraju s četiri različita agenta, uključujući jednog čovjeka i tri različita modela umjetne inteligencije, kako bi vidjeli mogu li uočiti razliku.
Što je Turingov test?
Turingov test, koji je prvi predložio računalni znanstvenik Alan Turing 1950. godine kao “igru imitacije”, procjenjuje sposobnost stroja da pokaže inteligenciju koja je neprepoznatljiva od ljudske. Da bi stroj položio Turingov test, mora biti sposoban razgovarati s nekim i uvjeriti ga da je ljudsko biće.
Znanstvenici su replicirali ovaj test pitajući 500 ljudi da razgovaraju s četiri sugovornika, uključujući jednog čovjeka, program umjetne inteligencije iz 1960-ih ELIZA, te moderne modele umjetne inteligencije GPT-3.5 i GPT-4, koji pokreće ChatGPT. Razgovori su trajali pet minuta, nakon čega su sudionici morali reći vjeruju li da su razgovarali s čovjekom ili umjetnom inteligencijom.
Rezultati istraživanja
Prema studiji objavljenoj 9. svibnja na otvorenom arXiv serveru, sudionici su procijenili GPT-4 kao ljudsko biće u 54% slučajeva. ELIZA, sustav unaprijed programiran s odgovorima bez velikog jezičnog modela (LLM) ili neuralne mreže, ocijenjena je kao ljudska samo u 22% slučajeva. GPT-3.5 postigao je 50%, dok je ljudski sugovornik prepoznat kao ljudski u 67% slučajeva.
Nell Watson, istraživačica umjetne inteligencije na Institutu inženjera elektrotehnike i elektronike (IEEE), izjavila je za Live Science: “Strojevi mogu izmišljati, sastavljajući vjerodostojne naknadne opravdanja za stvari, kao što to rade ljudi. Dakle, mogu biti podložni kognitivnim pristranostima, zavarani i manipulirani, te postaju sve obmanjujući. Svi ti elementi znače da se ljudske mane i hirovi izražavaju u sustavima umjetne inteligencije, što ih čini sličnijima ljudima nego prethodni pristupi koji su imali malo više od unaprijed definiranih odgovora.”
Šire implikacije
Studija, koja se temelji na desetljećima pokušaja da se agenti umjetne inteligencije natjeraju da polože Turingov test, odražava uobičajene zabrinutosti da će sustavi umjetne inteligencije koji se smatraju ljudskim imati široke društvene i ekonomske posljedice.
Znanstvenici su također tvrdili da postoje valjane kritike Turingovog testa zbog prejednostavnog pristupa, rekavši da stilistički i socio-emocionalni faktori igraju veću ulogu u polaganju Turingovog testa nego tradicionalni pojmovi inteligencije. To sugerira da smo tražili inteligenciju strojeva na pogrešnom mjestu.
“Čista inteligencija može doseći samo određeni nivo. Ono što zaista ima značaj je biti dovoljno inteligentan da razumiješ situaciju, vještine drugih i imaš empatiju da spojiš te elemente zajedno. Sposobnosti su samo mali dio vrijednosti umjetne inteligencije — njihova sposobnost da razumiju vrijednosti, preferencije i granice drugih također je bitna. To su kvalitete koje će omogućiti umjetnoj inteligenciji da bude vjerna i pouzdana u našim životima.”
Budući izazovi
Watson je dodala da studija predstavlja izazov za buduće ljudsko-strojne interakcije te da ćemo postati sve paranoičniji oko prave prirode interakcija, posebno u osjetljivim stvarima. Naglasila je da studija ističe kako se umjetna inteligencija promijenila tijekom GPT ere.
“ELIZA je bila ograničena na unaprijed definirane odgovore, što je značajno ograničavalo njezine sposobnosti. Mogla je nekoga zavarati pet minuta, ali ubrzo bi postale jasne njezine granice,” rekla je. “Jezični modeli su beskrajno fleksibilni, sposobni sintetizirati odgovore na širok raspon tema, govoriti na određenim jezicima ili sociolektima i prikazivati se s osobnošću vođenom karakterom i vrijednostima. To je ogroman napredak u odnosu na nešto što je ručno programirao čovjek, bez obzira koliko pametno i pažljivo.”