OpenAI je nedavno privukao je veliku pozornost predstavljajući Sora, svoj novi sustav umjetne inteligencije (UI) koji tekst pretvara u fotorealistične videozapise. Kompanija je demonstrirala nekoliko izuzetno impresivnih primjera, od šetnje para kroz snježni pejzaž do kamera koje iz zraka glatko prate bijeli vintage SUV na putu prekrivenom prašinom.
Izgleda da predstavlja značajan napredak u tehnologiji generativne umjetne inteligencije, a potencijalno i u mnogim drugim područjima.
Simulator svijetova
OpenAI već naziva Soru “simulatorom svjetova“, sposobnim za razumijevanje ključnih aspekata trodimenzionalnog svijeta koji nas okružuje, bilo da stvara scene digitalnih pejzaža slične CGI-u ili videozapise žene koja noću hoda ulicom osvijetlenom neonkama.
“Naši rezultati ukazuju na to da je skaliranje modela generacije videozapisa obećavajući put prema izgradnji općenitih simulatora fizičkog svijeta,” navodi kompanija. “Uči o 3D geometriji i konzistentnosti,” rekao je Tim Brooks, znanstvenik zadužen za istraživanje, za Wired. “To nismo programirali; to se jednostavno pojavilo kroz promatranje velike količine podataka.”
Difuzijski modeli
Sora predstavlja prirodnu evoluciju difuzijskog modela transformatora, koji je do sada uglavnom korišten za generiranje slika umjetne inteligencije visoke rezolucije. U osnovi, difuzijski modeli rade tako što postepeno dodaju šum originalnoj slici, a zatim postupno uče kako ukloniti taj šum, stvarajući time novu sliku. Za obuku Sore, OpenAI je koristio ogromne količine videozapisa s opisima kako bi uspostavio vezu između video sadržaja i tekstualnog unosa.
Osim generiranja potpuno novih snimaka iz upita, Sora također može proširiti postojeće isječke ili pretvoriti umjetnom inteligencijom generirane slike u videozapise. Tijekom razvoja Sore, istraživači u OpenAI-u otkrili su “brojne zanimljive sposobnosti koje su se pojavile tijekom obuke na velikoj skali.” Na primjer, može “simulirati neke aspekte ljudi, životinja i okoliša iz fizičkog svijeta,” prema dokumentaciji kompanije.
Generirani isječci pokazuju da Sora može stvoriti snimke s dinamičnim i iznenađujuće glatkim promjenama perspektive kamere, pokazujući značajno razumijevanje 3D prostora. Kompanija čak sugerira da bi tehnologija mogla poslužiti kao platforma za video igre.
“Ove sposobnosti sugeriraju da je kontinuirano skaliranje video modela obećavajući put prema razvoju visoko sposobnih simulatora fizičkog i digitalnog svijeta,” ističe kompanija, “i objekata, životinja i ljudi koji u njemu obitavaju.”
Međutim, Sora nije bez mana. Na primjer, model još uvijek ne razumije uzrok i posljedicu u potpunosti.
“Na primjer, osoba može odgristi komad kolačića, ali nakon toga, kolačić možda neće pokazivati trag ugriza,” navodi tvrtka.
Još jedan isječak prikazuje čašu koja curi bez prethodnog razbijanja. Unatoč ograničenjima, Sora pruža rani uvid u budućnost u kojoj bi videozapisi generirani umjetnom inteligencijom mogli postati teško razlikovati od stvarnih.
OpenAI je vrlo svjestan potencijalne zloupotrebe ove tehnologije. Stoga, kompanija planira polagano uvoditi alat, dajući ga na korištenje “crvenim timovima” kako bi procijenili ključna područja štete ili rizika.
“Bit ćemo iznimno oprezni u vezi sa svim sigurnosnim implikacijama,” izjavio je istraživač projekta Bill Peebles za Wired.
Pozdrav svima! Hvala što čitate Kozmos.hr! Ja sam Ivan i dugi niz godina pišem o svermiu, astronomiji, znanosti, povijesti i arheologiji, a imao sam priliku sudjelovati i u dokumentarcima Science Discovery-ja te History Channel-a.