kozmos.hr
  • Naslovnica
  • /
  • Znanost
  • /
  • Googleov Gemini: Novi rival ChatGPT-u u svijetu umjetne inteligencije
Znanost

Googleov Gemini: Novi rival ChatGPT-u u svijetu umjetne inteligencije

objavljeno

Google Deepmind je nedavno predstavio novi model umjetne inteligencije nazvan Gemini, čime ulazi u konkurenciju s OpenAI-ovim ChatGPT-om. Oba modela predstavljaju vrhunce u tehnologiji generativne umjetne inteligencije, koja se koristi za analiziranje i učenje iz obrazaca podataka kako bi stvorila nove sadržaje, uključujući slike, tekstove i drugi medijski materijal. ChatGPT, kao veliki jezični model, primarno se fokusira na generiranje tekstualnog sadržaja.

Prema riječima profesora Michaela G. Maddena, stručnjaka za računalne znanosti s Sveučilišta u Galwayu, Googleov Gemini nadograđuje postojeći koncept. Dok je ChatGPT web-aplikacija temeljena na neuronskoj mreži poznatoj kao GPT, obučenoj na velikim količinama teksta, Google razvija sličnu aplikaciju imenovanu Bard, koja se temelji na LaMDA modelu, specijaliziranom za dijalog. No, s Gemini modelom, Google unosi značajne inovacije.

Gemini se izdvaja od prethodnih generacija generativne tehnologije umjetne inteligencije, poput LaMDA modela, po tome što je to “multi-modalni model”. To znači da Gemini može procesuirati i generirati različite vrste sadržaja: tekst, slike, audio i video. Time se uvodi nova kategorija modela, označena akronimom LMM (veliki multimodalni model), što ga razlikuje od tradicionalnih LLM-ova (velikih jezičnih modela).


Razlika nije velika

OpenAI je u rujnu predstavio model GPT-4Vision, koji također obrađuje slike, audio i tekst, ali nije u potpunosti multimodalni na način na koji je to Gemini. ChatGPT-4, na primjer, obrađuje audio sadržaje pretvaranjem govora u tekst i obrnuto, koristeći različite modele dubokog učenja, ali ne direktno u samom GPT-4V modelu. ChatGPT-4 generira slike korištenjem tekstualnih upita koji se prosljeđuju drugom modelu, Dall-E 2, što nije slučaj s Gemini modelom.

Gemini je “izvorno multimodalni” model, što znači da izravno obrađuje različite tipove ulaza (audio, slike, video, tekst) i može ih direktno generirati. Ova sposobnost postavlja Gemini na jedinstvenu poziciju u odnosu na postojeće modele.

Googleov tehnički izvještaj i razna testiranja pokazuju da trenutna verzija Gemini, Gemini 1.0 Pro, nije na razini GPT-4 modela, već je bliža sposobnostima GPT-3.5. Međutim, Google je najavio i napredniju verziju, Gemini 1.0 Ultra, koja bi mogla nadmašiti GPT-4, ali ta tvrdnja još uvijek nije nezavisno potvrđena zbog nedostupnosti Ultra verzije.

Googleovi marketinški potezi, poput demonstracijskog videa koji nije prikazivao realno vrijeme rada modela, dodatno kompliciraju procjenu njegovih sposobnosti. Unatoč ovim izazovima, stručnjaci smatraju da Gemini i slični multimodalni modeli predstavljaju značajan napredak u generativnoj tehnologiji umjetne inteligencije, otvarajući nove mogućnosti i potencijale za buduće inovacije.

Budući da su GPT-4 i slični modeli obučeni na ogromnim količinama podataka, postavlja se pitanje kako dalje poboljšati performanse ovih modela. Multimodalni pristup otvara nove mogućnosti, omogućujući obuku na raznovrsnijim podacima poput slika, audija i videa. Takvi modeli mogu razviti sofisticiranije interne reprezentacije i bolje razumijevanje fizičkih fenomena, kao što su kretanje i gravitacija.

Konkurencija između Googlea i OpenAI-a u ovoj domeni ne samo da potiče inovacije, već i naglašava važnost etičkih i sigurnosnih razmatranja u razvoju tehnologija umjetne inteligencije. Dok Gemini i GPT-4 predstavljaju vrhunac trenutnih dostignuća, oni su tek početak novog poglavlja u razvoju umjetne inteligencije, s obećanjem daljnjih istraživanja i otkrića.


Pridružite se raspravi u našoj Telegram grupi. KOZMOS Telegram –t.me/kozmoshr

Pozdrav svima! Hvala što čitate Kozmos.hr! Ja sam Ivan i dugi niz godina pišem o svermiu, astronomiji, znanosti, povijesti i arheologiji, a imao sam priliku sudjelovati i u dokumentarcima Science Discovery-ja te History Channel-a.

Pratite Kozmos na Google Vijestima.