Kompanija OpenAI je predstavila novi model pod nazivom Sora, koji može “tekstualne instrukcije pretvarati u video”.
Model “text-to-video” omogućava korisnicima da kreiraju fotorealistične klipove dužine do jedne minute, koji su bazirani na osnovu onoga što su napisali.
Sora može kreirati “složene scene s više likove, specifične tipove pokreta i precizne detalje subjekta i pozadine”, saopćili su iz kompanije OpenAI. Navodi se i da model može “razumjeti kako objekti egzistiraju u fizičkom svijetu” te “precizno interpretirati rekvizite i stvarati uvjerljive likove koji izražavaju živahne emocije”.
Model može kreirati video i na osnovu nepokretne slike te popuniti frameove koji nedostaju na postojećem videu ili ga proširiti. Demonstracijski klipovi uključuju scenu Kalifornije iz zraka tokom “zlatne groznice”, video koji izgleda kao da je snimljen iz unutrašnjosti voza u Tokiju, kao i neke druge. Međutim, mnogi sadrže određene znakove da je riječ o AI tehnologiji, kao što je “sumnjivo” pomicanje poda na snimku muzeja. Iz kompanije OpenAI kažu da bi se model “mogao mučiti s preciznim simuliranjem fizike kompleksne scene”, ali su rezultati općenito prilično impresivni.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Prije nekoliko godina su postojali text-to-image generatori kao što je Midjouney, koji su mogli pretvarati riječi u slike. Međutim, nedavno je video počeo napredovati velikom brzinom, a kompanije kao što su Runway i Pika pokazale su vlastite text-to-video modele, dok se Googleov Lumiere smatra jednim od primarnih konkurenata kompanije OpenAI na ovom polju. Slično kao i Sora, Lumiere nudi korisnicima text-to-video alate te im omogućava da kreiraju video iz nepokretne slike.
Sora je trenutno dostupna “crvenim timovima” koji procjenjuju model zbog potencijalne štete i rizika. OpenAI također nudi pristup vizuelnim umjetnicima, dizajnerima i filmskim stvaraocima kako bi dali povratne informacije. Napominje da postojeći model možda neće precizno simulirati fiziku složene scene te da možda neće pravilno interpretirati određene slučajeve uzroka i posljedice.
Ranije ove godine je OpenAi najavio da dodaje vodene žigove svom text-to-image alatu DALL-E 3, no oni se mogu lako ukloniti. Kao što je slučaj s njegovim ostalim AI proizvodima, OpenAI će se morati boriti s posljedicama lažnih, AI fotorealističnih videa koji se poglešno smatraju stvarnim.
Klix.ba