Álmodnak az AI-videógenerátorok San Pedroról? Madonna az AI következő hullámának korai alkalmazói között
Valahányszor Madonna a nyolcvanas évek „La Isla Bonita” című slágerét énekli koncertkörútján, a mögötte lévő óriási aréna képernyőkön kavargó, naplemente színezetű felhők mozgóképei játszanak.
Az éteri megjelenés érdekében a poplegenda felkarolta a generatív mesterséges intelligencia egy még feltáratlan ágát – a szöveg-videó eszközt. Írjon be néhány szót – mondjuk „szürreális felhős naplemente” vagy „vízesés a dzsungelben hajnalban” – és azonnali videó készül.
Az AI chatbotok és állóképgenerátorok nyomdokaiba lépve néhány mesterséges intelligencia-videó rajongó azt állítja, hogy a feltörekvő technológia egy napon felforgathatja a szórakozást, lehetővé téve, hogy saját filmet válasszon testreszabható történetsorokkal és befejezésekkel. De hosszú utat kell megtenniük, amíg ezt megtehetik, és rengeteg etikai buktató van az úton.
Az olyan korai alkalmazók számára, mint Madonna, aki régóta feszegette a művészet határait, ez inkább csak egy kísérlet volt. Kijavította a „La Isla Bonita” koncertvizuál egy korábbi verzióját, amely hagyományosabb számítógépes grafikát használt a trópusi hangulat megidézésére.
„Kipróbáltuk a CGI-t. Elég nyájasnak és sajtosnak tűnt, és nem tetszett neki” – mondta Sasha Kasiuha, az április végéig tartó Madonna’s Celebration Tour tartalomigazgatója. – Aztán úgy döntöttünk, hogy kipróbáljuk az AI-t.
A ChatGPT-gyártó OpenAI bepillantást engedett abba, hogyan nézhet ki a kifinomult szöveg-videó technológia, amikor a cég nemrég bemutatta a Sorát, egy új eszközt, amely még nem elérhető nyilvánosan. Madonna csapata a New York-i székhelyű Runway startuptól eltérő terméket próbált ki, amely az első nyilvános szöveg-videó modell tavaly márciusi kiadásával segítette a technológia úttörőjét. A cég júniusban kiadott egy fejlettebb „Gen-2” verziót.
Cristóbal Valenzuela, a Runway vezérigazgatója azt mondta, bár egyesek úgy tekintenek ezekre az eszközökre, mint „varázslatos eszközökre, amelyekkel begépel egy szót, és valahogy pontosan azt varázsolja, ami a fejedben járt”, a leghatékonyabb megközelítések azok a kreatív szakemberek, akik a több évtizedes múltra való frissítést keresik. digitális szerkesztő szoftvert, amelyet már használnak.
Azt mondta, hogy a Runway még nem tud teljes hosszúságú dokumentumfilmet készíteni. De segíthet egy háttérvideó vagy b-roll kitöltésében – az alátámasztó felvételek és jelenetek, amelyek segítenek elmesélni a történetet.
„Ez talán egy hét munkáját takarít meg” – mondta Valenzuela. „Sok használati eset közös vonása az, hogy az emberek úgy használják, hogy kiegészítsenek vagy felgyorsítsanak valamit, amit korábban megtehettek volna.”
A Runway célügyfelei a „nagy streaming cégek, produkciós cégek, utómunkálatok, vizuális effektusokkal foglalkozó cégek, marketingcsapatok, reklámcégek. Sok ember, aki megélhetésből keres tartalmat” – mondta Valenzuela.
Veszélyek várnak. Hatékony biztosítékok nélkül a mesterséges intelligencia videogenerátorai megfenyegethetik a demokráciákat meggyőző „mélyhamis” videókkal olyan dolgokról, amelyek soha nem történtek meg, vagy – ahogy az az AI képgenerátorok esetében már megtörténik – eláraszthatják az internetet hamis pornográf jelenetekkel, amelyek valódi embereket ábrázolnak. felismerhető arcok. A szabályozók nyomására a nagy technológiai vállalatok megígérték, hogy vízjellel látják el a mesterséges intelligencia által generált kimeneteket, hogy segítsenek azonosítani, mi a valódi.
Emellett szerzői jogi viták folynak a mesterséges intelligencia-rendszerek által kiképzett videó- és képgyűjteményekről (sem a Runway, sem az OpenAI nem fedi fel adatforrásait), és arról, hogy milyen mértékben replikálnak méltánytalanul a védjeggyel védett műveket. És attól tartanak, hogy egy bizonyos ponton a videókészítő gépek helyettesíthetik az emberi munkát és a művészetet.
Egyelőre a leghosszabb mesterséges intelligencia által generált videoklipek mérése még mindig másodpercben történik, és rángatózó mozdulatokat és árulkodó hibákat, például torz kezet és ujjakat tartalmazhatnak. Ennek kijavítása „csak több adat és több képzés kérdése”, valamint az a számítási teljesítmény, amelytől ez a képzés függ – mondta Alexander Waibel, a Carnegie Mellon Egyetem informatikai professzora, aki az 1970-es évek óta kutatja az AI-t.
„Most már azt mondhatom: „Csinálj nekem egy videót egy Napóleonnak öltözött nyúlról, amint New Yorkban sétál” – mondta Waibel. „Tudja, hogyan néz ki New York City, hogy néz ki egy nyúl, hogyan néz ki Napóleon.”
Ami lenyűgöző, mondta, de még mindig messze van attól, hogy lenyűgöző történetszálat alkosson.
Mielőtt tavaly megjelentette volna első generációs modelljét, a Runway a Stable Diffusion képgenerátor társfejlesztőjeként állította az AI hírnevét. Egy másik cég, a londoni székhelyű Stability AI azóta átvette a Stable Diffusion fejlesztését.
A legtöbb vezető mesterséges intelligencia kép- és videógenerátor mögött meghúzódó „diffúziós modell” technológia úgy működik, hogy zajt vagy véletlenszerű adatokat képez a képeken, hatékonyan tönkreteszi az eredeti képet, majd megjósolja, milyennek kell lennie egy újnak. A fizikából kölcsönöz egy ötletet, amellyel leírható például a gáz kifelé diffundálása.
„A diffúziós modellek megfordítják ezt a folyamatot” – mondta Phillip Isola, a Massachusetts Institute of Technology számítástechnikai docense. „Valahogy átveszik a véletlenszerűséget, és visszaolvasztják a kötetbe. Ez az út a véletlenszerűségtől a tartalom felé. És így készíthetsz véletlenszerű videókat.”
A videó előállítása bonyolultabb, mint az állóképek, mert figyelembe kell venni az időbeli dinamikát, vagy azt, hogy a videóban lévő elemek hogyan változnak az idő múlásával és a képkockák sorozatai között – mondta Daniela Rus, a MIT egy másik professzora, aki a Számítástechnikai és Mesterséges Intelligencia Laboratóriumot irányítja.
Rus szerint a szükséges számítási erőforrások „jelentősen magasabbak, mint az állóképek generálásához”, mivel „a videó minden másodpercéhez több képkocka feldolgozása és generálása szükséges”.
Ez nem akadályoz meg néhány jól bevált technológiai vállalatot abban, hogy megpróbálják egymást felülmúlni a jobb minőségű mesterséges intelligencia-videó-generálás hosszabb időtartamú bemutatásában. Az írásos leírások megkövetelése egy kép elkészítéséhez csak a kezdet volt. A Google nemrégiben bemutatta a Genie nevű új projektet, amely arra késztethető, hogy egy fényképet vagy akár egy vázlatot a felfedezhető videojáték-világok „végtelen sokaságává” alakítson át.
A közeljövőben a mesterséges intelligencia által generált videók valószínűleg megjelenni fognak a marketing- és oktatási tartalmakban, olcsóbb alternatívát kínálva az eredeti felvételek készítéséhez vagy a stockvideók megszerzéséhez – mondta Aditi Singh, a Cleveland State University kutatója, aki felmérte a szöveget. videó piac.
Amikor Madonna először beszélt a csapatának az MI-ről, „a fő szándék nem az volt, hogy „Ó, nézd, ez egy AI-videó” – mondta Kasiuha, a kreatív igazgató.
„Megkérdezte tőlem: „Használhatja az AI eszközök egyikét, hogy élesebbé tegye a képet, hogy megbizonyosodjon arról, hogy aktuális és nagy felbontású?” – mondta Kasiuha. „Szereti, ha új technológiát és újfajta vizuális elemeket viszel be.”
Már készülnek hosszabb, mesterséges intelligencia által generált filmek. A Runway évente megrendezi az AI filmfesztivált az ilyen alkotások bemutatására. De hogy az emberi közönség ezt választja-e, az majd kiderül.
„Még mindig hiszek az emberekben” – mondta Waibel, a CMU professzora. „Még mindig abban hiszek, hogy ez egy szimbiózis lesz, ahol egy mesterséges intelligencia javasol valamit, és egy ember javítja vagy irányítja azt. Vagy az emberek megcsinálják, és a Az AI megjavítja.”
————
Az Associated Press újságírója, Joseph B. Frederick hozzájárult ehhez a jelentéshez.