OpenAI掀翻視頻格局 AGI真的不遠(yuǎn)了？

孔海麗2024-02-17 08:54

視頻領(lǐng)域的“GPT時(shí)刻”也來(lái)了。

北京時(shí)間2月16日凌晨，OpenAI推出了新的文生視頻模型Sora，可以把簡(jiǎn)短的文本描述轉(zhuǎn)換為長(zhǎng)達(dá)60秒的高清視頻，繼文本、圖片的革命之后，繼續(xù)顛覆視頻領(lǐng)域。

更重要的是，Sora初步實(shí)現(xiàn)了對(duì)真實(shí)世界的洞察與學(xué)習(xí)，已經(jīng)能夠理解角色在物理世界中的存在方式并預(yù)判運(yùn)行軌跡。

盡管目前Sora仍難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性，并且可能無(wú)法理解因果關(guān)系，比如人物吹蠟燭之后，燭火并未搖曳或熄滅。但這種趨勢(shì)已經(jīng)擺上了臺(tái)面，OpenAI開(kāi)辟了一個(gè)全新的賽道，并讓其他仍困在幾秒視頻時(shí)長(zhǎng)的AI視頻模型創(chuàng)業(yè)公司，遭受降維式輾軋。一位AI大模型從業(yè)者感慨：“要卷死一堆文生視頻公司了，秒殺……”

一個(gè)能夠理解、感知、創(chuàng)造內(nèi)容的AI視頻模型，將撕開(kāi)無(wú)限可能。OpenAI扔下的這枚重磅炸彈，商業(yè)落地場(chǎng)景非常豐富，戰(zhàn)栗的將不只是影視行業(yè)，整個(gè)內(nèi)容創(chuàng)作行業(yè)或都將被動(dòng)搖。

假以時(shí)日，真實(shí)世界與視頻虛擬世界的區(qū)隔，或許也將被削弱，大洋彼岸已經(jīng)在擔(dān)心AI視頻會(huì)影響總統(tǒng)大選了，正在采取行動(dòng)應(yīng)對(duì)AI生成的深度偽造。

對(duì)于Sora模型的意義，OpenAI官方如此表述：“能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ)，我們相信這一能力將是實(shí)現(xiàn)AGI的重要里程碑”。

上難度：理解真實(shí)世界

與現(xiàn)有文生視頻技術(shù)相比，OpenAI的Sora幾乎將AI視頻的競(jìng)爭(zhēng)，從冷兵器時(shí)代推進(jìn)到了現(xiàn)代化戰(zhàn)爭(zhēng)階段，時(shí)長(zhǎng)、效果、互動(dòng)性，都秒殺現(xiàn)有技術(shù)。

視頻生成領(lǐng)域面對(duì)的一個(gè)重要挑戰(zhàn)就是，在生成的較長(zhǎng)視頻中保持時(shí)空連貫性和一致性。市面上現(xiàn)有的AI視頻產(chǎn)品，時(shí)長(zhǎng)一旦超出幾秒，將無(wú)法正確呈現(xiàn)物體之間的互動(dòng)關(guān)系，逐漸“離譜”。

因?yàn)锳I對(duì)視頻的學(xué)習(xí)，依賴大量的訓(xùn)練數(shù)據(jù)，如果訓(xùn)練數(shù)據(jù)中沒(méi)有涵蓋某種特定的過(guò)渡效果或動(dòng)作，AI就很難學(xué)會(huì)如何在生成視頻時(shí)應(yīng)用這些效果。也就是說(shuō)，時(shí)長(zhǎng)一旦變長(zhǎng)，現(xiàn)有AI的能力就會(huì)“露餡”。

更根本的原因在于，現(xiàn)有AI無(wú)法理解物理世界的運(yùn)行法則，也就無(wú)法預(yù)測(cè)物體和角色在時(shí)間線上的運(yùn)動(dòng)軌跡。

但OpenAI做到了。Sora直接將時(shí)長(zhǎng)提升到了60秒，且效果高清，細(xì)節(jié)豐富。

OpenAI官網(wǎng)呈現(xiàn)的一則60秒視頻顯示，女主與周?chē)慕值馈⑷巳骸艄狻⒍挤浅Ｇ逦匀唬耆珱](méi)有AI視頻常見(jiàn)的“掉幀”問(wèn)題，甚至肢體動(dòng)作、面部表情、水中倒影、墨鏡折射畫(huà)面都很連貫。

另一則視頻中，穿過(guò)東京郊區(qū)的火車(chē)車(chē)窗倒影，不僅顯示了車(chē)窗外掠過(guò)的建筑，近距離經(jīng)過(guò)的另一節(jié)車(chē)廂甚至加深了車(chē)內(nèi)燈光、人物的折射清晰度，非常符合常理，并且流暢自然。

Sora經(jīng)常能夠?yàn)槎唐诤烷L(zhǎng)期物體間的依賴關(guān)系建模。例如，在生成的視頻中，人物、動(dòng)物和物體即使在被遮擋或離開(kāi)畫(huà)面后，仍能被準(zhǔn)確地保存和呈現(xiàn)。并且，Sora能夠在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，并在整個(gè)視頻中保持其外觀的一致性。

一則太空人科幻視頻中，同時(shí)呈現(xiàn)了近景、遠(yuǎn)景中的主角，被太空船內(nèi)部場(chǎng)景切分開(kāi)的人物鏡頭，分別處于凝視、行走、思考等不同的狀態(tài)，人物一致、行為連貫。

據(jù)OpenAI官網(wǎng)介紹，Sora是一種擴(kuò)散模型，相較其他模型，看起來(lái)具備了“理解”和“思考”能力。

與AI視頻明星創(chuàng)業(yè)公司Runway所使用的Gen模型相比，Sora模型不僅了解用戶在提示中要求的內(nèi)容，還了解這些角色在物理世界中的存在方式，能夠理解和模擬運(yùn)動(dòng)中的物理世界，能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)，以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。

與GPT模型類似，Sora使用的是transformer架構(gòu)，該架構(gòu)對(duì)視頻的時(shí)空序列包和圖像潛在編碼進(jìn)行操作，能夠主動(dòng)填補(bǔ)視頻中的“缺失幀”，從而看起來(lái)具備“預(yù)測(cè)性”，使得AI視頻模型不再那么“被動(dòng)”。

一位AI大模型從業(yè)人士對(duì)21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示，OpenAI又一次改寫(xiě)了游戲規(guī)則，把文生視頻推高到了“理解真實(shí)世界”的維度。

這也正是世界模型的特點(diǎn)——讓機(jī)器能夠像人類一樣對(duì)真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知。世界模型不僅包括對(duì)事物的描述和分類，還包括對(duì)事物的關(guān)系、規(guī)律、原因和結(jié)果的理解和預(yù)測(cè)，從而進(jìn)行推理和決策。

英偉達(dá)人工智能研究院Jim Fan表示：“如果你還是把Sora當(dāng)做DALLE那樣的生成式玩具，還是好好想想吧，這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。”有技術(shù)人員告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者，Jim Fan的言外之意在于，不能忽略Sora所折射的“世界模型”的更進(jìn)一步——AI已經(jīng)可以讀懂物理規(guī)律。

隨著訓(xùn)練的繼續(xù)推進(jìn)，AGI的實(shí)現(xiàn)或許不再是紙上談兵。

打擊力：顛覆現(xiàn)實(shí)世界

OpenAI推出Sora之后，互聯(lián)網(wǎng)世界除了感嘆，還有一片哀嚎。

在OpenAI的推文下面，不少評(píng)論打出“gg 皮克斯”、“gg好萊塢”（注：gg是競(jìng)技游戲禮貌用語(yǔ)，good game的縮寫(xiě)，用于表達(dá)“打得好，我認(rèn)輸”），馬斯克更是在X上發(fā)表評(píng)論，稱“gg 人類”。

有不少網(wǎng)友感慨自己“要失業(yè)了”，視頻行業(yè)將被徹底顛覆。

有來(lái)自電影制作行業(yè)的從業(yè)人士告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者，如果Sora繼續(xù)進(jìn)化下去，取代一部分傳統(tǒng)視頻制作方式是必然的，就像AI繪畫(huà)取代畫(huà)師、設(shè)計(jì)師一樣，這是趨勢(shì)。

“短視頻、概念視頻、廣告、微短劇、甚至是長(zhǎng)視頻里，都會(huì)大量使用AI生成視頻。”該人士表示：“不過(guò)傳統(tǒng)影視劇該怎么拍還得拍。”

觀點(diǎn)普遍認(rèn)為，AI視頻模型將改變電影工業(yè)的生產(chǎn)方式，雖然不能完全取代現(xiàn)有人力，但將會(huì)成為新的生產(chǎn)工具，影視行業(yè)從業(yè)人士需要盡快把工具“為我所用”。

一位影視編劇提出了另一種想法，她認(rèn)為，Sora這類AI視頻模型大大降低了精美視頻的制作門(mén)檻，以后編劇的奇思妙想將有更大的呈現(xiàn)空間，“技術(shù)不到位”、“經(jīng)費(fèi)不夠”的掣肘都將減小很多。

比如，OpenAI的一則視頻中，巨大的猛犸象緩緩走來(lái)，形象逼真，身后騰起了雪霧，遠(yuǎn)處被白雪覆蓋的樹(shù)林與山脈清晰可見(jiàn)。而眾所周知，動(dòng)畫(huà)《冰川時(shí)代》的實(shí)際制作費(fèi)用達(dá)到8000萬(wàn)美元之高，耗時(shí)4年之久。

“那些有才華但苦于缺少投資的導(dǎo)演們，可能會(huì)借力Sora創(chuàng)造出許多驚人的作品。”她補(bǔ)充說(shuō)。

目前，Sora尚未對(duì)公眾開(kāi)放，OpenAI正在與一些視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人合作，以探索如何讓Sora對(duì)創(chuàng)意專業(yè)人士提供有效幫助。

而雙刃劍的另一面，是AI視頻模型給現(xiàn)實(shí)世界帶來(lái)的虛假信息威脅也將大大增加。

近期，AI合成的泰勒·斯威夫特不雅照曾引起過(guò)軒然大波，就連白宮方面也呼吁國(guó)會(huì)“應(yīng)立刻采取行動(dòng)”，而美國(guó)政壇和民眾也對(duì)背后凸顯的技術(shù)、法律漏洞感到擔(dān)憂。

AI生成“惡性視頻”對(duì)現(xiàn)實(shí)世界造成的困擾，將數(shù)倍于圖片效果。為此，美國(guó)聯(lián)邦貿(mào)易委員會(huì)將致力于利用工具來(lái)檢測(cè)、阻止相關(guān)冒充欺詐行為。

為此，OpenAI表示，將在提供Sora之前采取幾個(gè)重要的安全措施，與錯(cuò)誤信息、仇恨內(nèi)容和偏見(jiàn)等領(lǐng)域的專家進(jìn)行合作，對(duì)模型進(jìn)行對(duì)抗性測(cè)試；OpenAI也在構(gòu)建工具來(lái)檢測(cè)誤導(dǎo)性內(nèi)容，例如檢測(cè)分類器，可以判斷視頻何時(shí)由Sora生成。

除了開(kāi)發(fā)新技術(shù)為Sora保障安全性，現(xiàn)有的安全方法也適用于Sora模型，例如那些請(qǐng)求極端暴力、色情內(nèi)容、仇恨圖像、名人肖像或他人IP的提示將被模型拒絕，也開(kāi)發(fā)了強(qiáng)大的圖像分類器，用于查看生成的每個(gè)視頻的幀數(shù)，以確保在向用戶顯示視頻之前遵守OpenAI的使用政策。

但OpenAI也承認(rèn)，無(wú)法預(yù)測(cè)人們使用Sora的所有有益方式，也無(wú)法預(yù)測(cè)人們?yōu)E用它的所有方式。

不過(guò)，目前Sora還有其局限性，比如可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性，并且可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如，一個(gè)人咬一口餅干之后，餅干可能沒(méi)有咬痕。該模型還可能混淆提示的空間細(xì)節(jié)，例如，左右混淆，人類在朝著跑步機(jī)的尾部跑步。也可能難以精確描述隨時(shí)間推移發(fā)生的事件，例如，五只灰狼幼崽嬉戲的畫(huà)面中，幼崽數(shù)量可能忽多忽少，有的幼崽會(huì)憑空出現(xiàn)或消失。

隨著技術(shù)進(jìn)步，或許未來(lái)，如何判定視頻真假，也將成為一門(mén)學(xué)問(wèn)。

壓迫感：巨頭步步碾壓

另一廂，谷歌也于同一日發(fā)布了Gemini 1.5版本，在文本的長(zhǎng)度上實(shí)現(xiàn)了大幅突破。但終究被OpenAI的視頻模型搶盡了風(fēng)頭。

一批AI視頻模型創(chuàng)業(yè)公司也將命懸一線。

文生視頻的生成模型最早出現(xiàn)在2022年底，Pika lab、Runway都分別貢獻(xiàn)過(guò)AI生成視頻的話題。早期，就連Meta和谷歌的AI視頻都有著“一眼AI”的問(wèn)題，清晰度、邏輯性有明顯缺陷。

經(jīng)過(guò)不懈努力，Runway在2023年11月發(fā)布了AI視頻生成工具Gen-2，修復(fù)了視頻畫(huà)質(zhì)，也克服了不連貫、閃爍變形以及低清等問(wèn)題，但生成的視頻時(shí)長(zhǎng)最多只能達(dá)到18秒。

眼下，OpenAI一舉把AI視頻生成時(shí)長(zhǎng)拉到了60秒，并且運(yùn)鏡復(fù)雜、場(chǎng)景多變、人物還能夠表達(dá)豐富的情感色彩，簡(jiǎn)直斷了其他小公司未來(lái)的路。

業(yè)內(nèi)分析人士表示，如果其他AI視頻模型創(chuàng)業(yè)公司無(wú)法盡快追趕OpenAI，恐怕將直接失去生存空間。

但這種追趕并不容易。前述AI大模型從業(yè)者向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示，僅就公開(kāi)信息而言，其他公司與OpenAI在技術(shù)能力、訓(xùn)練量、耗資程度方面，都有著代際差異。

“如果長(zhǎng)期關(guān)注AI文生視頻的進(jìn)展，就會(huì)知道OpenAI的Sora有多強(qiáng)大，是專業(yè)拳手暴打小白的差距。”、“AI真的分成兩種，OpenAI和其他AI”……相關(guān)評(píng)論也是層出不窮。

一位關(guān)注AI大模型的投資人向21世紀(jì)經(jīng)濟(jì)報(bào)道記者透露，小型公司跑出來(lái)的概率變得更渺茫了，尤其是這么燒錢(qián)的領(lǐng)域，很難在巨頭的陰影下做出亮點(diǎn)。

從文本大模型、圖像大模型，再到如今的視頻大模型，OpenAI深刻詮釋了“一步先、步步先”的殘酷性。

實(shí)際上，Sora之所以能這么出色，也與OpenAI之前的領(lǐng)先優(yōu)勢(shì)有關(guān)。

OpenAI放出的技術(shù)報(bào)告透露，Sora模型對(duì)語(yǔ)言有深刻的理解，使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動(dòng)情感的引人注目的角色。這背后有GPT的功勞，OpenAI會(huì)先利用GPT將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)內(nèi)容，再發(fā)送到視頻模型。

他們還為視頻生成調(diào)用了DALL·E3（OpenAI的圖像生成模型）中的re-captioning技術(shù)，為視覺(jué)訓(xùn)練數(shù)據(jù)生成高度描述性的文本，使得模型能夠更忠實(shí)地遵循用戶指令。

除了能夠以文本生成視頻，Sora模型還能夠獲取現(xiàn)有的靜止圖像并從中生成視頻，提高視頻的準(zhǔn)確性及細(xì)節(jié)顆粒度，還可以對(duì)現(xiàn)有視頻進(jìn)行擴(kuò)展或填充“缺失幀”。

也就是說(shuō)，Sora是站在OpenAI的大語(yǔ)言模型GPT以及圖片大模型DALL·E的肩膀上，并且跑出了加速度。

一位硅谷AI行業(yè)創(chuàng)業(yè)人士感慨說(shuō)：“創(chuàng)業(yè)之路，離天堂太遠(yuǎn)，離巨頭太近，如果又沒(méi)有自己的壁壘，實(shí)在太容易被淘汰了。”

而其他落后于OpenAI的科技巨頭，在AI大模型這條路上，也要時(shí)時(shí)接受來(lái)自先行者的壓迫感。

來(lái)源：21世紀(jì)經(jīng)濟(jì)報(bào)道記者：孔海麗

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【孔海麗】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議