OpenAI再出大招，Sora模型厲害在哪？

三林20222024-02-19 14:05

2月16日凌晨，OpenAI發(fā)布旗下首個(gè)AI視頻生成模型——Sora模型，并公布技術(shù)報(bào)告。

這一重磅發(fā)布事先并無預(yù)兆，也正因如此才足夠讓人好奇。根據(jù)OpenAI官網(wǎng)信息，Sora人工智能模型能夠通過文本提示，生成逼真且富有想象力的視頻。OpenAI也在官網(wǎng)詳細(xì)介紹了Sora模型的參數(shù)、應(yīng)用及不足之處。

從多個(gè)參數(shù)來看，該模型都遠(yuǎn)超行業(yè)指標(biāo)，重新定義了AI文生視頻在現(xiàn)階段的技術(shù)極限，應(yīng)用之廣更是引爆科技圈，激起眾多討論。

Sora模型的到來同樣引發(fā)了巨大的市場反響，直接推高了OpenAI的估值。根據(jù)券商中國援引外媒的最新消息，據(jù)稱OpenAI已經(jīng)完成了一筆交易，這家人工智能公司的估值已達(dá)800億美元。

在不到10個(gè)月的時(shí)間里，其估值增長了近兩倍，僅次于字節(jié)跳動(dòng)和SpaceX，成為全球第三高估值的科技初創(chuàng)公司。此時(shí)ChatGPT橫空出世才不到兩年，此前OpenAI估值已經(jīng)多次創(chuàng)新高。

生成式AI發(fā)展速度之快，讓人咋舌的同時(shí)也讓不少行業(yè)從業(yè)者感到擔(dān)心。替代性工作的風(fēng)險(xiǎn)是否就在眼前？未來生成式AI還會(huì)在哪些方面影響整個(gè)世界？這兩天大家正在反復(fù)討論這些內(nèi)容。

科技的狂歡

看清楚Sora模型的優(yōu)勢，才能了解其價(jià)值。為方便理解，本文不欲討論模型架構(gòu)等技術(shù)層面參數(shù)，而是著眼于Sora模型的應(yīng)用價(jià)值及未來發(fā)展，希望能在評論區(qū)激起更多討論。

跟之前明星創(chuàng)業(yè)公司追求幾秒的高精度視頻相比，Sora模型文生視頻功能強(qiáng)大，通過文本提示最高能生成1分鐘的1080P高清視頻，直接刷新行業(yè)標(biāo)準(zhǔn)。

這里需要明白一個(gè)概念，AI視頻不僅包括文生視頻，還包括圖生視頻、視頻生視頻。其中，文生視頻可以說是最難的，它要求模型能夠從文字解碼出視頻邏輯，需要視頻畫面中所有物體的運(yùn)動(dòng)、變化都符合現(xiàn)實(shí)世界的規(guī)律。相較文生視頻而言，圖生視頻、視頻生視頻因?yàn)槎加姓鎸?shí)的畫面來源，則相對簡單一些。

這正是Sora模型的價(jià)值所在。

援引華泰證券，Sora模型通過文本或圖片生成長達(dá)60s的視頻，遠(yuǎn)超此前Runway（18秒）、Pika（起步3秒+增加4秒）、Stable Video Diffusion（4秒）等AI視頻應(yīng)用生成時(shí)長，且在視頻效果及穩(wěn)定性等指標(biāo)上也更加優(yōu)異。同時(shí)，Sora模型支持視頻向前向后擴(kuò)展、以及視頻編輯，這是此前競品很難做到的方面。而Sora模型之所以能刷新行業(yè)標(biāo)準(zhǔn)，跟其訓(xùn)練邏輯相關(guān)。

比如，傳統(tǒng)的視頻和圖像生成，通常將視頻素材裁剪或修剪為標(biāo)準(zhǔn)大小，相當(dāng)于生成后進(jìn)行二次處理，而Sora模型以原生大小對數(shù)據(jù)進(jìn)行訓(xùn)練，比如分辨率為256X256的4秒視頻，Sora模型可以直接以原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。

這種方式帶來了靈活性及優(yōu)化的取景和構(gòu)圖，效率更高，且原生視頻的質(zhì)量也更高。

除了在視頻時(shí)長、語義理解程度、視頻效果和穩(wěn)定性等方面超出競品，讓行業(yè)更關(guān)注也更具突破性的，恐怕還是Sora模型展現(xiàn)出了對物理世界超強(qiáng)的仿真能力，這背后是Sora模型在理解和模擬物理世界方面的巨大突破。

模擬世界，即訓(xùn)練人工智能去理解和模擬現(xiàn)實(shí)的物理世界，讓機(jī)器能夠盡力像人類一樣，對世界有一個(gè)全面而準(zhǔn)確的認(rèn)知，最終幫助人類解決跟現(xiàn)實(shí)世界交互的問題。

視頻語言畢竟不同于文本和圖像，對于現(xiàn)實(shí)世界有所理解并進(jìn)行真實(shí)模擬，生成的視頻才可能沒有邏輯錯(cuò)誤，才能貼合現(xiàn)實(shí)，才能更加真實(shí)。Sora模型作為一個(gè)擴(kuò)散模型，采用的是Transformer架構(gòu)，由此也具備了一定世界模型的特質(zhì)。

西部證券就總結(jié)其優(yōu)點(diǎn)，稱其除了生成的視頻在能保持超強(qiáng)的一致性等優(yōu)點(diǎn)之外，更像“物理世界的模擬器”，具體體現(xiàn)在“3D一致性、長期連貫性和物體連續(xù)性、與世界互動(dòng)、模擬數(shù)字世界”。

這一點(diǎn)看似容易，實(shí)則在文生視頻領(lǐng)域并不容易做到。市面上競品多停留在幾秒或十幾秒時(shí)長，超出這個(gè)范圍，生成的視頻邏輯經(jīng)不起推敲，畫面很難做到連貫，質(zhì)量及可控性自然是大大下降。

因?yàn)樯鲜龇N種優(yōu)勢，Sora模型一經(jīng)出世就震驚行業(yè)，不僅大家熱議的影視行業(yè)將發(fā)生巨變，包括游戲、短視頻等領(lǐng)域均將受到影響，并將直接促進(jìn)內(nèi)容消費(fèi)市場的繁榮發(fā)展。

且根據(jù)上述世界模型的特質(zhì)，Sora模型還將對自動(dòng)駕駛、智慧城市等領(lǐng)域產(chǎn)生深刻影響，VR虛擬現(xiàn)實(shí)也將成為受益產(chǎn)業(yè)，AI視頻將為虛擬現(xiàn)實(shí)提供更充足的內(nèi)容。

直面恐懼

雖然Sora模型在某些參數(shù)上已經(jīng)吊打同行，但目前來看，Sora模型更像是GPT剛推出的模樣，不夠成熟，也暫未開放使用。

根據(jù)OpenAI官網(wǎng)的描述，Sora模型在模擬復(fù)雜場景時(shí)仍會(huì)出錯(cuò)，并不總能準(zhǔn)確呈現(xiàn)物體狀態(tài)的改變。比如，它不能準(zhǔn)確地模擬許多日常的基本物理過程，像是玻璃破碎過程、吃食物后表面沒有咬痕、憑空生成并不需要的重復(fù)或變形畫面等等。

更重要的是，文本生成視頻可能會(huì)產(chǎn)生錯(cuò)誤信息，這些錯(cuò)誤信息一旦通過視頻呈現(xiàn)給大眾，會(huì)更加直觀地影響用戶對于世界的某些認(rèn)知。

OpenAI官網(wǎng)也稱，Sora模型可能難以準(zhǔn)確模擬復(fù)雜場景的物理特性，并且可能無法理解因果關(guān)系。Sora模型的安全性、對于有害內(nèi)容的把控、對于偏見和歧視內(nèi)容的篩查，目前仍處于摸索當(dāng)中。

Sora模型或許會(huì)帶來新一輪內(nèi)容創(chuàng)作產(chǎn)業(yè)革命，但與此同時(shí)，其中問題也會(huì)暴露和呈現(xiàn)得更加直觀和粗暴，影響更加深刻和廣泛。

目前Sora模型已向部分專家開放以評估潛在風(fēng)險(xiǎn)，同時(shí)也正在向部分設(shè)計(jì)師、電影制作人、視覺藝術(shù)家等授予訪問權(quán)限，以獲得使用反饋。

不過，OpenAI一再強(qiáng)調(diào)Sora模型是能夠理解和模擬現(xiàn)實(shí)世界模型的基礎(chǔ)，這一功能將成為實(shí)現(xiàn)通用人工智能（AGI）的重要里程碑。

Meta首席人工智能科學(xué)家、圖靈獎(jiǎng)得主楊立昆（Yann LeCun）本人，就認(rèn)為，AI只有真正理解物理世界，才具備真正的價(jià)值，并斷言GPT模型活不過五年。

這些說法不無道理，不同于市面上其他競品，Sora模型的初衷就是渲染出一個(gè)更加真實(shí)的世界，或許會(huì)對上述提到的種種問題，有一個(gè)更好的解決方案。

目前Sora模型暫未對外開放使用，僅OpenAI的CEO Sam Altman在X平臺(tái)上與評論互動(dòng)生成視頻，一方面固然是因?yàn)槟Ｐ瓦€不夠成熟，另一方面，算力限制或許是重要因素。

大模型需要大算力，Sora模型作為定位“模擬世界的視頻生成模型”，跟文本和圖像生成不同。世界模型會(huì)讓AI視頻生成更流暢、更符合邏輯，降低視頻模型的訓(xùn)練成本，提升訓(xùn)練效率，但同時(shí)也需要更強(qiáng)的算力，更高階的硬件支持。

隨著AIGC技術(shù)在影視劇集、宣傳視頻、自媒體、游戲等領(lǐng)域逐步滲透，視頻創(chuàng)作效率或迎來顯著提升，但同時(shí)視頻相對于文字、圖像的交互數(shù)據(jù)量級(jí)也將有巨大提升，或?qū)?yīng)算力需求的高速擴(kuò)張。

肉眼可見的是，未來的算力需求會(huì)更大，AI發(fā)展帶來的行業(yè)利好明顯。全球范圍內(nèi)大模型領(lǐng)域的競爭依然白熱化，這將持續(xù)拔升大模型的整體能力水平。

尾聲

就在Sora模型模型發(fā)布的前一天，也就是2月15日，谷歌推出一個(gè)中型大小的多模態(tài)模型Gemini 1.5 Pro，支持長達(dá)100萬個(gè)token，遠(yuǎn)超當(dāng)前其他基礎(chǔ)模型，可以一次性處理大量信息，如1小時(shí)的視頻、11小時(shí)的音頻、超過3萬行代碼或超過70萬個(gè)單詞。

大模型的競爭正在加劇。

行業(yè)人士大多認(rèn)為Sora模型比起此前其他的文生視頻模型，已經(jīng)實(shí)現(xiàn)跨越式發(fā)展，有望成為實(shí)用生產(chǎn)力工具，1分鐘長度有望大規(guī)模應(yīng)用在短視頻領(lǐng)域。而其擴(kuò)展視頻的能力，也有望在長視頻領(lǐng)域提供更加高效的輔助加成作用。

不過，OpenAI雖然遙遙領(lǐng)先，卻也不是全完沒有壓力。在Sora模型的文生視頻模型發(fā)布之前，明星創(chuàng)業(yè)公司Runway、Pika已經(jīng)在AI生成視頻方面做的相當(dāng)不錯(cuò)。

隨著Sora模型、Pika等應(yīng)用的陸續(xù)出圈，AI視頻應(yīng)用的競爭或?qū)⒏觿×摇?/p>

AI的世界，日新月異。

來源：財(cái)經(jīng)早餐作者：三林2022

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【三林2022】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議