新V觀海外：在Sora的聚光燈之外還應(yīng)提前關(guān)注V-JEPA

陳沛2024-02-27 13:21

陳沛/文 過去一年ChatGPT為OpenAI帶來了大量聚光燈關(guān)注，而Meta AI、Google DeepMind等科技大廠的優(yōu)秀AI團隊在追趕推出大語言模型的同時，他們也在多模態(tài)模型、機器人操控等領(lǐng)域持續(xù)發(fā)力，希望開辟人工智能應(yīng)用于真實世界的新戰(zhàn)場。

就在最近OpenAI發(fā)布Sora模型生成流暢長視頻結(jié)果引發(fā)新一輪熱潮的時候，Meta的AI領(lǐng)軍人物、圖靈獎獲得者Yann LeCun也在同期牽頭發(fā)布了視頻模型V-JEPA的研究論文。不過，由于論文內(nèi)容不像OpenAI展示生成視頻那么直觀，因此沒有在社交媒體上獲得廣泛關(guān)注。

但是考慮到Meta在多模態(tài)AI領(lǐng)域的長期研究積累，我認為近期推出的V-JEPA模型仍值得關(guān)注。

V-JEPA是采用Yann LeCun 2022年提出的JEPA架構(gòu)（聯(lián)合嵌入預(yù)測架構(gòu)）所推出的視頻（視覺）版本模型，體現(xiàn)了Meta在實現(xiàn)高級機器智能愿景中的不同發(fā)展思路。

這種不同的發(fā)展思路源自Yann LeCun的學(xué)術(shù)路線選擇。他一直對OpenAI所采用的Transformer架構(gòu)和自回歸方法嗤之以鼻，認為這種方法只是投入了海量的計算資源和人類反饋工作量來訓(xùn)練模型更好地預(yù)測下一個token，但是通過這種訓(xùn)練方式得到的生成式AI并不能理解真實世界。

而要讓機器理解真實世界，必須讓機器采用人的學(xué)習(xí)方法，自行觀察真實世界的事物運行規(guī)律，在直觀上理解抽象的概念，從而更高效的完成學(xué)習(xí)過程，并逐步演化出制定計劃和完成復(fù)雜任務(wù)的能力。

回到V-JEPA模型本身，在它的架構(gòu)中并不依賴于常見的圖像編碼器、文本和負樣本或其它監(jiān)督學(xué)習(xí)輸入，而是完全采用自監(jiān)督學(xué)習(xí)來預(yù)測特征目標(biāo)。在訓(xùn)練中，V-JEPA也沒有只是讓模型預(yù)測隨機遮蔽的少量像素，而是直接將輸入圖像的一大半都遮蔽掉，讓模型自行學(xué)習(xí)和預(yù)測遮蔽部分的圖像特征，提升模型的抽象概念理解能力。

在運作方式上，類似于Meta之前對大語言模型Llama進行開源的做法，Meta這次也提供了V-JEPA的代碼和配置文件下載渠道。

雖然目前V-JEPA生成的分辨率還達不到Sora或主流AI視頻模型的水平，但是考慮到Meta旗下Facebook、Instagram平臺上具備的海量視頻數(shù)據(jù)資源，預(yù)計Meta將會推動開源V-JEPA快速迭代，加快追趕Sora，回應(yīng)市場對Meta的AI生成視頻應(yīng)用的期待。

從之前開源Llama到Llama 2語言生成能力快速迭代的過程來看，我預(yù)計再過6個月左右，Meta迭代后的新版開源視頻生成模型，也將成為AI視頻模型市場的主流選擇之一。