這只是開始的結(jié)束

陳永偉2024-03-04 14:36

陳永偉/文

當(dāng)?shù)貢r間2月15日，美國科技公司OpenAI、Meta和谷歌不約而同地選擇在這一天發(fā)布了自己的新模型（OpenAI的Sora、Meta的V-JEPA、谷歌的GeminiPro1.5），這讓本已高度“內(nèi)卷”的AI市場的競爭達(dá)到了白熱化的程度。

三款模型中，Sora可以根據(jù)文本生成遠(yuǎn)比過去同類產(chǎn)品驚艷的視頻；V-JEPA雖然在視頻生成上的表現(xiàn)略遜于Sora，但卻號稱應(yīng)用了非生成式的世界模型；而GeminiPro1.5作為一個多模態(tài)模型，其支持的上下文竟達(dá)到了驚人的1000萬token（計算機運行中，文本處理的最小單位）。在如此集中的時間，AI技術(shù)竟然在三個不同的方向上取得了如此巨大的突破，實在令人驚嘆。

在驚嘆之余，一些老生常談的問題又再次出現(xiàn)在了各大媒體。比如：這一場AI大戰(zhàn)的終局會是如何？AI能力的突飛猛進(jìn)，是否意味著“通用人工智能”（Artificial General Inteligence，簡稱A－GI）已經(jīng)近在咫尺？在AGI到來之后，人類的命運又會走向何方？

這些問題十分重要，但是，如果我們對這些問題的討論僅僅只是基于科幻式的想象，那么討論本身也就會最終淪為空談。相比之下，一種更為科學(xué)的討論方式或許是：在思考這些新模型會帶來什么影響之前，先從技術(shù)的角度弄清楚，這些模型究竟意味著什么。下面，我們就從這個理念出發(fā)，開始我們的探究之旅。

天空背后的秘密

盡管Sora、V-JEPA和GeminiPro1.5都十分亮眼，但從原創(chuàng)性角度看，前兩款模型的重要性似乎是更為突出的，因為它們幾乎可以被視為是通向AGI的兩種主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5雖然也非常出色，但它本質(zhì)上是其前作GeminiPro的升級，其突破性要稍遜一些。因此，如果要討論新模型的影響，我們不妨將重點放在Sora和V-JEPA上。

那么，讓我們先從外界關(guān)注度最高的Sora開始吧。從OpenAI公布的視頻上看，這款以日文“天空”（空，そら）命名的模型表現(xiàn)確實非常突出：過去，文生視頻模型通常只能生成幾秒的視頻，而Sora生成的視頻則長達(dá)一分鐘。不僅如此，它還可以在一定程度上呈現(xiàn)出因果關(guān)系和物理規(guī)律。比如，在一個視頻中，畫師下筆之后，紙上就出現(xiàn)了朵朵桃花；在另一個視頻中，隨著食客的一口咬下，原先完整的漢堡就缺了一角。對于類似的這些物體互相作用后改變形狀的現(xiàn)象，過去的文生視頻模型很難生成，而Sora卻很好地實現(xiàn)了這一點。

出于維護(hù)其商業(yè)秘密的考慮，Ope－nAI在發(fā)布ChatGPT之后，就不再公布其產(chǎn)品的相關(guān)論文，這讓完全破解Sora的秘密幾乎成了不可能。好在OpenAI為Sora附上了一份簡要的技術(shù)報告，對于了解技術(shù)概況，這份報告其實已經(jīng)足夠了。

按照報告，Sora在原理上可以被概括為“擴(kuò)散模型+Transformer架構(gòu)”的應(yīng)用。

（1）擴(kuò)散模型

說到擴(kuò)散模型，相信很多人對這個詞并不陌生。雖然這個模型的詳細(xì)原理必須用數(shù)學(xué)公式才能說明，但簡單來說，它可以被理解為一個降噪生成的過程。

喜歡看電視的讀者想必都會有這樣的經(jīng)驗：當(dāng)電視信號遇到干擾時，原本的電視畫面上就會出現(xiàn)一層不規(guī)則的雪花點。干擾信號越強，雪花點就越濃密。當(dāng)干擾強到一定的程度，屏幕上就會只剩下雪花點。用數(shù)學(xué)的語言講，這種在原本的圖像上加入雪花點的過程就是“加噪”。

一開始，這種滿是雪花點的畫面會讓人非常不適應(yīng)。但只要看得多了，干擾的影響就會越來越小。即使電視屏幕上遍布雪花，人們也可以通過像素的運動，配合畫外的聲音，自動“腦補”出一幅幅清晰的畫面。這樣，他們的腦中就完成了一個“降噪”的過程。

為什么人腦可以開發(fā)出這樣的“腦補”功能呢？歸根到底，這還是一個訓(xùn)練的過程。當(dāng)信號干擾不嚴(yán)重的時候，圖形上的雪花并不多，這時人們可以很容易地結(jié)合先前的觀看經(jīng)驗，聯(lián)想出清晰的畫面是什么樣的。當(dāng)人們對輕微干擾習(xí)以為常后，就可以進(jìn)一步去適應(yīng)更為嚴(yán)重的干擾——在腦中，他們可以先把被重度干擾的畫面還原為輕度干擾，再將其還原為清晰畫面。這樣，只要觀看經(jīng)驗足夠，人們就可以在腦中訓(xùn)練出自動還原雪花點的功能。需要指出的是，在還原的過程中，額外信息的提示很重要。比如，面對一團(tuán)模糊的雪花點，如果配上《敢問路在何方》，人們就很容易“腦補”出唐僧師徒四人跋山涉水的圖像；而如果配上鋼琴曲《TomandJer－ry》，他們“腦補”出的就可能是貓在追逐老鼠的場景。

上面這種從雪花點中“腦補”出圖像的做法，我們也可以用AI來實現(xiàn)。具體來說，人們可以將大批的圖片“投喂”給AI模型，然后再將這些圖片“加噪”。機器通過將加噪前后的圖片進(jìn)行對比，就可以訓(xùn)練出從帶噪的圖片中還原出清晰圖片的功能。當(dāng)然，AI不可能完美復(fù)現(xiàn)出原圖，只能根據(jù)它從樣本中學(xué)習(xí)到的經(jīng)驗來盡可能對干擾進(jìn)行修補。這時，它就已經(jīng)在一定程度上具有了創(chuàng)作的能力。人們可以在此基礎(chǔ)上不斷加入更多的干擾，讓模型從干擾中還原出圖像的能力變得越來越強。最終，他們就可以得到一個能在完全由無規(guī)則雪花圖上還原出圖像的模型。由于還原的起點是徹底隨機的，所以所謂的“還原”就變成了一種徹底的創(chuàng)作。要讓AI明確應(yīng)該往什么方向還原，就需要告訴它一定的提示詞（prompt）。其道理就好像我們要從遍布雪花點的電視中“腦補”圖像，需要有畫外音的幫助一樣。

上述這個降噪還原的過程，就是擴(kuò)散模型的基本原理。隨著生成式AI的火爆，它已經(jīng)得到了十分廣泛的應(yīng)用。像MidJourney、StableDiffusion等文生圖模型，Runway、Pika等文生視頻模型，本質(zhì)上都是擴(kuò)散模型的應(yīng)用。

在Sora之前，雖然已經(jīng)有了不少基于擴(kuò)散模型的文生視頻的模型，但這些模型生成的視頻時間都很短，呈現(xiàn)角度也比較單一。之所以會出現(xiàn)這樣的問題，很大程度上是由于其訓(xùn)練數(shù)據(jù)導(dǎo)致的。受算力等因素的限制，目前用來訓(xùn)練文生視頻的數(shù)據(jù)主要是一些時長較短的視頻，這就導(dǎo)致了由此訓(xùn)練出的模型只能根據(jù)這些短小的視頻來進(jìn)行外推，其“腦補”能力也就受到了很大的限制。如果要生成長視頻，就需要額外采用計算量巨大且速度緩慢的滑動窗口方法，從經(jīng)濟(jì)角度看，這是得不償失的。

那么，Sora又是如何克服這些困難的呢？其奧秘就在于它很好地將Transformer和擴(kuò)散模型結(jié)合了起來。

（2）Transformer架構(gòu)

得益于GPT模型的火爆，作為其基礎(chǔ)架構(gòu)的Transformer的大名也早已被人們熟知。對于語言模型而言，Transformer是具有革命性的。過去，語言模型一直面臨著一個很大的困難，即所謂的“長期記憶難題”。我們知道，一句話究竟是什么意思很大程度上取決于其上下文。比如，當(dāng)某人說“我想買512G的蘋果”時，他究竟是想要買一個內(nèi)存為512G的蘋果手機，還是想買512克的蘋果，就需要看這句話出現(xiàn)在什么語境之中。因而，至少在理論上，要理解一句話是什么意思，就需要對其所在的整個文本進(jìn)行解讀。對于計算機來說，這是非常麻煩的。因為這意味著在處理文本時，只能用一種串行的方式來逐字進(jìn)行解讀，而難以采用并行的處理辦法，處理的效率會被鎖死在一定的水平。

如何才能打破這個瓶頸呢？一個思路是將句子拆分成一個個的詞，分別識別出它們的含義。在完成了這些工作后，再將各詞的意思整合起來，就可以得到這個句子的意思。但是，怎樣才能保證對詞的含義識別精準(zhǔn)呢？那就要看一下它的相對位置。一般來說，距離一個詞很近的幾個詞對其含義的影響是最大的。比如，如果在“蘋果”這個詞的附近，出現(xiàn)了“手機”、“芯片”等詞，那么它多半就是指手機；而如果在它的附近，出現(xiàn)了“果汁”、“榨汁機”等詞，那么它指的就多半是水果。對于一個特定的詞，臨近詞對它的影響大小是不一的。比如，其前一個詞對其含義的影響權(quán)重為0.5，其后一個詞對其含義的影響為0.3。在AI中，這個權(quán)重就叫做“注意力”（attention）。通過對大樣本數(shù)據(jù)的學(xué)習(xí)，AI模型可以對每一個詞都給出一個完整的“注意力”表格。這樣，當(dāng)它再面對一個詞的時候，就可以根據(jù)其在語段中與其他詞的相對位置很快地識別出其最可能的含義，而不用在讀完整個文本后再得出某個詞的含義。通過這樣的處理，AI模型就可以實現(xiàn)對語言模型的并行處理，從而讓其處理效率得到大規(guī)模的提升。所謂的Transformer模型，就是基于以上注意力機制設(shè)計的機器學(xué)習(xí)架構(gòu)。

（3）Sora是怎樣工作的

雖然文生視頻并不同于語言處理，但它們兩者也有很多相似之處。在某種意義上，人們過去采用的文生視頻技術(shù)有一點兒類似早期的語言處理，大致上是從一個畫面出發(fā)，逐步根據(jù)初始的圖去擴(kuò)展后續(xù)的畫面。很顯然，這樣的效率是相當(dāng)有限的。怎么才能對其進(jìn)行改進(jìn)呢？一個現(xiàn)成的思路就是仿照Transformer的思路，將提示詞的文本拆分，從每個詞中去識別出相關(guān)的信息，并根據(jù)這些信息去標(biāo)識出視頻需要的空間和時間信息，即視頻需要在什么時候出現(xiàn)什么樣的圖像。基于這些信息，再調(diào)用擴(kuò)散模型來生成所需要的畫面。在Sora當(dāng)中，采用的就是這個思路。

具體來說，Sora在訓(xùn)練過程中會先用視頻壓縮技術(shù)將大量的視頻材料進(jìn)行壓縮。經(jīng)過這一步操作，龐大的視頻資料就被還原成了一堆矩陣的特征值。盡管它們看起來雜亂無章，但其中卻包含了關(guān)于視頻變化的最重要信息。通過機器學(xué)習(xí)，模型可以將這些特征值與標(biāo)識視頻的文字建立起聯(lián)系。這樣一來，當(dāng)它再看到某一個詞的時候，就會猜出這個詞意味著應(yīng)該在哪個時間點出現(xiàn)怎樣的畫面。在Sora的技術(shù)文檔中，這種標(biāo)識時空信息的快照被稱為“時空補丁”（Spacetimepatches）。在根據(jù)文字生成視頻的過程中，Sora并不和早期的文生視頻模型那樣直接生成視頻，而是先根據(jù)提示詞翻譯成一系列關(guān)于時空的信息。比如，“玫瑰逐步綻放”就可能被其解讀為“在視頻第一幀，出現(xiàn)一朵玫瑰；在下一幀，這朵玫瑰的花瓣長大了一些……”當(dāng)然，這些信息都是由“時空補丁”來表現(xiàn)的。當(dāng)有了這一系列的“時空補丁”后，就相當(dāng)于為有待生成的視頻搭起了框架。隨后，再利用擴(kuò)散模型，就可以在這些時空補丁的提示之下完成每一幀的圖像。而這些圖像加總在一起，就構(gòu)成了完整的視頻。

當(dāng)然，為了保證生成視頻的質(zhì)量，Sora還在訓(xùn)練時對模型進(jìn)行了很多的限制。比如，為了保證視頻不違背物理規(guī)律，它專門植入了相關(guān)的知識圖譜。但大致上，我們可以將Sora理解為擴(kuò)散模型和Transformer結(jié)合的產(chǎn)物。

（4）或許算力才是重要的

通過以上介紹，我們可以看到，至少在原理上，Sora并不復(fù)雜。由于我之前對生成式AI下過一些功夫，所以在閱讀它的技術(shù)報告時，也基本沒有遇到什么困難。

不過，在讀這份報告的過程中，我卻總感覺報告中闡述的技術(shù)原理和之前讀過的某篇論文十分相似。很快，我就在報告的參考文獻(xiàn)中找到了這篇文章，就是OpenAI團(tuán)隊在去年3月發(fā)表的《基于Transformer的可擴(kuò)展擴(kuò)散模型》（ScalableDiffusionModelswithTransformers）。有很多網(wǎng)友也在第一時間發(fā)現(xiàn)了這一點，為此，一些人還將這篇論文的作者之一——謝賽寧，誤認(rèn)為了Sora的主要開發(fā)者之一，最后鬧得謝賽寧本人不得不親自出來辟謠。

在這篇論文中，早已提出了用Transformer架構(gòu)來運行擴(kuò)散模型的思路，即所謂的DiT。從原理上看，這幾乎和Sora技術(shù)報告中公布的信息如出一轍。然而，從這篇論文給出的案例看，當(dāng)時用DiT生成視頻的效率和質(zhì)量都完全無法和今天的Sora相比。那么，問題出在哪兒呢？憑借我個人的知識，實在是百思不得其解。直到幾天之后，我在微信上看到了著名AI科學(xué)家李沐的一段評論，才恍然大悟。

李沐認(rèn)為，Sora和一年前的DiT的關(guān)系，可能就好像GPT-3和GPT-2的關(guān)系。從模型的角度看，GPT-3和GPT-2并沒有本質(zhì)的差別，但不同的是，GPT-3的參數(shù)量要比GPT-2大得多，并且在訓(xùn)練GPT-3的時候，投入的算力也要比訓(xùn)練GPT-2時高出百倍。所謂“大力出奇跡”，很多研究已經(jīng)表明，似乎正是在這種海量算力的投入導(dǎo)致了“涌現(xiàn)”現(xiàn)象的發(fā)生，讓模型的性能出現(xiàn)了質(zhì)的變化。有消息透露，Sora在訓(xùn)練時投入的算力也比之前訓(xùn)練幾個DiT模型時高出了幾百倍。如果這個消息屬實，那么我們就可以猜想，此次Sora表現(xiàn)出的卓越性能其實也是涌現(xiàn)的后果——或許，這就是隱藏在天空背后的秘密。

生成模型還是世界模型？

（1）Sora真的懂它在干什么嗎？

在對Sora模型進(jìn)行了深入分析之后，我們可以得出結(jié)論：雖然Sora的性能確實比之前的模型有了巨大飛躍，但是，這種飛躍并非源自于原理上的變革，而是由巨大算力堆出來的另一個工程奇跡。

事實上，在最初的一輪熱潮退去之后，不少更為中立的分析都表明，先前人們對Sora的革命性評價似乎有些過于高估了。比如，雖然根據(jù)Sora發(fā)布的畫面，它已經(jīng)擁有了一定的因果識別能力，但這種表現(xiàn)似乎更像是來自開發(fā)者對其事先設(shè)定的知識圖譜，而并非來自模型自身能力的改進(jìn)。正是因為這個道理，所以不少用Sora生成的畫面還會出現(xiàn)很多不合邏輯之處。比如，在一個老婦人吹生日蠟燭的視頻中，面對吹過的氣流，蠟燭上的火焰竟絲毫沒有受到影響；而在另外一個投籃的視頻中，籃球竟在穿過籃筐之后發(fā)生了爆炸。很顯然，這些情況在現(xiàn)實中是不可能發(fā)生的。這只能說明Sora模型本身還并沒有能力自行判斷出這些簡單的道理。只要人們沒有人為地植入知識圖譜來進(jìn)行引導(dǎo)，它就可能犯錯誤。如果這些判斷是正確的，那么Sora模型所代表的技術(shù)路徑可能就不那么樂觀。因為在現(xiàn)實中，經(jīng)驗的規(guī)則是無窮無盡的，人們幾乎不可能有能力將所有的規(guī)則都設(shè)定到模型當(dāng)中。

相比于中立的評論，以圖靈獎得主、Meta首席人工智能專家楊立昆（YannLeCun）為代表的一些專家對Sora的批評則更為激烈。在Sora發(fā)布之后，他就在社交媒體上對其進(jìn)行了痛批，并斷言Sora代表的技術(shù)路徑必定失敗。在圈外人士看來，楊立昆的這個批判完全是無理取鬧，甚至多少有點兒有辱斯文。然而，圈內(nèi)人對楊立昆的這個態(tài)度早已是見怪不怪了。從ChatGPT橫空出世開始，他就在多個場合表示GPT模型，甚至更廣義上的生成模型都不會是通向AGI的正確道路，最終注定不能成功。

（2）世界模型

那么，楊立昆眼中的AGI會通過怎樣的技術(shù)路徑實現(xiàn)呢？他給出的答案是“世界模型”（WorldModels）。

所謂“世界模型”，通俗地說，就是一種讓機器能夠像人類一樣對真實世界有全面而準(zhǔn)確的認(rèn)知的模型。這個概念最早來自于德國的人工智能專家于爾根·施密德胡伯（JürgenSchmidhu－ber）。

在闡述“世界模型”的開創(chuàng)性論文中，他用了一副漫畫來對這類模型的基本理念進(jìn)行刻畫。在漫畫中，一個人正在騎車，而在他的腦海中，也在想象著一個騎車的人。事實上，這就是人們在日常生活中的行動方式。正所謂“意動形隨”，我們在做出某個動作（不包括下意識的動作）之前，都會先在腦海中對這個動作進(jìn)行模擬，然后再根據(jù)模擬的后果來行動。顯然，要實現(xiàn)這一切，人們就必須對其所處的世界有相當(dāng)?shù)牧私狻ｎ惐鹊紸I的語境中，這就要求在AI智能體中嵌入關(guān)于外部世界的內(nèi)部模型，并以此來驅(qū)動其行為。

世界模型有何優(yōu)勢呢？

第一，從理論層面看，它才是可以真正做到理解事物的模型。盡管現(xiàn)在的很多大模型在功能上已經(jīng)非常強大，可以在很大程度上模擬世界的運作，但從其運作機制上看，它們并不能真正地“懂”這個世界。雖然它們可以順暢地和用戶進(jìn)行交互，并根據(jù)用戶的要求完成各種任務(wù)，但它們所生成的內(nèi)容本質(zhì)上是基于和問題之間的概率關(guān)聯(lián)產(chǎn)出的。例如，當(dāng)你向ChatGPT說“你好”時，它會禮貌地回敬你一句“你好”，這讓它看起來就像一個有禮貌的老伙計。但從底層程序看，它其實并不懂這個回應(yīng)的含義，只是由于它從先前學(xué)習(xí)的數(shù)據(jù)中發(fā)現(xiàn)，人們在被人問好時會大概率選擇以“你好”作為回應(yīng)。在很多AI研究者看來，想要真正達(dá)到AGI，既需要“知其然”，更需要“知其所以然”。

第二，與生成模型相比，世界模型可以用更小的成本進(jìn)行訓(xùn)練。我們知道，模型的訓(xùn)練是需要耗費大量的資源的，尤其是在訓(xùn)練AI去完成各種任務(wù)時，就需要讓它不斷重復(fù)完成這個任務(wù)。比如，要訓(xùn)練一個文生圖模型，就需要讓它不斷地生成圖片，再對這些圖片的毛病進(jìn)行糾錯；要訓(xùn)練一個能自動打游戲的AI，就需要讓它不斷地打游戲，然后根據(jù)每場的得分狀況進(jìn)行復(fù)盤。但是，這樣的訓(xùn)練都是必須的嗎？對比一下人類的學(xué)習(xí)，就會發(fā)現(xiàn)情況可能并不是這樣。以學(xué)習(xí)寫作為例，我們當(dāng)然需要寫作一定量的文本，但在我們已經(jīng)窺得一定的寫作門徑之后，在多數(shù)時候就未必把文章真的寫出來，而只需要在腦中對文字不斷地進(jìn)行打磨。所謂的“打腹稿”，就是這個意思。容易看到，這種學(xué)習(xí)方式是要比不斷寫成文字要更為經(jīng)濟(jì)和高效的。

在世界模型的倡導(dǎo)者中，類似的過程被冠之以一個更為通俗的名字——“做夢”（dreaming）。當(dāng)一個世界模型通過對樣本數(shù)據(jù)的學(xué)習(xí)，總結(jié)出了一定的規(guī)律性知識后，它就可以拋開樣本，通過“做夢”的方式來進(jìn)行學(xué)習(xí)，從而讓模型的效率得到提升。舉例來說，施密德胡伯就在其論文中訓(xùn)練過一個會打《毀滅戰(zhàn)士》（Doom）游戲的AI智能體。他首先對這個智能體輸入了游戲的相關(guān)規(guī)則，并讓其通過游戲訓(xùn)練建立了一定的游戲經(jīng)驗。這樣，他就讓這個智能體初步建立了關(guān)于游戲世界的認(rèn)識。然后，他讓智能體基于這些知識，通過“做夢”的方式進(jìn)行訓(xùn)練。最終的測試結(jié)果表明，這確實可以讓智能體獲得不錯的游戲表現(xiàn)。更為重要的是，其訓(xùn)練成本和訓(xùn)練時間都要比讓智能體不斷打游戲低得多。

第三，相比于生成模型，世界模型更易于調(diào)試，也可以做更好的外推。為了理解這一點，我們可以考慮一個例子，相信大家小時候畫過畫，比如，我小時候就特別喜歡畫各種昆蟲。然而，當(dāng)我把畫的蟲子拿給大人看時，大人們經(jīng)常會指出，我畫的蟲子的腿的數(shù)目不對——昆蟲的腿有六條，但我有時會畫成八條，有時會畫成十條。在多次被大人指出這個錯誤后，我通過對昆蟲進(jìn)行了大量的觀察，才終于悟出了原來昆蟲的腿應(yīng)該是六條，后來再畫時，就再也沒有畫錯昆蟲的腿數(shù)。現(xiàn)在回想起來，我這個觀察昆蟲、自己總結(jié)規(guī)律，然后將它們畫出來的過程，其實就類似于現(xiàn)在生成式AI的運作過程。雖然這也可以讓我最終總結(jié)出正確的規(guī)律，“生成”出正確的內(nèi)容，但這個過程是非常漫長和低效的。并且，這種基于經(jīng)驗和概率的知識非常容易出錯。比如我在領(lǐng)悟出昆蟲應(yīng)該有六條腿這個道理后，就曾把蜘蛛畫成六條腿。因為在我看來，蜘蛛和昆蟲太像了，既然原來的昆蟲都是六條腿，那么它也應(yīng)該是六條腿。到后來上了學(xué)，學(xué)了生物的分類知識，才知道蜘蛛和昆蟲并不是同類生物這些知識。如果將這個過程用AI的語言表示，那就是因為我已經(jīng)掌握了世界模型，并用它來替代了原本的生成模型。

（3）Meta的世界模型

由于世界模型有上述的諸多優(yōu)點，不少學(xué)者認(rèn)為它才是通往AGI的正確道路。在主張世界模型的學(xué)者中，楊立昆就是最為堅定的代表。在實踐中，他不僅極力對生成模型這種他眼中的“異端”大加批判，而且利用其在Meta的地位大力推動非生成式的世界模型的開發(fā)，并已經(jīng)取得了一定的成就。

比如，在去年6月，楊立昆就帶領(lǐng)其團(tuán)隊發(fā)布了一款名為I-JEPA的圖形生成模型。所謂I-JEPA，是“基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)”（ImageJointEmbeddingPredictiveArchitecture）的簡稱。根據(jù)隨模型發(fā)表的論文，I-JEPA模型放棄了被廣泛采用的生成模型思路，轉(zhuǎn)而用一種類似嬰兒的方式來認(rèn)識和理解世界，并基于這些學(xué)習(xí)到的認(rèn)識來指導(dǎo)內(nèi)容的生成。如前所述，生成模型的機理是將文字和像素之間的特征加以對應(yīng)。舉例說，如果要生成“一只正在曬太陽的大橘貓”，它們就需要先把這段文字進(jìn)行拆解，找到每一個詞最可能對應(yīng)的像素顏色和位置，然后根據(jù)這些信息來拼接出一副圖畫。

然而，對于人來說，想象的過程并不是這樣的。在看到“一只正在曬太陽的大橘貓”這段文字后，人們在腦海里首先浮現(xiàn)的是一只貓的形象，然后在這只貓的身上填上顏色，再調(diào)整其形態(tài)，最終形成對應(yīng)的圖像。類似的，I-JEPA模型在生成圖片時，會根據(jù)它所理解的要求，將每個文字對應(yīng)出一個抽象的形象，比如“貓”對應(yīng)出一個貓的形象，“橘”對應(yīng)出橘色，然后將這些信息組合起來，生成相關(guān)的內(nèi)容。容易看到，相比于生成模型，I-JEPA模型的運作機理其實是更接近人類的，而這也是楊立昆本人最為自豪的。

在I-JEPA發(fā)布之后，楊立昆和Meta團(tuán)隊又進(jìn)一步對視頻生成模型進(jìn)行了研發(fā)。本文開頭提到的V-JEPA模型（它是“基于視頻的聯(lián)合嵌入預(yù)測架構(gòu)”即VideoJointEmbeddingPre－dictiveArchitecture的簡稱）就是其最新結(jié)果。如前所述，客觀上V-JEPA模型的表現(xiàn)也非常不錯。但正所謂“不怕不識貨，就怕貨比貨”，不知道是否是出于巧合，這個模型的發(fā)布時間正好選在了和Sora同一天，而Sora在視頻生成方面的表現(xiàn)顯然要比它更優(yōu)。這款被楊立昆寄予厚望的模型不僅沒有獲得預(yù)想的好評，反而成了被群嘲的對象。

面對人們的嘲諷，這位高傲的圖靈獎得主顯然被激怒了。他在社交平臺X上回應(yīng)道：“我從未預(yù)料到，那么多從未對人工智能或機器學(xué)習(xí)做出任何貢獻(xiàn)的人，其中一些人在達(dá)克效應(yīng)（Dun－ning-Krugereffect，一種認(rèn)知偏差）上已經(jīng)走得很遠(yuǎn)，卻告訴我，我在人工智能和機器學(xué)習(xí)方面是錯誤、愚蠢、盲目、無知、誤導(dǎo)、嫉妒、偏見、脫節(jié)的……”

從這番回應(yīng)可以看出，以楊立昆為代表的世界模型支持者并沒有因當(dāng)前的挫折而放棄自己的主張。恰恰相反，這可能會更加激發(fā)他們的創(chuàng)新動力，沿著他們相信的道路加速前進(jìn)，從而讓這個技術(shù)路線實現(xiàn)更多的突破。

坦然面對“奇點”

在通往AGI的道路上，生成模型和世界模型究竟誰會最終勝出？坦白說，在現(xiàn)在這個階段，我們還很難得出結(jié)論。事實上，在AI發(fā)展史上，已經(jīng)上演了很多次落后技術(shù)路徑的趕超。不過，無論是哪種模型勝出，AGI的到來似乎都已經(jīng)是非常近的事情了。

在2005年出版的《奇點將近》一書中，庫茨維爾（RaymondKurzweil）曾預(yù)言人類將在2045年前后迎來“奇點”，屆時AI的智能將全方位超越人類。而在最近即將出版的一部新書中，他已經(jīng)將這個時間提前到了2029年。從目前技術(shù)發(fā)展的趨勢看，這個預(yù)測似乎還算是比較客觀的。而這對于人類而言，確實不算是一個好消息。

幸運的是，我們還有五年左右的時間。即使“奇點”到來無法避免，至少我們還能利用這段時間來為即將到來的新時代做一些準(zhǔn)備。在這個過程中，我們有很多需要做的，而在這些待辦事宜中，有兩件是特別重要的：

第一件是要重新挖掘人本身的價值。通過前面的技術(shù)拆解，我們已經(jīng)看到，雖然AI模型看似強大，但歸根到底，它們都是由一些十分基本的原理支配的。支配生成式模型的是概率原理；世界模型雖然可以在一定程度上了解規(guī)律，并按照規(guī)律“做夢”，但它的想象空間在本質(zhì)上還是受限于訓(xùn)練數(shù)據(jù)和預(yù)先設(shè)定的規(guī)則。相比之下，人的想象力則要自由得多。可以預(yù)見，當(dāng)人的其他能力被AI趕超后，這種自由的想象力將會變得更為寶貴。當(dāng)然，除了想象力之外，像情感、意志力、決斷力等，也都是AI所不具有的。關(guān)于這些品質(zhì)，我們應(yīng)該更為珍惜。

第二件是要教好AI。無論AI會是以生成模型，還是以世界模型來實現(xiàn)AGI，它們的行為特點都在很大程度上受制于人們對其的輸入。人們給它學(xué)習(xí)怎樣的數(shù)據(jù)，設(shè)定怎樣的規(guī)則，都會最終影響AI的行為。遺憾的是，現(xiàn)在我們看到，很多人出于各種目的，將暴力、種族歧視、極端思想等教給了AI，并在很大程度上帶偏了AI的價值觀。很顯然，這并不是我們愿意看到的。

或許，“奇點”即將到來，但這絕不是人類的結(jié)束，甚至也不是結(jié)束的開始，這只是開始的結(jié)束。我相信，只要我們準(zhǔn)備得當(dāng)，人類必將會在AI的幫助下，迎來一個更美好的新時代。