<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      這只是開始的結(jié)束

      陳永偉2024-03-04 14:36

      陳永偉/文

      當(dāng)?shù)貢r間2月15日,美國科技公司OpenAI、Meta和谷歌不約而同地選擇在這一天發(fā)布了自己的新模型(OpenAI的Sora、Meta的V-JEPA、谷歌的GeminiPro1.5),這讓本已高度“內(nèi)卷”的AI市場的競爭達(dá)到了白熱化的程度。

      三款模型中,Sora可以根據(jù)文本生成遠(yuǎn)比過去同類產(chǎn)品驚艷的視頻;V-JEPA雖然在視頻生成上的表現(xiàn)略遜于Sora,但卻號稱應(yīng)用了非生成式的世界模型;而GeminiPro1.5作為一個多模態(tài)模型,其支持的上下文竟達(dá)到了驚人的1000萬token(計算機運行中,文本處理的最小單位)。在如此集中的時間,AI技術(shù)竟然在三個不同的方向上取得了如此巨大的突破,實在令人驚嘆。

      在驚嘆之余,一些老生常談的問題又再次出現(xiàn)在了各大媒體。比如:這一場AI大戰(zhàn)的終局會是如何?AI能力的突飛猛進(jìn),是否意味著“通用人工智能”(Artificial General Inteligence,簡稱A-GI)已經(jīng)近在咫尺?在AGI到來之后,人類的命運又會走向何方?

      這些問題十分重要,但是,如果我們對這些問題的討論僅僅只是基于科幻式的想象,那么討論本身也就會最終淪為空談。相比之下,一種更為科學(xué)的討論方式或許是:在思考這些新模型會帶來什么影響之前,先從技術(shù)的角度弄清楚,這些模型究竟意味著什么。下面,我們就從這個理念出發(fā),開始我們的探究之旅。

      天空背后的秘密

      盡管Sora、V-JEPA和GeminiPro1.5都十分亮眼,但從原創(chuàng)性角度看,前兩款模型的重要性似乎是更為突出的,因為它們幾乎可以被視為是通向AGI的兩種主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5雖然也非常出色,但它本質(zhì)上是其前作GeminiPro的升級,其突破性要稍遜一些。因此,如果要討論新模型的影響,我們不妨將重點放在Sora和V-JEPA上。

      那么,讓我們先從外界關(guān)注度最高的Sora開始吧。從OpenAI公布的視頻上看,這款以日文“天空”(空,そら)命名的模型表現(xiàn)確實非常突出:過去,文生視頻模型通常只能生成幾秒的視頻,而Sora生成的視頻則長達(dá)一分鐘。不僅如此,它還可以在一定程度上呈現(xiàn)出因果關(guān)系和物理規(guī)律。比如,在一個視頻中,畫師下筆之后,紙上就出現(xiàn)了朵朵桃花;在另一個視頻中,隨著食客的一口咬下,原先完整的漢堡就缺了一角。對于類似的這些物體互相作用后改變形狀的現(xiàn)象,過去的文生視頻模型很難生成,而Sora卻很好地實現(xiàn)了這一點。

      出于維護(hù)其商業(yè)秘密的考慮,Ope-nAI在發(fā)布ChatGPT之后,就不再公布其產(chǎn)品的相關(guān)論文,這讓完全破解Sora的秘密幾乎成了不可能。好在OpenAI為Sora附上了一份簡要的技術(shù)報告,對于了解技術(shù)概況,這份報告其實已經(jīng)足夠了。

      按照報告,Sora在原理上可以被概括為“擴(kuò)散模型+Transformer架構(gòu)”的應(yīng)用。

      (1)擴(kuò)散模型

      說到擴(kuò)散模型,相信很多人對這個詞并不陌生。雖然這個模型的詳細(xì)原理必須用數(shù)學(xué)公式才能說明,但簡單來說,它可以被理解為一個降噪生成的過程。

      喜歡看電視的讀者想必都會有這樣的經(jīng)驗:當(dāng)電視信號遇到干擾時,原本的電視畫面上就會出現(xiàn)一層不規(guī)則的雪花點。干擾信號越強,雪花點就越濃密。當(dāng)干擾強到一定的程度,屏幕上就會只剩下雪花點。用數(shù)學(xué)的語言講,這種在原本的圖像上加入雪花點的過程就是“加噪”。

      一開始,這種滿是雪花點的畫面會讓人非常不適應(yīng)。但只要看得多了,干擾的影響就會越來越小。即使電視屏幕上遍布雪花,人們也可以通過像素的運動,配合畫外的聲音,自動“腦補”出一幅幅清晰的畫面。這樣,他們的腦中就完成了一個“降噪”的過程。

      為什么人腦可以開發(fā)出這樣的“腦補”功能呢?歸根到底,這還是一個訓(xùn)練的過程。當(dāng)信號干擾不嚴(yán)重的時候,圖形上的雪花并不多,這時人們可以很容易地結(jié)合先前的觀看經(jīng)驗,聯(lián)想出清晰的畫面是什么樣的。當(dāng)人們對輕微干擾習(xí)以為常后,就可以進(jìn)一步去適應(yīng)更為嚴(yán)重的干擾——在腦中,他們可以先把被重度干擾的畫面還原為輕度干擾,再將其還原為清晰畫面。這樣,只要觀看經(jīng)驗足夠,人們就可以在腦中訓(xùn)練出自動還原雪花點的功能。需要指出的是,在還原的過程中,額外信息的提示很重要。比如,面對一團(tuán)模糊的雪花點,如果配上《敢問路在何方》,人們就很容易“腦補”出唐僧師徒四人跋山涉水的圖像;而如果配上鋼琴曲《TomandJer-ry》,他們“腦補”出的就可能是貓在追逐老鼠的場景。

      上面這種從雪花點中“腦補”出圖像的做法,我們也可以用AI來實現(xiàn)。具體來說,人們可以將大批的圖片“投喂”給AI模型,然后再將這些圖片“加噪”。機器通過將加噪前后的圖片進(jìn)行對比,就可以訓(xùn)練出從帶噪的圖片中還原出清晰圖片的功能。當(dāng)然,AI不可能完美復(fù)現(xiàn)出原圖,只能根據(jù)它從樣本中學(xué)習(xí)到的經(jīng)驗來盡可能對干擾進(jìn)行修補。這時,它就已經(jīng)在一定程度上具有了創(chuàng)作的能力。人們可以在此基礎(chǔ)上不斷加入更多的干擾,讓模型從干擾中還原出圖像的能力變得越來越強。最終,他們就可以得到一個能在完全由無規(guī)則雪花圖上還原出圖像的模型。由于還原的起點是徹底隨機的,所以所謂的“還原”就變成了一種徹底的創(chuàng)作。要讓AI明確應(yīng)該往什么方向還原,就需要告訴它一定的提示詞(prompt)。其道理就好像我們要從遍布雪花點的電視中“腦補”圖像,需要有畫外音的幫助一樣。

      上述這個降噪還原的過程,就是擴(kuò)散模型的基本原理。隨著生成式AI的火爆,它已經(jīng)得到了十分廣泛的應(yīng)用。像MidJourney、StableDiffusion等文生圖模型,Runway、Pika等文生視頻模型,本質(zhì)上都是擴(kuò)散模型的應(yīng)用。

      在Sora之前,雖然已經(jīng)有了不少基于擴(kuò)散模型的文生視頻的模型,但這些模型生成的視頻時間都很短,呈現(xiàn)角度也比較單一。之所以會出現(xiàn)這樣的問題,很大程度上是由于其訓(xùn)練數(shù)據(jù)導(dǎo)致的。受算力等因素的限制,目前用來訓(xùn)練文生視頻的數(shù)據(jù)主要是一些時長較短的視頻,這就導(dǎo)致了由此訓(xùn)練出的模型只能根據(jù)這些短小的視頻來進(jìn)行外推,其“腦補”能力也就受到了很大的限制。如果要生成長視頻,就需要額外采用計算量巨大且速度緩慢的滑動窗口方法,從經(jīng)濟(jì)角度看,這是得不償失的。

      那么,Sora又是如何克服這些困難的呢?其奧秘就在于它很好地將Transformer和擴(kuò)散模型結(jié)合了起來。

      (2)Transformer架構(gòu)

      得益于GPT模型的火爆,作為其基礎(chǔ)架構(gòu)的Transformer的大名也早已被人們熟知。對于語言模型而言,Transformer是具有革命性的。過去,語言模型一直面臨著一個很大的困難,即所謂的“長期記憶難題”。我們知道,一句話究竟是什么意思很大程度上取決于其上下文。比如,當(dāng)某人說“我想買512G的蘋果”時,他究竟是想要買一個內(nèi)存為512G的蘋果手機,還是想買512克的蘋果,就需要看這句話出現(xiàn)在什么語境之中。因而,至少在理論上,要理解一句話是什么意思,就需要對其所在的整個文本進(jìn)行解讀。對于計算機來說,這是非常麻煩的。因為這意味著在處理文本時,只能用一種串行的方式來逐字進(jìn)行解讀,而難以采用并行的處理辦法,處理的效率會被鎖死在一定的水平。

      如何才能打破這個瓶頸呢?一個思路是將句子拆分成一個個的詞,分別識別出它們的含義。在完成了這些工作后,再將各詞的意思整合起來,就可以得到這個句子的意思。但是,怎樣才能保證對詞的含義識別精準(zhǔn)呢?那就要看一下它的相對位置。一般來說,距離一個詞很近的幾個詞對其含義的影響是最大的。比如,如果在“蘋果”這個詞的附近,出現(xiàn)了“手機”、“芯片”等詞,那么它多半就是指手機;而如果在它的附近,出現(xiàn)了“果汁”、“榨汁機”等詞,那么它指的就多半是水果。對于一個特定的詞,臨近詞對它的影響大小是不一的。比如,其前一個詞對其含義的影響權(quán)重為0.5,其后一個詞對其含義的影響為0.3。在AI中,這個權(quán)重就叫做“注意力”(attention)。通過對大樣本數(shù)據(jù)的學(xué)習(xí),AI模型可以對每一個詞都給出一個完整的“注意力”表格。這樣,當(dāng)它再面對一個詞的時候,就可以根據(jù)其在語段中與其他詞的相對位置很快地識別出其最可能的含義,而不用在讀完整個文本后再得出某個詞的含義。通過這樣的處理,AI模型就可以實現(xiàn)對語言模型的并行處理,從而讓其處理效率得到大規(guī)模的提升。所謂的Transformer模型,就是基于以上注意力機制設(shè)計的機器學(xué)習(xí)架構(gòu)。

      (3)Sora是怎樣工作的

      雖然文生視頻并不同于語言處理,但它們兩者也有很多相似之處。在某種意義上,人們過去采用的文生視頻技術(shù)有一點兒類似早期的語言處理,大致上是從一個畫面出發(fā),逐步根據(jù)初始的圖去擴(kuò)展后續(xù)的畫面。很顯然,這樣的效率是相當(dāng)有限的。怎么才能對其進(jìn)行改進(jìn)呢?一個現(xiàn)成的思路就是仿照Transformer的思路,將提示詞的文本拆分,從每個詞中去識別出相關(guān)的信息,并根據(jù)這些信息去標(biāo)識出視頻需要的空間和時間信息,即視頻需要在什么時候出現(xiàn)什么樣的圖像。基于這些信息,再調(diào)用擴(kuò)散模型來生成所需要的畫面。在Sora當(dāng)中,采用的就是這個思路。

      具體來說,Sora在訓(xùn)練過程中會先用視頻壓縮技術(shù)將大量的視頻材料進(jìn)行壓縮。經(jīng)過這一步操作,龐大的視頻資料就被還原成了一堆矩陣的特征值。盡管它們看起來雜亂無章,但其中卻包含了關(guān)于視頻變化的最重要信息。通過機器學(xué)習(xí),模型可以將這些特征值與標(biāo)識視頻的文字建立起聯(lián)系。這樣一來,當(dāng)它再看到某一個詞的時候,就會猜出這個詞意味著應(yīng)該在哪個時間點出現(xiàn)怎樣的畫面。在Sora的技術(shù)文檔中,這種標(biāo)識時空信息的快照被稱為“時空補丁”(Spacetimepatches)。在根據(jù)文字生成視頻的過程中,Sora并不和早期的文生視頻模型那樣直接生成視頻,而是先根據(jù)提示詞翻譯成一系列關(guān)于時空的信息。比如,“玫瑰逐步綻放”就可能被其解讀為“在視頻第一幀,出現(xiàn)一朵玫瑰;在下一幀,這朵玫瑰的花瓣長大了一些……”當(dāng)然,這些信息都是由“時空補丁”來表現(xiàn)的。當(dāng)有了這一系列的“時空補丁”后,就相當(dāng)于為有待生成的視頻搭起了框架。隨后,再利用擴(kuò)散模型,就可以在這些時空補丁的提示之下完成每一幀的圖像。而這些圖像加總在一起,就構(gòu)成了完整的視頻。

      當(dāng)然,為了保證生成視頻的質(zhì)量,Sora還在訓(xùn)練時對模型進(jìn)行了很多的限制。比如,為了保證視頻不違背物理規(guī)律,它專門植入了相關(guān)的知識圖譜。但大致上,我們可以將Sora理解為擴(kuò)散模型和Transformer結(jié)合的產(chǎn)物。

      (4)或許算力才是重要的

      通過以上介紹,我們可以看到,至少在原理上,Sora并不復(fù)雜。由于我之前對生成式AI下過一些功夫,所以在閱讀它的技術(shù)報告時,也基本沒有遇到什么困難。

      不過,在讀這份報告的過程中,我卻總感覺報告中闡述的技術(shù)原理和之前讀過的某篇論文十分相似。很快,我就在報告的參考文獻(xiàn)中找到了這篇文章,就是OpenAI團(tuán)隊在去年3月發(fā)表的《基于Transformer的可擴(kuò)展擴(kuò)散模型》(ScalableDiffusionModelswithTransformers)。有很多網(wǎng)友也在第一時間發(fā)現(xiàn)了這一點,為此,一些人還將這篇論文的作者之一——謝賽寧,誤認(rèn)為了Sora的主要開發(fā)者之一,最后鬧得謝賽寧本人不得不親自出來辟謠。

      在這篇論文中,早已提出了用Transformer架構(gòu)來運行擴(kuò)散模型的思路,即所謂的DiT。從原理上看,這幾乎和Sora技術(shù)報告中公布的信息如出一轍。然而,從這篇論文給出的案例看,當(dāng)時用DiT生成視頻的效率和質(zhì)量都完全無法和今天的Sora相比。那么,問題出在哪兒呢?憑借我個人的知識,實在是百思不得其解。直到幾天之后,我在微信上看到了著名AI科學(xué)家李沐的一段評論,才恍然大悟。

      李沐認(rèn)為,Sora和一年前的DiT的關(guān)系,可能就好像GPT-3和GPT-2的關(guān)系。從模型的角度看,GPT-3和GPT-2并沒有本質(zhì)的差別,但不同的是,GPT-3的參數(shù)量要比GPT-2大得多,并且在訓(xùn)練GPT-3的時候,投入的算力也要比訓(xùn)練GPT-2時高出百倍。所謂“大力出奇跡”,很多研究已經(jīng)表明,似乎正是在這種海量算力的投入導(dǎo)致了“涌現(xiàn)”現(xiàn)象的發(fā)生,讓模型的性能出現(xiàn)了質(zhì)的變化。有消息透露,Sora在訓(xùn)練時投入的算力也比之前訓(xùn)練幾個DiT模型時高出了幾百倍。如果這個消息屬實,那么我們就可以猜想,此次Sora表現(xiàn)出的卓越性能其實也是涌現(xiàn)的后果——或許,這就是隱藏在天空背后的秘密。

      生成模型還是世界模型?

      (1)Sora真的懂它在干什么嗎?

      在對Sora模型進(jìn)行了深入分析之后,我們可以得出結(jié)論:雖然Sora的性能確實比之前的模型有了巨大飛躍,但是,這種飛躍并非源自于原理上的變革,而是由巨大算力堆出來的另一個工程奇跡。

      事實上,在最初的一輪熱潮退去之后,不少更為中立的分析都表明,先前人們對Sora的革命性評價似乎有些過于高估了。比如,雖然根據(jù)Sora發(fā)布的畫面,它已經(jīng)擁有了一定的因果識別能力,但這種表現(xiàn)似乎更像是來自開發(fā)者對其事先設(shè)定的知識圖譜,而并非來自模型自身能力的改進(jìn)。正是因為這個道理,所以不少用Sora生成的畫面還會出現(xiàn)很多不合邏輯之處。比如,在一個老婦人吹生日蠟燭的視頻中,面對吹過的氣流,蠟燭上的火焰竟絲毫沒有受到影響;而在另外一個投籃的視頻中,籃球竟在穿過籃筐之后發(fā)生了爆炸。很顯然,這些情況在現(xiàn)實中是不可能發(fā)生的。這只能說明Sora模型本身還并沒有能力自行判斷出這些簡單的道理。只要人們沒有人為地植入知識圖譜來進(jìn)行引導(dǎo),它就可能犯錯誤。如果這些判斷是正確的,那么Sora模型所代表的技術(shù)路徑可能就不那么樂觀。因為在現(xiàn)實中,經(jīng)驗的規(guī)則是無窮無盡的,人們幾乎不可能有能力將所有的規(guī)則都設(shè)定到模型當(dāng)中。

      相比于中立的評論,以圖靈獎得主、Meta首席人工智能專家楊立昆(YannLeCun)為代表的一些專家對Sora的批評則更為激烈。在Sora發(fā)布之后,他就在社交媒體上對其進(jìn)行了痛批,并斷言Sora代表的技術(shù)路徑必定失敗。在圈外人士看來,楊立昆的這個批判完全是無理取鬧,甚至多少有點兒有辱斯文。然而,圈內(nèi)人對楊立昆的這個態(tài)度早已是見怪不怪了。從ChatGPT橫空出世開始,他就在多個場合表示GPT模型,甚至更廣義上的生成模型都不會是通向AGI的正確道路,最終注定不能成功。

      (2)世界模型

      那么,楊立昆眼中的AGI會通過怎樣的技術(shù)路徑實現(xiàn)呢?他給出的答案是“世界模型”(WorldModels)。

      所謂“世界模型”,通俗地說,就是一種讓機器能夠像人類一樣對真實世界有全面而準(zhǔn)確的認(rèn)知的模型。這個概念最早來自于德國的人工智能專家于爾根·施密德胡伯(JürgenSchmidhu-ber)。

      在闡述“世界模型”的開創(chuàng)性論文中,他用了一副漫畫來對這類模型的基本理念進(jìn)行刻畫。在漫畫中,一個人正在騎車,而在他的腦海中,也在想象著一個騎車的人。事實上,這就是人們在日常生活中的行動方式。正所謂“意動形隨”,我們在做出某個動作(不包括下意識的動作)之前,都會先在腦海中對這個動作進(jìn)行模擬,然后再根據(jù)模擬的后果來行動。顯然,要實現(xiàn)這一切,人們就必須對其所處的世界有相當(dāng)?shù)牧私狻n惐鹊紸I的語境中,這就要求在AI智能體中嵌入關(guān)于外部世界的內(nèi)部模型,并以此來驅(qū)動其行為。

      世界模型有何優(yōu)勢呢?

      第一,從理論層面看,它才是可以真正做到理解事物的模型。盡管現(xiàn)在的很多大模型在功能上已經(jīng)非常強大,可以在很大程度上模擬世界的運作,但從其運作機制上看,它們并不能真正地“懂”這個世界。雖然它們可以順暢地和用戶進(jìn)行交互,并根據(jù)用戶的要求完成各種任務(wù),但它們所生成的內(nèi)容本質(zhì)上是基于和問題之間的概率關(guān)聯(lián)產(chǎn)出的。例如,當(dāng)你向ChatGPT說“你好”時,它會禮貌地回敬你一句“你好”,這讓它看起來就像一個有禮貌的老伙計。但從底層程序看,它其實并不懂這個回應(yīng)的含義,只是由于它從先前學(xué)習(xí)的數(shù)據(jù)中發(fā)現(xiàn),人們在被人問好時會大概率選擇以“你好”作為回應(yīng)。在很多AI研究者看來,想要真正達(dá)到AGI,既需要“知其然”,更需要“知其所以然”。

      第二,與生成模型相比,世界模型可以用更小的成本進(jìn)行訓(xùn)練。我們知道,模型的訓(xùn)練是需要耗費大量的資源的,尤其是在訓(xùn)練AI去完成各種任務(wù)時,就需要讓它不斷重復(fù)完成這個任務(wù)。比如,要訓(xùn)練一個文生圖模型,就需要讓它不斷地生成圖片,再對這些圖片的毛病進(jìn)行糾錯;要訓(xùn)練一個能自動打游戲的AI,就需要讓它不斷地打游戲,然后根據(jù)每場的得分狀況進(jìn)行復(fù)盤。但是,這樣的訓(xùn)練都是必須的嗎?對比一下人類的學(xué)習(xí),就會發(fā)現(xiàn)情況可能并不是這樣。以學(xué)習(xí)寫作為例,我們當(dāng)然需要寫作一定量的文本,但在我們已經(jīng)窺得一定的寫作門徑之后,在多數(shù)時候就未必把文章真的寫出來,而只需要在腦中對文字不斷地進(jìn)行打磨。所謂的“打腹稿”,就是這個意思。容易看到,這種學(xué)習(xí)方式是要比不斷寫成文字要更為經(jīng)濟(jì)和高效的。

      在世界模型的倡導(dǎo)者中,類似的過程被冠之以一個更為通俗的名字——“做夢”(dreaming)。當(dāng)一個世界模型通過對樣本數(shù)據(jù)的學(xué)習(xí),總結(jié)出了一定的規(guī)律性知識后,它就可以拋開樣本,通過“做夢”的方式來進(jìn)行學(xué)習(xí),從而讓模型的效率得到提升。舉例來說,施密德胡伯就在其論文中訓(xùn)練過一個會打《毀滅戰(zhàn)士》(Doom)游戲的AI智能體。他首先對這個智能體輸入了游戲的相關(guān)規(guī)則,并讓其通過游戲訓(xùn)練建立了一定的游戲經(jīng)驗。這樣,他就讓這個智能體初步建立了關(guān)于游戲世界的認(rèn)識。然后,他讓智能體基于這些知識,通過“做夢”的方式進(jìn)行訓(xùn)練。最終的測試結(jié)果表明,這確實可以讓智能體獲得不錯的游戲表現(xiàn)。更為重要的是,其訓(xùn)練成本和訓(xùn)練時間都要比讓智能體不斷打游戲低得多。

      第三,相比于生成模型,世界模型更易于調(diào)試,也可以做更好的外推。為了理解這一點,我們可以考慮一個例子,相信大家小時候畫過畫,比如,我小時候就特別喜歡畫各種昆蟲。然而,當(dāng)我把畫的蟲子拿給大人看時,大人們經(jīng)常會指出,我畫的蟲子的腿的數(shù)目不對——昆蟲的腿有六條,但我有時會畫成八條,有時會畫成十條。在多次被大人指出這個錯誤后,我通過對昆蟲進(jìn)行了大量的觀察,才終于悟出了原來昆蟲的腿應(yīng)該是六條,后來再畫時,就再也沒有畫錯昆蟲的腿數(shù)。現(xiàn)在回想起來,我這個觀察昆蟲、自己總結(jié)規(guī)律,然后將它們畫出來的過程,其實就類似于現(xiàn)在生成式AI的運作過程。雖然這也可以讓我最終總結(jié)出正確的規(guī)律,“生成”出正確的內(nèi)容,但這個過程是非常漫長和低效的。并且,這種基于經(jīng)驗和概率的知識非常容易出錯。比如我在領(lǐng)悟出昆蟲應(yīng)該有六條腿這個道理后,就曾把蜘蛛畫成六條腿。因為在我看來,蜘蛛和昆蟲太像了,既然原來的昆蟲都是六條腿,那么它也應(yīng)該是六條腿。到后來上了學(xué),學(xué)了生物的分類知識,才知道蜘蛛和昆蟲并不是同類生物這些知識。如果將這個過程用AI的語言表示,那就是因為我已經(jīng)掌握了世界模型,并用它來替代了原本的生成模型。

      (3)Meta的世界模型

      由于世界模型有上述的諸多優(yōu)點,不少學(xué)者認(rèn)為它才是通往AGI的正確道路。在主張世界模型的學(xué)者中,楊立昆就是最為堅定的代表。在實踐中,他不僅極力對生成模型這種他眼中的“異端”大加批判,而且利用其在Meta的地位大力推動非生成式的世界模型的開發(fā),并已經(jīng)取得了一定的成就。

      比如,在去年6月,楊立昆就帶領(lǐng)其團(tuán)隊發(fā)布了一款名為I-JEPA的圖形生成模型。所謂I-JEPA,是“基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)”(ImageJointEmbeddingPredictiveArchitecture)的簡稱。根據(jù)隨模型發(fā)表的論文,I-JEPA模型放棄了被廣泛采用的生成模型思路,轉(zhuǎn)而用一種類似嬰兒的方式來認(rèn)識和理解世界,并基于這些學(xué)習(xí)到的認(rèn)識來指導(dǎo)內(nèi)容的生成。如前所述,生成模型的機理是將文字和像素之間的特征加以對應(yīng)。舉例說,如果要生成“一只正在曬太陽的大橘貓”,它們就需要先把這段文字進(jìn)行拆解,找到每一個詞最可能對應(yīng)的像素顏色和位置,然后根據(jù)這些信息來拼接出一副圖畫。

      然而,對于人來說,想象的過程并不是這樣的。在看到“一只正在曬太陽的大橘貓”這段文字后,人們在腦海里首先浮現(xiàn)的是一只貓的形象,然后在這只貓的身上填上顏色,再調(diào)整其形態(tài),最終形成對應(yīng)的圖像。類似的,I-JEPA模型在生成圖片時,會根據(jù)它所理解的要求,將每個文字對應(yīng)出一個抽象的形象,比如“貓”對應(yīng)出一個貓的形象,“橘”對應(yīng)出橘色,然后將這些信息組合起來,生成相關(guān)的內(nèi)容。容易看到,相比于生成模型,I-JEPA模型的運作機理其實是更接近人類的,而這也是楊立昆本人最為自豪的。

      在I-JEPA發(fā)布之后,楊立昆和Meta團(tuán)隊又進(jìn)一步對視頻生成模型進(jìn)行了研發(fā)。本文開頭提到的V-JEPA模型(它是“基于視頻的聯(lián)合嵌入預(yù)測架構(gòu)”即VideoJointEmbeddingPre-dictiveArchitecture的簡稱)就是其最新結(jié)果。如前所述,客觀上V-JEPA模型的表現(xiàn)也非常不錯。但正所謂“不怕不識貨,就怕貨比貨”,不知道是否是出于巧合,這個模型的發(fā)布時間正好選在了和Sora同一天,而Sora在視頻生成方面的表現(xiàn)顯然要比它更優(yōu)。這款被楊立昆寄予厚望的模型不僅沒有獲得預(yù)想的好評,反而成了被群嘲的對象。

      面對人們的嘲諷,這位高傲的圖靈獎得主顯然被激怒了。他在社交平臺X上回應(yīng)道:“我從未預(yù)料到,那么多從未對人工智能或機器學(xué)習(xí)做出任何貢獻(xiàn)的人,其中一些人在達(dá)克效應(yīng)(Dun-ning-Krugereffect,一種認(rèn)知偏差)上已經(jīng)走得很遠(yuǎn),卻告訴我,我在人工智能和機器學(xué)習(xí)方面是錯誤、愚蠢、盲目、無知、誤導(dǎo)、嫉妒、偏見、脫節(jié)的……”

      從這番回應(yīng)可以看出,以楊立昆為代表的世界模型支持者并沒有因當(dāng)前的挫折而放棄自己的主張。恰恰相反,這可能會更加激發(fā)他們的創(chuàng)新動力,沿著他們相信的道路加速前進(jìn),從而讓這個技術(shù)路線實現(xiàn)更多的突破。

      坦然面對“奇點”

      在通往AGI的道路上,生成模型和世界模型究竟誰會最終勝出?坦白說,在現(xiàn)在這個階段,我們還很難得出結(jié)論。事實上,在AI發(fā)展史上,已經(jīng)上演了很多次落后技術(shù)路徑的趕超。不過,無論是哪種模型勝出,AGI的到來似乎都已經(jīng)是非常近的事情了。

      在2005年出版的《奇點將近》一書中,庫茨維爾(RaymondKurzweil)曾預(yù)言人類將在2045年前后迎來“奇點”,屆時AI的智能將全方位超越人類。而在最近即將出版的一部新書中,他已經(jīng)將這個時間提前到了2029年。從目前技術(shù)發(fā)展的趨勢看,這個預(yù)測似乎還算是比較客觀的。而這對于人類而言,確實不算是一個好消息。

      幸運的是,我們還有五年左右的時間。即使“奇點”到來無法避免,至少我們還能利用這段時間來為即將到來的新時代做一些準(zhǔn)備。在這個過程中,我們有很多需要做的,而在這些待辦事宜中,有兩件是特別重要的:

      第一件是要重新挖掘人本身的價值。通過前面的技術(shù)拆解,我們已經(jīng)看到,雖然AI模型看似強大,但歸根到底,它們都是由一些十分基本的原理支配的。支配生成式模型的是概率原理;世界模型雖然可以在一定程度上了解規(guī)律,并按照規(guī)律“做夢”,但它的想象空間在本質(zhì)上還是受限于訓(xùn)練數(shù)據(jù)和預(yù)先設(shè)定的規(guī)則。相比之下,人的想象力則要自由得多。可以預(yù)見,當(dāng)人的其他能力被AI趕超后,這種自由的想象力將會變得更為寶貴。當(dāng)然,除了想象力之外,像情感、意志力、決斷力等,也都是AI所不具有的。關(guān)于這些品質(zhì),我們應(yīng)該更為珍惜。

      第二件是要教好AI。無論AI會是以生成模型,還是以世界模型來實現(xiàn)AGI,它們的行為特點都在很大程度上受制于人們對其的輸入。人們給它學(xué)習(xí)怎樣的數(shù)據(jù),設(shè)定怎樣的規(guī)則,都會最終影響AI的行為。遺憾的是,現(xiàn)在我們看到,很多人出于各種目的,將暴力、種族歧視、極端思想等教給了AI,并在很大程度上帶偏了AI的價值觀。很顯然,這并不是我們愿意看到的。

      或許,“奇點”即將到來,但這絕不是人類的結(jié)束,甚至也不是結(jié)束的開始,這只是開始的結(jié)束。我相信,只要我們準(zhǔn)備得當(dāng),人類必將會在AI的幫助下,迎來一個更美好的新時代。

       

      熱新聞

      電子刊物

      點擊進(jìn)入
      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>