<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      亚洲的天堂A∨无码视色,尤物久久免费一区二区三区,国产醉酒女邻居在线观看,9AⅤ高清无码免费看大片

      新V觀海外:在Sora的聚光燈之外還應(yīng)提前關(guān)注V-JEPA

      陳沛2024-02-27 13:21

      陳沛/文 過去一年ChatGPT為OpenAI帶來了大量聚光燈關(guān)注,而Meta AI、Google DeepMind等科技大廠的優(yōu)秀AI團隊在追趕推出大語言模型的同時,他們也在多模態(tài)模型、機器人操控等領(lǐng)域持續(xù)發(fā)力,希望開辟人工智能應(yīng)用于真實世界的新戰(zhàn)場。

      就在最近OpenAI發(fā)布Sora模型生成流暢長視頻結(jié)果引發(fā)新一輪熱潮的時候,Meta的AI領(lǐng)軍人物、圖靈獎獲得者Yann LeCun也在同期牽頭發(fā)布了視頻模型V-JEPA的研究論文。不過,由于論文內(nèi)容不像OpenAI展示生成視頻那么直觀,因此沒有在社交媒體上獲得廣泛關(guān)注。

      但是考慮到Meta在多模態(tài)AI領(lǐng)域的長期研究積累,我認為近期推出的V-JEPA模型仍值得關(guān)注。

      V-JEPA是采用Yann LeCun 2022年提出的JEPA架構(gòu)(聯(lián)合嵌入預(yù)測架構(gòu))所推出的視頻(視覺)版本模型,體現(xiàn)了Meta在實現(xiàn)高級機器智能愿景中的不同發(fā)展思路。

      這種不同的發(fā)展思路源自Yann LeCun的學(xué)術(shù)路線選擇。他一直對OpenAI所采用的Transformer架構(gòu)和自回歸方法嗤之以鼻,認為這種方法只是投入了海量的計算資源和人類反饋工作量來訓(xùn)練模型更好地預(yù)測下一個token,但是通過這種訓(xùn)練方式得到的生成式AI并不能理解真實世界。

      而要讓機器理解真實世界,必須讓機器采用人的學(xué)習(xí)方法,自行觀察真實世界的事物運行規(guī)律,在直觀上理解抽象的概念,從而更高效的完成學(xué)習(xí)過程,并逐步演化出制定計劃和完成復(fù)雜任務(wù)的能力。

      回到V-JEPA模型本身,在它的架構(gòu)中并不依賴于常見的圖像編碼器、文本和負樣本或其它監(jiān)督學(xué)習(xí)輸入,而是完全采用自監(jiān)督學(xué)習(xí)來預(yù)測特征目標(biāo)。在訓(xùn)練中,V-JEPA也沒有只是讓模型預(yù)測隨機遮蔽的少量像素,而是直接將輸入圖像的一大半都遮蔽掉,讓模型自行學(xué)習(xí)和預(yù)測遮蔽部分的圖像特征,提升模型的抽象概念理解能力。

      在運作方式上,類似于Meta之前對大語言模型Llama進行開源的做法,Meta這次也提供了V-JEPA的代碼和配置文件下載渠道。

      雖然目前V-JEPA生成的分辨率還達不到Sora或主流AI視頻模型的水平,但是考慮到Meta旗下Facebook、Instagram平臺上具備的海量視頻數(shù)據(jù)資源,預(yù)計Meta將會推動開源V-JEPA快速迭代,加快追趕Sora,回應(yīng)市場對Meta的AI生成視頻應(yīng)用的期待。

      從之前開源Llama到Llama 2語言生成能力快速迭代的過程來看,我預(yù)計再過6個月左右,Meta迭代后的新版開源視頻生成模型,也將成為AI視頻模型市場的主流選擇之一。

      亚洲的天堂A∨无码视色
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>