<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      新V觀海外:OpenAI Sora模型背后的架構(gòu)創(chuàng)新

      陳沛2024-02-18 10:42

      陳沛/文 OpenAI最近介紹了新的AI視頻模型Sora的部分生成視頻示例,引發(fā)了很多關(guān)注。Sora模型直觀上帶來的最大提升是能夠直接生成長達60秒的視頻,且在視頻質(zhì)感和流暢度方面表現(xiàn)的非常出色。

      由于OpenAI的明星效應(yīng),Sora模型一經(jīng)推出便引發(fā)很多用戶競相轉(zhuǎn)發(fā),表示視頻效果驚為天人,視頻制作的相關(guān)工作都會被取代。

      Sora模型的實際生成效果仍是未知數(shù)

      但從我實際使用和觀察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視頻服務(wù)的情況來看,目前AI生成視頻的質(zhì)感往往達不到最初宣傳的效果,還會在物體行進方向、人物四肢等方面出現(xiàn)明顯錯誤,無法滿足實際應(yīng)用的需求。

      而Sora模型目前還處于測試階段,預(yù)計再經(jīng)過一段時間的安全測試和用戶反饋后才會正式提供服務(wù),因此還無法了解Sora模型的實際效果。

      不過,OpenAI也沒有刻意回避Sora模型生成錯誤內(nèi)容的情況。在OpenAI發(fā)布的技術(shù)報告中有一段Sora模型生成的錯誤視頻,展示了桌上的水杯會先從底部流出果汁,然后沿著錯誤的方向和角度倒在桌上。

      Sora模型的背后是2022年剛剛面世的新架構(gòu)

      Sora模型的最大突破是視頻時長。與之前的RunwayML、SVD只能生成4秒左右的視頻片段相比,Sora模型生成的60秒視頻實現(xiàn)了明顯提升。

      Sora模型實現(xiàn)視頻時長突破的主要功臣是它所采用的Diffusion Transformer架構(gòu)。該架構(gòu)由Sora模型的主要作者Bill Peebles在2022年剛剛提出,才在ICCV 2023大會上做過介紹。

      按照Bill Peebles在論文中的說法,他將Transformer結(jié)構(gòu)替代了Diffusion模型中常用的U-Net結(jié)構(gòu),并將圖像輸入轉(zhuǎn)化成了Patch(類似語言模型中輸入的Token),得到了新的Diffusion Transformers架構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定了基礎(chǔ)。

      實際上,不僅Sora模型背后的Diffusion Transformer架構(gòu)才面世不久,就連Sora技術(shù)報告后引用的32篇研究論文中,絕大多數(shù)也都是近3年新發(fā)布的研究結(jié)果。

      研究驅(qū)動和融資驅(qū)動已成為AI發(fā)展的關(guān)鍵要素

      回首2017年Transformer研究論文面世后,2019年就出現(xiàn)了首個GPT模型的發(fā)展成果。而近兩年剛剛提出Diffusion Transformer的研究論文,很快就轉(zhuǎn)化成了Sora模型這樣的突破性產(chǎn)品。

      如今AI領(lǐng)域的重要變化,往往不是來自于某個功能或應(yīng)用層面,而是發(fā)源于底層架構(gòu)的研究創(chuàng)新。研究驅(qū)動正在AI發(fā)展中起到越來越關(guān)鍵的作用。

      另一方面,有了Diffusion Transformer這樣的研究創(chuàng)新后,往往也是在OpenAI這樣資源雄厚的機構(gòu)中才能做的出來。

      在開發(fā)階段,把Diffusion Transformer的研究落地成Sora的產(chǎn)品需要投入大量的預(yù)訓練、數(shù)據(jù)、工程資源。而在Sora服務(wù)正式推出后,運營推理過程中的資源消耗和算力成本也不可小視,融資驅(qū)動也正在成為AI發(fā)展的必要條件。

      從Sora模型這個例子也能看出,要深度理解AI領(lǐng)域的關(guān)鍵動向,如今必須要從研究層面和融資層面進行觀察和跟蹤,從而更好地洞察AI發(fā)展的未來走勢。

      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>