<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      新V觀海外:模態(tài)融合正成為前沿AI發(fā)展新風(fēng)向

      陳沛2024-05-24 10:23

      陳沛/文 OpenAI在2024年春季發(fā)布會(huì)上展示了GPT-4o的多語(yǔ)音輸入和實(shí)時(shí)視覺交互效果,令人印象深刻。在春季發(fā)布會(huì)后,OpenAI正抓緊在ChatGPT中推出GPT-4o語(yǔ)音模式Alpha預(yù)覽版,新版GPT-4o模型背后的模態(tài)融合已成為AI發(fā)展前沿,各家機(jī)構(gòu)正力爭(zhēng)實(shí)現(xiàn)突破。

      GPT-4o模型背后的模態(tài)融合訓(xùn)練變化

      按照OpenAI官方解釋,之前使用GPT-4的語(yǔ)音模式輸出之所以會(huì)產(chǎn)生數(shù)秒延遲,是因?yàn)檎麄€(gè)過程需要經(jīng)歷將輸入語(yǔ)音轉(zhuǎn)換成文本、GPT-4模型處理并輸出文本、將生成文本轉(zhuǎn)換成語(yǔ)音并輸出等三個(gè)步驟。

      這么多步驟不僅會(huì)導(dǎo)致延遲,還失去了很多上下文信息,例如識(shí)別說話者語(yǔ)氣、分析多語(yǔ)音輸入、消除背景噪聲等。而且,模型也難以輸出帶有自然語(yǔ)氣的聲音。

      而新版GPT-4o則是將文本、聲音、視覺等多模態(tài)數(shù)據(jù)融合,端到端重新訓(xùn)練了一個(gè)新模型,直接使用語(yǔ)音轉(zhuǎn)語(yǔ)音的方式來實(shí)現(xiàn)實(shí)時(shí)對(duì)話。

      Meta緊跟發(fā)布混合模態(tài)早期融合基礎(chǔ)模型

      或許是看到GPT-4o模態(tài)融合效果大受歡迎,Meta隨后不久便發(fā)布了Chameleon模型的研究論文,聲稱是在統(tǒng)一模型架構(gòu)上對(duì)文本、圖像等多模態(tài)的數(shù)據(jù)進(jìn)行了早期融合訓(xùn)練。

      Meta專門強(qiáng)調(diào)了早期融合,表明這個(gè)Chameleon模型是在早期訓(xùn)練階段就將文本、圖像、代碼等多模態(tài)數(shù)據(jù)進(jìn)行了統(tǒng)一轉(zhuǎn)換,各種模態(tài)都被映射到一個(gè)共享的表征空間。

      可以看出,這種融合模態(tài)的訓(xùn)練方法與GPT-4o類似,都是使用統(tǒng)一模型架構(gòu)從頭開始端到端訓(xùn)練,從而實(shí)現(xiàn)融合模態(tài)的無縫處理、生成以及推理。

      更高層面的研究也印證了模態(tài)融合方向

      長(zhǎng)期研究AI前沿方向的前OpenAI首席科學(xué)家Ilya Sutskever最近也有新的關(guān)注。當(dāng)年正是他識(shí)別出了注意力機(jī)制和Transformer研究論文在大語(yǔ)言模型上的應(yīng)用潛力,此后一步步打造出GPT系列模型。

      不過他自去年底OpenAI董事會(huì)動(dòng)蕩事件后再無發(fā)聲,并在春季發(fā)布會(huì)后官宣離開了OpenAI。隨后離開的還有他所在的超級(jí)對(duì)齊團(tuán)隊(duì)聯(lián)合負(fù)責(zé)人和相關(guān)成員。

      就在Ilya官宣離開OpenAI后,他首個(gè)公開點(diǎn)贊的研究論文立即引發(fā)業(yè)內(nèi)關(guān)注。這篇研究論文是MIT提出的《柏拉圖式表征假說》,核心思想是跨模態(tài)神經(jīng)網(wǎng)絡(luò)模型在處理不同模態(tài)數(shù)據(jù)和任務(wù)時(shí),表征方式正在趨向于收斂,而且能在現(xiàn)有的語(yǔ)言模型和視覺模型上得到驗(yàn)證。因此,未來可能出現(xiàn)類似柏拉圖理想現(xiàn)實(shí)的一個(gè)共享統(tǒng)計(jì)模型。

      這就表明,今天的大語(yǔ)言模型、文生圖模型、文生視頻模型等處理某些模態(tài)的模型,都只是在現(xiàn)實(shí)世界的表征空間中找到了局部更優(yōu)解。而要找到未來統(tǒng)一模型的全局最優(yōu)解,或許需要的是融合模態(tài)模型。

      隨著融合模態(tài)已經(jīng)成為前沿AI新風(fēng)向,一系列變化還將接踵而至。不僅在模型輸入層、端到端訓(xùn)練損失函數(shù)等方面將會(huì)出現(xiàn)創(chuàng)新的空間,而且在現(xiàn)有分模態(tài)對(duì)照標(biāo)記數(shù)據(jù)集結(jié)構(gòu)方面,甚至還會(huì)出現(xiàn)全新的變化。

      熱新聞

      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>