新V觀海外：模態(tài)融合正成為前沿AI發(fā)展新風(fēng)向

陳沛2024-05-24 10:23

陳沛/文 OpenAI在2024年春季發(fā)布會(huì)上展示了GPT-4o的多語(yǔ)音輸入和實(shí)時(shí)視覺交互效果，令人印象深刻。在春季發(fā)布會(huì)后，OpenAI正抓緊在ChatGPT中推出GPT-4o語(yǔ)音模式Alpha預(yù)覽版，新版GPT-4o模型背后的模態(tài)融合已成為AI發(fā)展前沿，各家機(jī)構(gòu)正力爭(zhēng)實(shí)現(xiàn)突破。

GPT-4o模型背后的模態(tài)融合訓(xùn)練變化

按照OpenAI官方解釋，之前使用GPT-4的語(yǔ)音模式輸出之所以會(huì)產(chǎn)生數(shù)秒延遲，是因?yàn)檎麄€(gè)過程需要經(jīng)歷將輸入語(yǔ)音轉(zhuǎn)換成文本、GPT-4模型處理并輸出文本、將生成文本轉(zhuǎn)換成語(yǔ)音并輸出等三個(gè)步驟。

這么多步驟不僅會(huì)導(dǎo)致延遲，還失去了很多上下文信息，例如識(shí)別說話者語(yǔ)氣、分析多語(yǔ)音輸入、消除背景噪聲等。而且，模型也難以輸出帶有自然語(yǔ)氣的聲音。

而新版GPT-4o則是將文本、聲音、視覺等多模態(tài)數(shù)據(jù)融合，端到端重新訓(xùn)練了一個(gè)新模型，直接使用語(yǔ)音轉(zhuǎn)語(yǔ)音的方式來實(shí)現(xiàn)實(shí)時(shí)對(duì)話。

Meta緊跟發(fā)布混合模態(tài)早期融合基礎(chǔ)模型

或許是看到GPT-4o模態(tài)融合效果大受歡迎，Meta隨后不久便發(fā)布了Chameleon模型的研究論文，聲稱是在統(tǒng)一模型架構(gòu)上對(duì)文本、圖像等多模態(tài)的數(shù)據(jù)進(jìn)行了早期融合訓(xùn)練。

Meta專門強(qiáng)調(diào)了早期融合，表明這個(gè)Chameleon模型是在早期訓(xùn)練階段就將文本、圖像、代碼等多模態(tài)數(shù)據(jù)進(jìn)行了統(tǒng)一轉(zhuǎn)換，各種模態(tài)都被映射到一個(gè)共享的表征空間。

可以看出，這種融合模態(tài)的訓(xùn)練方法與GPT-4o類似，都是使用統(tǒng)一模型架構(gòu)從頭開始端到端訓(xùn)練，從而實(shí)現(xiàn)融合模態(tài)的無縫處理、生成以及推理。

更高層面的研究也印證了模態(tài)融合方向

長(zhǎng)期研究AI前沿方向的前OpenAI首席科學(xué)家Ilya Sutskever最近也有新的關(guān)注。當(dāng)年正是他識(shí)別出了注意力機(jī)制和Transformer研究論文在大語(yǔ)言模型上的應(yīng)用潛力，此后一步步打造出GPT系列模型。

不過他自去年底OpenAI董事會(huì)動(dòng)蕩事件后再無發(fā)聲，并在春季發(fā)布會(huì)后官宣離開了OpenAI。隨后離開的還有他所在的超級(jí)對(duì)齊團(tuán)隊(duì)聯(lián)合負(fù)責(zé)人和相關(guān)成員。

就在Ilya官宣離開OpenAI后，他首個(gè)公開點(diǎn)贊的研究論文立即引發(fā)業(yè)內(nèi)關(guān)注。這篇研究論文是MIT提出的《柏拉圖式表征假說》，核心思想是跨模態(tài)神經(jīng)網(wǎng)絡(luò)模型在處理不同模態(tài)數(shù)據(jù)和任務(wù)時(shí)，表征方式正在趨向于收斂，而且能在現(xiàn)有的語(yǔ)言模型和視覺模型上得到驗(yàn)證。因此，未來可能出現(xiàn)類似柏拉圖理想現(xiàn)實(shí)的一個(gè)共享統(tǒng)計(jì)模型。

這就表明，今天的大語(yǔ)言模型、文生圖模型、文生視頻模型等處理某些模態(tài)的模型，都只是在現(xiàn)實(shí)世界的表征空間中找到了局部更優(yōu)解。而要找到未來統(tǒng)一模型的全局最優(yōu)解，或許需要的是融合模態(tài)模型。

隨著融合模態(tài)已經(jīng)成為前沿AI新風(fēng)向，一系列變化還將接踵而至。不僅在模型輸入層、端到端訓(xùn)練損失函數(shù)等方面將會(huì)出現(xiàn)創(chuàng)新的空間，而且在現(xiàn)有分模態(tài)對(duì)照標(biāo)記數(shù)據(jù)集結(jié)構(gòu)方面，甚至還會(huì)出現(xiàn)全新的變化。