經(jīng)濟(jì)觀察網(wǎng) 記者 任曉寧 “完全沒(méi)有想到會(huì)以這種方式出圈,挺惶恐的。”6月14日,面壁智能首席執(zhí)行官李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí),提到了此前火爆一時(shí)的斯坦福大學(xué)學(xué)生抄襲面壁智能旗下大模型的事件。他認(rèn)為,從全球范圍看,目前中國(guó)在端側(cè)模型、開(kāi)源模型等領(lǐng)域都有創(chuàng)新的地方。
5月29日,多模態(tài)大模型Llama3-V在開(kāi)源社區(qū)走紅,其開(kāi)發(fā)者是美國(guó)斯坦福大學(xué)學(xué)生組成的AI團(tuán)隊(duì),他們聲稱可以用500美元的價(jià)格訓(xùn)練出對(duì)標(biāo)GPT-4V(美國(guó)AI公司OpenAI旗下大模型)多模態(tài)能力的模型。
第二天,Llama3-V模型被網(wǎng)友指出涉嫌抄襲中國(guó)的端側(cè)模型MiniCPM-Llama3-V 2.5,這件事在國(guó)外AI圈引發(fā)關(guān)注,在國(guó)內(nèi)也多次登上微博熱搜。最終斯坦福大學(xué)學(xué)生選擇道歉并刪除Llama3-V模型。
MiniCPM系列模型由中國(guó)大模型創(chuàng)業(yè)公司面壁智能開(kāi)發(fā)。這家公司此前只在AI圈內(nèi)知名,但因被抄襲一事名聲大噪。李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí),講述了該事件的來(lái)龍去脈。他認(rèn)為,該事件說(shuō)明,中國(guó)的大模型技術(shù)在一些領(lǐng)域已經(jīng)處于全球領(lǐng)先位置。
面壁智能主要做端側(cè)模型。相比互聯(lián)網(wǎng)大廠和其他大模型創(chuàng)業(yè)公司主要發(fā)力的云側(cè)大模型,端側(cè)模型一般參數(shù)較小,比如MiniCPM的第一款模型,只有20億參數(shù),但可以實(shí)現(xiàn)文本翻譯、知識(shí)問(wèn)答、代碼編程等大模型能力,也有多模態(tài)能力。由于成本低、參數(shù)小,端側(cè)模型更適合在手機(jī)端、個(gè)人電腦(PC)端和智能硬件端使用。
與已經(jīng)開(kāi)啟“百模大戰(zhàn)”的云側(cè)大模型市場(chǎng)相比,端側(cè)模型市場(chǎng)的國(guó)內(nèi)參與者較少。李大海解釋,面壁智能所做的事,是在同樣的時(shí)間、同等參數(shù)量的條件下,把模型知識(shí)壓縮的效率做到極致,把更多的高質(zhì)量數(shù)據(jù)壓縮進(jìn)一個(gè)更小更優(yōu)的模型中。
面壁智能成立于2022年8月,創(chuàng)始團(tuán)隊(duì)主要來(lái)自清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室,聯(lián)合創(chuàng)始人劉知遠(yuǎn)是清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、博士生導(dǎo)師,李大海則擔(dān)任過(guò)知乎首席技術(shù)官。
2023年至今,面壁智能完成了兩輪融資。去年4月,知乎、智譜AI對(duì)其投資數(shù)千萬(wàn)元。今年4月,面壁智能完成了新一輪數(shù)億元融資,由春華創(chuàng)投、華為哈勃領(lǐng)投,北京市人工智能產(chǎn)業(yè)投資基金等跟投。
以下為對(duì)話實(shí)錄:
經(jīng)濟(jì)觀察網(wǎng):之前斯坦福大學(xué)學(xué)生抄襲面壁智能模型的事件,是否說(shuō)明當(dāng)前中美大模型的差距縮小了?
李大海:在最大、最聰明的模型層面,我們距離美國(guó)整體還有比較大的距離。這些差距是由于資金能力、算力水平、算力投入等造成的,我們需要正視這些現(xiàn)實(shí)。
但中國(guó)在很多領(lǐng)域也有自己的創(chuàng)新和探索。比如對(duì)端側(cè)模型的探索,我們?cè)谌蚍秶鷥?nèi)都算是比較領(lǐng)先的,所以才會(huì)出現(xiàn)被抄襲的事情。此外,在開(kāi)源模型這個(gè)領(lǐng)域,國(guó)內(nèi)有很多同行在不同層面都做出了創(chuàng)新,比如阿里通義千問(wèn)對(duì)開(kāi)源模型的貢獻(xiàn)就比較大。
經(jīng)濟(jì)觀察網(wǎng):今年是AI應(yīng)用元年,很多大模型產(chǎn)品正在落地,出現(xiàn)了各式各樣的應(yīng)用。你們所研發(fā)的端側(cè)模型,是否也已經(jīng)開(kāi)始落地?現(xiàn)在有哪些應(yīng)用場(chǎng)景?
李大海:在PC、手機(jī)、智能汽車(chē),以及一些前沿的智能終端領(lǐng)域,都有端側(cè)模型落地的場(chǎng)景。我們最近在和一家機(jī)器人公司合作,他們研發(fā)的是外形像寵物貓的情感類(lèi)機(jī)器人,主要提供給愛(ài)貓的用戶。我們的端側(cè)模型與機(jī)器人結(jié)合在一起,能讓它更加懂用戶,能更好地與用戶進(jìn)行交流,給用戶帶來(lái)很多情緒價(jià)值。
經(jīng)濟(jì)觀察網(wǎng):為什么這家機(jī)器人公司要和你們的端側(cè)模型合作,而不是和其他大模型公司合作?
李大海:因?yàn)樵谶@樣的場(chǎng)景中,端側(cè)模型有比較大的優(yōu)勢(shì)。其他云側(cè)大模型也可以用在機(jī)器人之中,但端側(cè)模型的成本更低、可靠性更強(qiáng),因?yàn)樗恍枰蕾囉诰W(wǎng)絡(luò)。即使斷網(wǎng)后,用戶也可以和這只機(jī)器貓交流。
相比云側(cè)大模型,端側(cè)模型參數(shù)規(guī)模要小一些,它不可能做所有的事情,這是它的劣勢(shì)。但是它有非常好的隱私性,也有更強(qiáng)的可靠性,比如在飛機(jī)上、在隧道里或在野外,人們都可以放心大膽地使用它。
經(jīng)濟(jì)觀察網(wǎng):ChatGPT(OpenAI旗下聊天機(jī)器人)等大模型產(chǎn)品當(dāng)下已經(jīng)被廣泛應(yīng)用。端側(cè)模型技術(shù)進(jìn)展到了什么程度,可以落地應(yīng)用了嗎?
李大海:在一些特定的場(chǎng)景下,比如嵌入到寵物機(jī)器人中與人類(lèi)進(jìn)行交流的場(chǎng)景,端側(cè)模型已經(jīng)是可用的了。但它現(xiàn)在還沒(méi)到大規(guī)模使用的時(shí)候。
關(guān)于端側(cè)模型什么時(shí)候可以大規(guī)模應(yīng)用到手機(jī)、PC中的問(wèn)題,我想提供一個(gè)大模型維度的摩爾定律。我們發(fā)現(xiàn)無(wú)論是開(kāi)源模型還是閉源模型,都呈現(xiàn)出每8個(gè)月左右參數(shù)規(guī)模下降一半,但模型性能維持不變的現(xiàn)象。有兩個(gè)例子可以說(shuō)明這個(gè)現(xiàn)象,比如OpenAI幾年前發(fā)布了1750億參數(shù)的GPT-3模型,今年我們用20億參數(shù)的模型,就已經(jīng)可以實(shí)現(xiàn)同樣效果。另外,我們不久前發(fā)布的面壁小鋼炮MiniCPM-Llama3-V 2.5模型,使用80億參數(shù),能達(dá)到甚至超過(guò)業(yè)界多模態(tài)王者GPT-4V的多模態(tài)性能水平。
參數(shù)規(guī)模下降、性能維持不變,說(shuō)明大模型的知識(shí)密度提升了。隨著大模型知識(shí)密度的提升和端側(cè)算力的提升,我相信我們能用2年左右做出等同于GPT-4水平的端側(cè)模型。到時(shí)候端側(cè)模型就能大范圍使用了。
經(jīng)濟(jì)觀察網(wǎng):大模型公司的競(jìng)爭(zhēng)已經(jīng)非常激烈,價(jià)格戰(zhàn)也正在開(kāi)啟。面壁智能在端側(cè)模型目前有領(lǐng)先優(yōu)勢(shì),你們?cè)趺茨鼙WC自己一直領(lǐng)先?
李大海:天下武功,唯快不破,在快速變化的環(huán)境里面更是如此。創(chuàng)業(yè)公司必須有足夠快的自我迭代速度。我們公司大的戰(zhàn)略方向是做端側(cè)模型,在這個(gè)大方向上我們會(huì)有定力。但在具體執(zhí)行戰(zhàn)略上,我們會(huì)不斷升級(jí)認(rèn)知、提升方法論、提高迭代速度,我覺(jué)得這是最重要的事情。
相比其他公司,面壁智能很早就看到了端側(cè)模型的價(jià)值,并把所有的資源都往上堆,目前也做出了一些成績(jī)。前兩天蘋(píng)果開(kāi)發(fā)者大會(huì)也在強(qiáng)調(diào)端側(cè)模型,這說(shuō)明行業(yè)里更多同行也認(rèn)可了這個(gè)方向,這也證明了這個(gè)方向的正確性。