百度賈磊：拼語音大模型，走另一條路丨AI·20人

任曉寧2023-09-22 23:36

經(jīng)濟(jì)觀察報(bào)記者任曉寧實(shí)習(xí)記者陶思羽

賈磊身上的標(biāo)簽看起來似乎并不在一個(gè)次元。

他是百度技術(shù)首席架構(gòu)師，是國內(nèi)稀缺的語音大模型帶頭人。與此同時(shí)，圍繞在他身上的另一組標(biāo)簽，是中國互聯(lián)網(wǎng)行業(yè)首位“全國勞動(dòng)模范”，在外界看來這是百度“狼性工作”的經(jīng)典寫照。

賈磊在百度負(fù)責(zé)語音技術(shù)研發(fā)，他剛來百度時(shí)，語音技術(shù)在百度處于開拓期，那段時(shí)間，他“每天只要睜開眼睛就是工作，連走路坐車的時(shí)間都用來思考”，他一個(gè)人組建團(tuán)隊(duì)，寫代碼、建模、搭系統(tǒng)，6 個(gè)月后，百度上線了自主研發(fā)的語音搜索系統(tǒng)，這套系統(tǒng)也意味著中國的語音搜索技術(shù)實(shí)現(xiàn)突破，從無到有地躋身世界前列。

在國內(nèi)AI語音領(lǐng)域，賈磊都是帶頭人，2023年他獲得吳文俊人工智能科技進(jìn)步獎(jiǎng)特等獎(jiǎng)。今年3月文心一言發(fā)布會(huì)上李彥宏展示的方言語音合成，以及文字生成視頻中的語音生成能力，都由賈磊團(tuán)隊(duì)研發(fā)。

但最近他正在做一些更不一樣的事情。

攻克難題

“旁白：掌柜的是一名老者，他正坐在柜前喝著酒。廳前還有個(gè)女孩擦拭桌椅，她見沈況進(jìn)來，便禮貌的開口。

清脆女聲：客人吃飯還是住店。

少年男聲；住店。

旁白（伴隨著輕柔音樂）：那女孩年歲不大，估摸著比沈況小了幾歲。見沈況進(jìn)來，老者微微的睜了開眼。

老年男子聲音：哈哈，一把好劍！……”

賈磊向經(jīng)濟(jì)觀察報(bào)記者展示了這段2分鐘的聲音，這是他帶領(lǐng)的百度語音團(tuán)隊(duì)最新研究成果。這段合成聲音，展示的是混雜各種背景音及4個(gè)人的聲情并茂的對話聲音的一個(gè)小說對話過程。這段語音對話背后，是對互聯(lián)網(wǎng)音頻大數(shù)據(jù)的識別、理解、分析和合成的綜合應(yīng)用。

語音大模型做好之后的效果大概是，你把一本小說喂給它，它能迅速生成電影質(zhì)感音頻，不需要任何人工操作。

當(dāng)下無論國內(nèi)還是國外，無論是ChatGPT還是百度，人們使用最多、體驗(yàn)最多的都是文生文、文生圖大模型，很少聽到語音大模型的進(jìn)展。賈磊很坦然地承認(rèn)，這一波AI技術(shù)新浪潮中，世界范圍內(nèi)看，AI語音大模型技術(shù)的確慢了一步，“是人家圖文先實(shí)現(xiàn)了突破。”

不過對此，他覺得也正常，技術(shù)之路總是此消彼長，此起彼伏。在上一波由深度學(xué)習(xí)技術(shù)突破而帶來的AI浪潮中，就是語音技術(shù)先做了突破，然后圖文技術(shù)再跟上。

算上中科院自動(dòng)化所博士學(xué)習(xí)的時(shí)間，賈磊在AI語音這條路上已經(jīng)走了20年。看到當(dāng)下大模型的進(jìn)展，他很感慨：技術(shù)變化真的太快了。

2021年至今，各種深度學(xué)習(xí)模型技術(shù)交替登場，賈磊所在的語音領(lǐng)域，也曾經(jīng)嘗試使用自然語言處理的方法做預(yù)訓(xùn)練和語音大模型，但是這比大語言模型更難。語音大模型在實(shí)際使用中，一直解決不了快速實(shí)時(shí)的模型計(jì)算問題。

最近在NLP領(lǐng)域的大模型技術(shù)發(fā)展的牽引下，賈磊打開了思路，通過對語音大模型的模型結(jié)構(gòu)和訓(xùn)練算法的創(chuàng)新，實(shí)現(xiàn)了語音在線服務(wù)中的模型體積增加幾十倍的突破，他告訴經(jīng)濟(jì)觀察報(bào)記者，這個(gè)創(chuàng)新在世界范圍內(nèi)十分領(lǐng)先。

技術(shù)改變中國人

采訪賈磊是在一個(gè)夏天的午后，他從百度科技園的辦公室匆匆走出來，會(huì)議室里聊了一個(gè)多小時(shí)后，他又匆匆趕回辦公室，道別時(shí)他特意為這種匆忙解釋：“我得回去工作了。”

做AI研發(fā)是一件枯燥又壓力極大的事情，對此賈磊并不諱言。現(xiàn)在的他，每天時(shí)間都花在處理、調(diào)試模型，設(shè)計(jì)實(shí)驗(yàn)，看論文，寫程序這些事情上。上班就是工作，下班回家就是睡覺，20年如一日，循環(huán)往復(fù)，他調(diào)侃自己：感覺人生就是同一種模式。

這種人生模式早在20年前，他在中科院讀博時(shí)就已經(jīng)預(yù)知，但他樂此不疲。

賈磊選擇語音是興趣驅(qū)動(dòng)的。賈磊碩士畢業(yè)后，考入中科院自動(dòng)化所攻讀博士學(xué)學(xué)位。他最初的研發(fā)方向是圖像處理，涉獵了模式識別各學(xué)科方方面面的知識，也綜合比較了圖像、語音和NLP等學(xué)科的學(xué)科差異等。之后他逐漸開始對語音技術(shù)產(chǎn)生興趣。賈磊師從現(xiàn)任中科院自動(dòng)化研究所所長徐波，做廣播語音識別、廣播語音翻譯，把電視節(jié)目經(jīng)過語音識別翻譯成英語，由此踏上AI語音的20年之路。

現(xiàn)在回看，賈磊很感激中科院自動(dòng)化所寬松的研究氛圍，帶他進(jìn)入了一個(gè)美麗新世界，這個(gè)世界競爭激烈但又成就感滿滿，“有些東西別人都沒做出來，你做出來了，而且確實(shí)很有用，這種快樂其實(shí)是能超越很多事情的。”賈磊說。

更讓他感到快樂的，是他研發(fā)的技術(shù)改變了很多中國人的生活。這也是他放棄國外高薪，選擇回到國內(nèi)的原因。賈磊在國外待過一段時(shí)間，他那時(shí)覺得，當(dāng)?shù)夭]有“做出一個(gè)東西讓大家都能用起來的氛圍。”國內(nèi)則不同，尤其是近5年，AI落地速度明顯加快，他看到身邊親朋好友使用小度音箱對話，看到很多人用語音輸入文字、檢索信息，看到司機(jī)用自己喜歡的聲音做地圖導(dǎo)航……

或許使用技術(shù)的人感知并不明顯，但作為研發(fā)一線，從無到有實(shí)現(xiàn)技術(shù)突破的人，賈磊覺得，他的內(nèi)心成就感比做其他行業(yè)要大很多，這不是金錢可以獲取的，這種成就感也是驅(qū)動(dòng)他一直去從事AI工作最重要的原因。

講到這里時(shí)，他的語速明顯快了很多，雖然作為技術(shù)圈外人，很難準(zhǔn)確理解技術(shù)成就感的沖擊力有多大，但你很容易被他感染，這是一種單純的技術(shù)人員看到技術(shù)進(jìn)展后的快樂。現(xiàn)在已經(jīng)成為AI大拿的賈磊，仍保留技術(shù)人員的特色，簡單、純粹，用他的話說，“20年前吃什么、穿什么，現(xiàn)在還吃什么、穿什么”。

大模型的出現(xiàn)，讓賈磊的AI語音技術(shù)，得以加速發(fā)展和落地。他希望有朝一日，能夠?qū)崿F(xiàn)人對著計(jì)算機(jī)說話，像跟人說話一樣自如。

他正在為此努力。

微信圖片_20230922233418

圖為賈磊受訪者供圖

【對話】

語音大模型下一步

經(jīng)濟(jì)觀察報(bào)：百度是國內(nèi)首個(gè)推出大語言模型的互聯(lián)網(wǎng)大公司，您在其中做了什么？

賈磊：百度十幾年前就開始進(jìn)行AI研究了，文心一言是我們多年技術(shù)積累和應(yīng)用實(shí)踐的結(jié)果。文心大模型是一個(gè)體系，有很多成員，包括NLP大模型、語音大模型、圖像大模型、跨模態(tài)大模型、生物計(jì)算大模型等。語音相關(guān)的有語音識別大模型、語音合成大模型。我主要是負(fù)責(zé)語音大模型的一些研究和探索。

經(jīng)濟(jì)觀察報(bào)：之前大家熟悉的人工智能應(yīng)用更多是在智能音箱產(chǎn)品，但為什么取得突破的是圖文而不是語音？

賈磊：作為人類智化的幾個(gè)標(biāo)志能力，語音、語言、視覺圖像能力都屬于基本的人工智能范疇，圖像跟語言都有大模型了，但語音大模型一直是難產(chǎn)的狀態(tài)，它有一定的技術(shù)障礙。我們當(dāng)前的識別只能基于此時(shí)此刻的一句語音，沒有辦法利用提示，也沒有辦法利用上下文。

語音會(huì)有一個(gè)時(shí)間過程，比如隨著你說話，時(shí)間是在往后延續(xù)的。并且，你說話結(jié)束，語音識別結(jié)果立刻就要給出來。所以語音大模型的特點(diǎn)是，要瞬時(shí)地去做反饋，并且語音分幀計(jì)算使得語音模型加載量比圖像和語言大很多，這就使得計(jì)算機(jī)加載模型的壓力很大。

打個(gè)比方，大家現(xiàn)在開車去上班，如果你到了五環(huán)路，路很寬，就可以跑的很好。但是上到五環(huán)之前，大家從各個(gè)小區(qū)走出來的這些路很堵，導(dǎo)致你的車根本跑不到五環(huán)上去。現(xiàn)在語音大模型就卡在跑去五環(huán)的路上了。

比如說3秒鐘的語音，語音模型加載到CPU進(jìn)行計(jì)算的理論次數(shù)是300次，而對應(yīng)這3秒語音的一張圖或者一句話的深度學(xué)習(xí)計(jì)算，只需要做1次模型加載。而且語音大模型加進(jìn)去之后，完成計(jì)算的時(shí)間必須很快，否則造成用戶的過長等待和延遲。通常語音交互系統(tǒng)需要在0.4秒以內(nèi)有反饋，否則用戶就會(huì)覺得這個(gè)設(shè)備反應(yīng)速度很慢，不愿意和設(shè)備進(jìn)行語音交互。這是語音大模型難產(chǎn)的核心原因。

經(jīng)濟(jì)觀察報(bào)：未來是否有解決方案？

賈磊：計(jì)算機(jī)模型加載的限制問題，從硬件上看無法從根本上解決，除非是物理世界發(fā)生了重大的突破。舉一個(gè)例子，解決計(jì)算機(jī)的模型加載問題，類似于超導(dǎo)技術(shù)的突破，只有超導(dǎo)技術(shù)突破了，傳輸介質(zhì)電阻很小或者近似為0，高壓傳輸才能做到無損。但在算法上，我們提出了一個(gè)特殊的模型結(jié)構(gòu)，在smlta2模型的基礎(chǔ)上，把模型的循環(huán)加載變成一次性加載，訓(xùn)練時(shí)候該算法不假設(shè)任何先驗(yàn)，可以完全端到端訓(xùn)練，最終使得在滿足在線語音服務(wù)延遲要求的前提下，語音語音大模型的參數(shù)量，比原先增加了幾十倍，極大的提升了語音識別系統(tǒng)的準(zhǔn)確率和魯棒性。

大語言模型體現(xiàn)智能的一個(gè)重要表現(xiàn)，是當(dāng)模型體積增加到一定規(guī)模后，涌現(xiàn)出很多原始訓(xùn)練集合中沒有的新能力。語音大模型的智能化更多表現(xiàn)為多領(lǐng)域口語信息的準(zhǔn)確識別能力、多口音的辨識能力。比如一個(gè)小區(qū)的名字，我說新興家園你知道是哪兩個(gè)字嗎？這種同音字如果沒有提示，你是無法知道是“新興”還是“欣星”。如果有語音大模型，這種歧義的、似是而非的信息都可以通過一個(gè)人的歷史軌跡得到提示。

我們這個(gè)模型結(jié)構(gòu)，可能會(huì)改變語音領(lǐng)域的研究方向和研究方式,在語音大模型這個(gè)領(lǐng)域是領(lǐng)先的。

痛并快樂著

經(jīng)濟(jì)觀察報(bào)：您在AI行業(yè)從業(yè)20年，您怎樣評價(jià)這一波人工智能浪潮？它是跟之前幾波浪潮會(huì)完全不一樣嗎？

賈磊：之前的AI是站在一個(gè)“我服務(wù)大家”的角度，未來AI可能站在“我服務(wù)你”的角度來做，我覺得這次還是非常令人興奮的。

經(jīng)濟(jì)觀察報(bào)：在您看來，做AI是一種什么樣的體驗(yàn)？會(huì)覺得有壓力或者很枯燥嗎？

賈磊：首先是競爭帶來壓力。因?yàn)锳I領(lǐng)域是各個(gè)國家投入很大的領(lǐng)域，所以競爭十分激烈。但如果你能做的比別人更好，你能得到更多的快樂。

其次是廣泛應(yīng)用帶來的成就感。AI正在越來越多的落地，也有大量產(chǎn)品出現(xiàn)在每個(gè)人生活中，看到這些進(jìn)展我內(nèi)心的成就感，比做其他的行業(yè)要大得多，這不是金錢可以獲取的，這種成就感是驅(qū)動(dòng)我一直從事AI行業(yè)最重要原因。

做技術(shù)研究，枯燥是難以避免的，因?yàn)樘幚怼⒄{(diào)試模型，模型跑出來后設(shè)計(jì)實(shí)驗(yàn)，這個(gè)周期很長，要根據(jù)中間的反饋?zhàn)鲱A(yù)判，做方案選擇，非常難。做這個(gè)事，說到底已經(jīng)是生活的一部分，也已經(jīng)習(xí)慣了。

經(jīng)濟(jì)觀察報(bào)：您之前說過，要探求語音交互認(rèn)知的本源。現(xiàn)在看，這個(gè)本源是什么？

賈磊：其實(shí)我一直在想，為什么語音識別率不高？為什么人們不想使用語音？人為什么見一個(gè)人喜歡先說話而不是用文字表達(dá)？這背后內(nèi)在的邏輯是什么？如果我做語音技術(shù)，我希望這個(gè)技術(shù)無處不在，那我該怎么樣做？單單一句話無法理解，它有上下文才行，怎么樣引入上下文？這些東西隨著我做語音技術(shù)的深入之后，我想的越來越多。我終極的夢想就是人們對著計(jì)算機(jī)說話，像對著人說話一樣自如，人和計(jì)算機(jī)說話獲得的信息量、獲得的滿足感，與和人說話也能一樣。語音解決的是交流的問題，NLP解決的是思考的問題，圖像解決的是視覺問題，機(jī)器人動(dòng)起來，解決的是肢體支撐力的問題，等到這些問題都解決了，通用人工智能有可能就實(shí)現(xiàn)了。從事這個(gè)領(lǐng)域，我所做的一切，都是為了這一天的到來。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。