<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      百度賈磊:拼語音大模型,走另一條路丨AI·20人

      任曉寧2023-09-22 23:36

      經(jīng)濟(jì)觀察報(bào)記者 任曉寧 實(shí)習(xí)記者 陶思羽

      賈磊身上的標(biāo)簽看起來似乎并不在一個(gè)次元。

      他是百度技術(shù)首席架構(gòu)師,是國內(nèi)稀缺的語音大模型帶頭人。與此同時(shí),圍繞在他身上的另一組標(biāo)簽,是中國互聯(lián)網(wǎng)行業(yè)首位“全國勞動(dòng)模范”,在外界看來這是百度“狼性工作”的經(jīng)典寫照。

      賈磊在百度負(fù)責(zé)語音技術(shù)研發(fā),他剛來百度時(shí),語音技術(shù)在百度處于開拓期,那段時(shí)間,他“每天只要睜開眼睛就是工作,連走路坐車的時(shí)間都用來思考”,他一個(gè)人組建團(tuán)隊(duì),寫代碼、建模、搭系統(tǒng),6 個(gè)月后,百度上線了自主研發(fā)的語音搜索系統(tǒng),這套系統(tǒng)也意味著中國的語音搜索技術(shù)實(shí)現(xiàn)突破,從無到有地躋身世界前列。

      在國內(nèi)AI語音領(lǐng)域,賈磊都是帶頭人,2023年他獲得吳文俊人工智能科技進(jìn)步獎(jiǎng)特等獎(jiǎng)。今年3月文心一言發(fā)布會(huì)上李彥宏展示的方言語音合成,以及文字生成視頻中的語音生成能力,都由賈磊團(tuán)隊(duì)研發(fā)。

      但最近他正在做一些更不一樣的事情。

      攻克難題

      “旁白:掌柜的是一名老者,他正坐在柜前喝著酒。廳前還有個(gè)女孩擦拭桌椅,她見沈況進(jìn)來,便禮貌的開口。

      清脆女聲:客人吃飯還是住店。

      少年男聲;住店。

      旁白(伴隨著輕柔音樂):那女孩年歲不大,估摸著比沈況小了幾歲。見沈況進(jìn)來,老者微微的睜了開眼。

      老年男子聲音:哈哈,一把好劍!……”

      賈磊向經(jīng)濟(jì)觀察報(bào)記者展示了這段2分鐘的聲音,這是他帶領(lǐng)的百度語音團(tuán)隊(duì)最新研究成果。這段合成聲音,展示的是混雜各種背景音及4個(gè)人的聲情并茂的對話聲音的一個(gè)小說對話過程。這段語音對話背后,是對互聯(lián)網(wǎng)音頻大數(shù)據(jù)的識別、理解、分析和合成的綜合應(yīng)用。

      語音大模型做好之后的效果大概是,你把一本小說喂給它,它能迅速生成電影質(zhì)感音頻,不需要任何人工操作。

      當(dāng)下無論國內(nèi)還是國外,無論是ChatGPT還是百度,人們使用最多、體驗(yàn)最多的都是文生文、文生圖大模型,很少聽到語音大模型的進(jìn)展。賈磊很坦然地承認(rèn),這一波AI技術(shù)新浪潮中,世界范圍內(nèi)看,AI語音大模型技術(shù)的確慢了一步,“是人家圖文先實(shí)現(xiàn)了突破。”

      不過對此,他覺得也正常,技術(shù)之路總是此消彼長,此起彼伏。在上一波由深度學(xué)習(xí)技術(shù)突破而帶來的AI浪潮中,就是語音技術(shù)先做了突破,然后圖文技術(shù)再跟上。

      算上中科院自動(dòng)化所博士學(xué)習(xí)的時(shí)間,賈磊在AI語音這條路上已經(jīng)走了20年。看到當(dāng)下大模型的進(jìn)展,他很感慨:技術(shù)變化真的太快了。

      2021年至今,各種深度學(xué)習(xí)模型技術(shù)交替登場,賈磊所在的語音領(lǐng)域,也曾經(jīng)嘗試使用自然語言處理的方法做預(yù)訓(xùn)練和語音大模型,但是這比大語言模型更難。語音大模型在實(shí)際使用中,一直解決不了快速實(shí)時(shí)的模型計(jì)算問題。

      最近在NLP領(lǐng)域的大模型技術(shù)發(fā)展的牽引下,賈磊打開了思路,通過對語音大模型的模型結(jié)構(gòu)和訓(xùn)練算法的創(chuàng)新,實(shí)現(xiàn)了語音在線服務(wù)中的模型體積增加幾十倍的突破,他告訴經(jīng)濟(jì)觀察報(bào)記者,這個(gè)創(chuàng)新在世界范圍內(nèi)十分領(lǐng)先。

      技術(shù)改變中國人

      采訪賈磊是在一個(gè)夏天的午后,他從百度科技園的辦公室匆匆走出來,會(huì)議室里聊了一個(gè)多小時(shí)后,他又匆匆趕回辦公室,道別時(shí)他特意為這種匆忙解釋:“我得回去工作了。”

      做AI研發(fā)是一件枯燥又壓力極大的事情,對此賈磊并不諱言。現(xiàn)在的他,每天時(shí)間都花在處理、調(diào)試模型,設(shè)計(jì)實(shí)驗(yàn),看論文,寫程序這些事情上。上班就是工作,下班回家就是睡覺,20年如一日,循環(huán)往復(fù),他調(diào)侃自己:感覺人生就是同一種模式。

      這種人生模式早在20年前,他在中科院讀博時(shí)就已經(jīng)預(yù)知,但他樂此不疲。

      賈磊選擇語音是興趣驅(qū)動(dòng)的。賈磊碩士畢業(yè)后,考入中科院自動(dòng)化所攻讀博士學(xué)學(xué)位。他最初的研發(fā)方向是圖像處理,涉獵了模式識別各學(xué)科方方面面的知識,也綜合比較了圖像、語音和NLP等學(xué)科的學(xué)科差異等。之后他逐漸開始對語音技術(shù)產(chǎn)生興趣。賈磊師從現(xiàn)任中科院自動(dòng)化研究所所長徐波,做廣播語音識別、廣播語音翻譯,把電視節(jié)目經(jīng)過語音識別翻譯成英語,由此踏上AI語音的20年之路。

      現(xiàn)在回看,賈磊很感激中科院自動(dòng)化所寬松的研究氛圍,帶他進(jìn)入了一個(gè)美麗新世界,這個(gè)世界競爭激烈但又成就感滿滿,“有些東西別人都沒做出來,你做出來了,而且確實(shí)很有用,這種快樂其實(shí)是能超越很多事情的。”賈磊說。

      更讓他感到快樂的,是他研發(fā)的技術(shù)改變了很多中國人的生活。這也是他放棄國外高薪,選擇回到國內(nèi)的原因。賈磊在國外待過一段時(shí)間,他那時(shí)覺得,當(dāng)?shù)夭]有“做出一個(gè)東西讓大家都能用起來的氛圍。”國內(nèi)則不同,尤其是近5年,AI落地速度明顯加快,他看到身邊親朋好友使用小度音箱對話,看到很多人用語音輸入文字、檢索信息,看到司機(jī)用自己喜歡的聲音做地圖導(dǎo)航……

      或許使用技術(shù)的人感知并不明顯,但作為研發(fā)一線,從無到有實(shí)現(xiàn)技術(shù)突破的人,賈磊覺得,他的內(nèi)心成就感比做其他行業(yè)要大很多,這不是金錢可以獲取的,這種成就感也是驅(qū)動(dòng)他一直去從事AI工作最重要的原因。

      講到這里時(shí),他的語速明顯快了很多,雖然作為技術(shù)圈外人,很難準(zhǔn)確理解技術(shù)成就感的沖擊力有多大,但你很容易被他感染,這是一種單純的技術(shù)人員看到技術(shù)進(jìn)展后的快樂。現(xiàn)在已經(jīng)成為AI大拿的賈磊,仍保留技術(shù)人員的特色,簡單、純粹,用他的話說,“20年前吃什么、穿什么,現(xiàn)在還吃什么、穿什么”。

      大模型的出現(xiàn),讓賈磊的AI語音技術(shù),得以加速發(fā)展和落地。他希望有朝一日,能夠?qū)崿F(xiàn)人對著計(jì)算機(jī)說話,像跟人說話一樣自如。

      他正在為此努力。

      微信圖片_20230922233418

      圖為賈磊  受訪者供圖

      【對話】

      語音大模型下一步

      經(jīng)濟(jì)觀察報(bào):百度是國內(nèi)首個(gè)推出大語言模型的互聯(lián)網(wǎng)大公司,您在其中做了什么?

      賈磊:百度十幾年前就開始進(jìn)行AI研究了,文心一言是我們多年技術(shù)積累和應(yīng)用實(shí)踐的結(jié)果。文心大模型是一個(gè)體系,有很多成員,包括NLP大模型、語音大模型、圖像大模型、跨模態(tài)大模型、生物計(jì)算大模型等。語音相關(guān)的有語音識別大模型、語音合成大模型。我主要是負(fù)責(zé)語音大模型的一些研究和探索。

      經(jīng)濟(jì)觀察報(bào):之前大家熟悉的人工智能應(yīng)用更多是在智能音箱產(chǎn)品,但為什么取得突破的是圖文而不是語音?

      賈磊:作為人類智化的幾個(gè)標(biāo)志能力,語音、語言、視覺圖像能力都屬于基本的人工智能范疇,圖像跟語言都有大模型了,但語音大模型一直是難產(chǎn)的狀態(tài),它有一定的技術(shù)障礙。我們當(dāng)前的識別只能基于此時(shí)此刻的一句語音,沒有辦法利用提示,也沒有辦法利用上下文。

      語音會(huì)有一個(gè)時(shí)間過程,比如隨著你說話,時(shí)間是在往后延續(xù)的。并且,你說話結(jié)束,語音識別結(jié)果立刻就要給出來。所以語音大模型的特點(diǎn)是,要瞬時(shí)地去做反饋,并且語音分幀計(jì)算使得語音模型加載量比圖像和語言大很多,這就使得計(jì)算機(jī)加載模型的壓力很大。

      打個(gè)比方,大家現(xiàn)在開車去上班,如果你到了五環(huán)路,路很寬,就可以跑的很好。但是上到五環(huán)之前,大家從各個(gè)小區(qū)走出來的這些路很堵,導(dǎo)致你的車根本跑不到五環(huán)上去。現(xiàn)在語音大模型就卡在跑去五環(huán)的路上了。

      比如說3秒鐘的語音,語音模型加載到CPU進(jìn)行計(jì)算的理論次數(shù)是300次,而對應(yīng)這3秒語音的一張圖或者一句話的深度學(xué)習(xí)計(jì)算,只需要做1次模型加載。而且語音大模型加進(jìn)去之后,完成計(jì)算的時(shí)間必須很快,否則造成用戶的過長等待和延遲。通常語音交互系統(tǒng)需要在0.4秒以內(nèi)有反饋,否則用戶就會(huì)覺得這個(gè)設(shè)備反應(yīng)速度很慢,不愿意和設(shè)備進(jìn)行語音交互。這是語音大模型難產(chǎn)的核心原因。

      經(jīng)濟(jì)觀察報(bào):未來是否有解決方案?

      賈磊:計(jì)算機(jī)模型加載的限制問題,從硬件上看無法從根本上解決,除非是物理世界發(fā)生了重大的突破。舉一個(gè)例子,解決計(jì)算機(jī)的模型加載問題,類似于超導(dǎo)技術(shù)的突破,只有超導(dǎo)技術(shù)突破了,傳輸介質(zhì)電阻很小或者近似為0,高壓傳輸才能做到無損。但在算法上,我們提出了一個(gè)特殊的模型結(jié)構(gòu),在smlta2模型的基礎(chǔ)上,把模型的循環(huán)加載變成一次性加載,訓(xùn)練時(shí)候該算法不假設(shè)任何先驗(yàn),可以完全端到端訓(xùn)練,最終使得在滿足在線語音服務(wù)延遲要求的前提下,語音語音大模型的參數(shù)量,比原先增加了幾十倍,極大的提升了語音識別系統(tǒng)的準(zhǔn)確率和魯棒性。

      大語言模型體現(xiàn)智能的一個(gè)重要表現(xiàn),是當(dāng)模型體積增加到一定規(guī)模后,涌現(xiàn)出很多原始訓(xùn)練集合中沒有的新能力。語音大模型的智能化更多表現(xiàn)為多領(lǐng)域口語信息的準(zhǔn)確識別能力、多口音的辨識能力。比如一個(gè)小區(qū)的名字,我說新興家園你知道是哪兩個(gè)字嗎?這種同音字如果沒有提示,你是無法知道是“新興”還是“欣星”。如果有語音大模型,這種歧義的、似是而非的信息都可以通過一個(gè)人的歷史軌跡得到提示。

      我們這個(gè)模型結(jié)構(gòu),可能會(huì)改變語音領(lǐng)域的研究方向和研究方式,在語音大模型這個(gè)領(lǐng)域是領(lǐng)先的。

      痛并快樂著

      經(jīng)濟(jì)觀察報(bào):您在AI行業(yè)從業(yè)20年,您怎樣評價(jià)這一波人工智能浪潮?它是跟之前幾波浪潮會(huì)完全不一樣嗎?

      賈磊:之前的AI是站在一個(gè)“我服務(wù)大家”的角度,未來AI可能站在“我服務(wù)你”的角度來做,我覺得這次還是非常令人興奮的。

      經(jīng)濟(jì)觀察報(bào):在您看來,做AI是一種什么樣的體驗(yàn)?會(huì)覺得有壓力或者很枯燥嗎?

      賈磊:首先是競爭帶來壓力。因?yàn)锳I領(lǐng)域是各個(gè)國家投入很大的領(lǐng)域,所以競爭十分激烈。但如果你能做的比別人更好,你能得到更多的快樂。

      其次是廣泛應(yīng)用帶來的成就感。AI正在越來越多的落地,也有大量產(chǎn)品出現(xiàn)在每個(gè)人生活中,看到這些進(jìn)展我內(nèi)心的成就感,比做其他的行業(yè)要大得多,這不是金錢可以獲取的,這種成就感是驅(qū)動(dòng)我一直從事AI行業(yè)最重要原因。

      做技術(shù)研究,枯燥是難以避免的,因?yàn)樘幚怼⒄{(diào)試模型,模型跑出來后設(shè)計(jì)實(shí)驗(yàn),這個(gè)周期很長,要根據(jù)中間的反饋?zhàn)鲱A(yù)判,做方案選擇,非常難。做這個(gè)事,說到底已經(jīng)是生活的一部分,也已經(jīng)習(xí)慣了。

      經(jīng)濟(jì)觀察報(bào):您之前說過,要探求語音交互認(rèn)知的本源。現(xiàn)在看,這個(gè)本源是什么?

      賈磊:其實(shí)我一直在想,為什么語音識別率不高?為什么人們不想使用語音?人為什么見一個(gè)人喜歡先說話而不是用文字表達(dá)?這背后內(nèi)在的邏輯是什么?如果我做語音技術(shù),我希望這個(gè)技術(shù)無處不在,那我該怎么樣做?單單一句話無法理解,它有上下文才行,怎么樣引入上下文?這些東西隨著我做語音技術(shù)的深入之后,我想的越來越多。我終極的夢想就是人們對著計(jì)算機(jī)說話,像對著人說話一樣自如,人和計(jì)算機(jī)說話獲得的信息量、獲得的滿足感,與和人說話也能一樣。語音解決的是交流的問題,NLP解決的是思考的問題,圖像解決的是視覺問題,機(jī)器人動(dòng)起來,解決的是肢體支撐力的問題,等到這些問題都解決了,通用人工智能有可能就實(shí)現(xiàn)了。從事這個(gè)領(lǐng)域,我所做的一切,都是為了這一天的到來。

      版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
      TMT新聞部資深記者
      關(guān)注并報(bào)道TMT(科技、傳媒、通信)領(lǐng)域重大事件,擅長行業(yè)分析、深度報(bào)道。
      聯(lián)系郵箱:renxiaoning@eeo.com.cn
      微信號:tangtangxiaomo

      熱新聞

      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>