專訪高通中國區(qū)研發(fā)負責人徐晧：手機是大模型的新戰(zhàn)場

沈怡然2023-09-01 23:14

經濟觀察網(wǎng) 記者沈怡然 8月以來，高通公司一邊與手機客戶緊密研發(fā)，另一邊與微軟、谷歌、Meta等大廠合作。作為全球端側芯片技術領導者，高通和伙伴們嘗試將AI大模型從主流的計算機下沉到手機、汽車、頭顯設備，以發(fā)揮更多的商業(yè)價值。

基于對海量計算和存儲的需求，大模型在先期的研發(fā)和訓練中，只能部署到云端，這也是為何英偉達能在芯片低谷中逆勢爆發(fā)。在高通中國區(qū)研發(fā)負責人徐晧看來，將大模型從云到端部署，尤其進入手機，是必然的演進路線。進入高通研發(fā)團隊20年來，徐晧領導了3G至5G演進中的多個芯片研究項目，還負責高通在智能終端側的AI算法研究。

如今，徐晧的重要任務是讓大模型進入手機，盡管這一天還沒到來，他緊湊的日程表已經顯現(xiàn)出，這不是紙上談兵，AI、芯片、手機企業(yè)正看好該方向，并通力合作，把大模型“縮小”，再做硬件上的改進，目前尚有一些技術瓶頸，徐晧預計，高通年底可實現(xiàn)在終端運行百億級參數(shù)的大模型。

當前消費電子仍然疲軟，高通有信心認為大模型會給市場帶來春天，甚至能在5G和6G之間掀起新的一輪手機周期，尤其在中國巨大的消費市場，大模型會開啟手機個人助理、辦公助手、甚至更多類似“妙鴨相機APP”——一款可以利用人工智能技術生成個人照片的應用——那樣的想象空間。從企業(yè)競爭的角度看，將更強的AI能力集成到SoC（系統(tǒng)級芯片），也有助于高通在更多消費和工業(yè)等新市場中取得技術優(yōu)勢。

高通的確完成了從0到1的嘗試——今年2月在安卓手機上跑通了Stable Diffusion，手機沒有聯(lián)網(wǎng)，整個文生圖的過程完全在終端運行。徐晧表示，“這僅僅證明，在沒有任何云端幫助的情況下，大模型在手機上是可行的，真正大規(guī)模地部署仍需要時間”。

在徐晧看來，一些軟硬件及兼容適配的問題有待解決，同時，演進的路徑是，先訓練好大模型，再談如何部署到設備端并運行大模型，在終端推理（可理解為執(zhí)行任務）的需求比在云端訓練的需求來的要晚，爆發(fā)未必會立即顯現(xiàn)。但趨勢是可見的，混合AI架構作為未來AI的發(fā)展方向，AI也會從云側擴展到端側。

以下內容根據(jù)專訪整理：

經濟觀察網(wǎng)：大模型進入手機端會是怎樣的應用場景？

徐晧：率先進入手機的會是ChatGPT這類大語言模型，相比過去的語音助理應用，只能處理簡單的信息，比如查詢天氣、股市、講笑話等，大語言模型可以回答相對抽象、復雜的問題，尤其通過對話方式來有針對性地解決問題。

當用戶提出“請根據(jù)我在海南4天的旅行日程預定酒店”的需求，AI大模型會在理解需求的基礎上，提供解決方案，這不同于關鍵詞檢索這類簡單的任務，大語言模型還能進一步總結歸納，綜合考慮酒店價格、地理位置等因素，分析得出方案。如果用戶反饋酒店價格過于昂貴，它還能進一步提供另一個方案，可以像“個人助手”一樣和用戶進行互動。

另外，也有多模態(tài)的應用，多個功能的大模型集成到一起，比如根據(jù)需求生成計算機代碼，解決數(shù)學問題，通過各種類型的考試等等。

經濟觀察網(wǎng)：大語言模型在手機上究竟怎么發(fā)揮價值，業(yè)界還沒有一個定論？

徐晧：是的，大模型本身也在不斷演進，屆時到底哪個大語言模型更流行或者更有用，也要看具體的應用場景。有可能是生成語言來回答問題、幫助用戶寫PPT、寫文檔、寫代碼、識別語言等等。可能是一個通用大模型處理所有問題，或是每一類功能交由更小的模型去做。

經濟觀察網(wǎng)：和上一波AI進入手機生成的內容截然不同？

徐晧：此前AI為手機帶來了照相背景虛化、美顏、指紋識別、人臉識別等功能，這些都是具象的、相對簡單的、點對點的。在大模型進入手機后，這些簡單算法所生成的內容也將繼續(xù)存在，不需要大模型的支持。

經濟觀察網(wǎng)：大模型進入終端是一個必然過程嗎，它的演進過程是怎樣的？

徐晧：大模型進入終端是普及的必然過程，對大多數(shù)用戶或企業(yè)來說，能夠普及的、有意義的應用還是在終端。就像曾經銀河系列巨型計算機，可以算出非常復雜的太空飛行軌跡，但真正對普通民眾有意義的還是個人電腦。大型模型經過訓練、微調最終會被部署到終端的應用程序中，進入手機、汽車、電腦，VR/XR頭顯設備，這才能被消費者真正體驗到，同理，企業(yè)用戶也可以將大模型部署在機器人，或者監(jiān)控攝像頭等物聯(lián)網(wǎng)設備中，以完成更多業(yè)務操作和生產任務。

經濟觀察網(wǎng)：所以，大模型的部署也要從云端到終端去演進？

徐晧：是的，準確地說是從云到端、并達到一個云端協(xié)同的狀態(tài)。

經濟觀察網(wǎng)：具體談談高通對這個過程的考慮？

徐晧：毫無爭議地是，初期ChatGPT等大模型的訓練是在云端進行的，大語言模型的參數(shù)眾多，甚至達到百億或千億級，訓練時需要眾多GPU提供算力，只有云端能提供這樣的條件。

而一旦大模型訓練完成，進入到推理（可理解為執(zhí)行任務）階段，企業(yè)就會對成本和安全有更多考慮。以大語言模型為例，它的搜索成本比簡單搜索要高10倍，當有大量用戶涌入進行搜索時，成本將節(jié)節(jié)攀升。所以，僅在云端推理并不劃算，企業(yè)要支付數(shù)據(jù)中心基礎設施的各項成本，包括硬件、場地、能耗、運營、額外帶寬和網(wǎng)絡傳輸方面。相比之下，部署在終端只需要支付硬件上的成本。此時，有些個性化的問題相對簡單，本不用調用大量參數(shù)進行計算的，這類問題就可以在手機側完成推理。

經濟觀察網(wǎng)：僅僅是為了節(jié)省成本嗎？

徐晧：還有隱私安全的考慮。比如，在終端側完成查詢路線的操作時，用戶可以避免將自己的目的地暴露；當用戶在處理自己的圖像或視頻時，也無須將圖像或視頻上傳至云端，從而避免別人盜用人臉信息的風險，也可以更好地保護用戶隱私。

經濟觀察網(wǎng)：這就是云端和終端的協(xié)同部署？

徐晧：是的，我們也稱為混合AI，端側AI更快速、個性化和保護隱私，云側AI更支持大規(guī)模運算和海量數(shù)據(jù)，各有優(yōu)點。實際上，如果一個模型或者一項任務，需要消耗大量的時間、算力和數(shù)據(jù)，就可以把它放到云端去處理，完成后把答案回傳就可以了。但如果這個問題相對簡單，能夠在手機上處理，就不需要傳到云端了。

大部分的情況是，終端側會有一個判斷，即某個問題能否在本地處理，是否需要上傳至云端。需要上傳的才會傳至云端，不需要的就在終端側處理了。

經濟觀察網(wǎng)：目前能部署到終端的大模型是怎樣的？

徐晧：現(xiàn)階段來看，是規(guī)模相對小的通用大模型和垂直大模型。我們的目標分界線是，十億以下到百億以下參數(shù)規(guī)模的模型在終端處理，例如參數(shù)規(guī)模較小的Stable Diffusion可以在終端側處理。

經濟觀察網(wǎng)：這也是很多廠商在努力把大模型“做小”的原因？

徐晧：“做小”是一個重要工作，企業(yè)要對大模型作出一系列的簡化和優(yōu)化，而非將其原封不動地搬到手機上。去年11月ChatGPT發(fā)布，催生了人們的興趣和特別多大語言模型的開發(fā)。但是，大語言模型有很多的分支，每個分支可能還有它自己的縮減版。比如LLaMA模型有70億參數(shù)的版本。

經濟觀察網(wǎng)：現(xiàn)在很多廠商在開發(fā)多模態(tài)，規(guī)模比單模態(tài)要大，是不是很難進入手機？

徐晧：一般來說，處理各種模態(tài)的選擇越多，模型就會越大。所謂的多模態(tài)就是語音、文字、圖片、錄像等不同模態(tài)信息的綜合處理應用，可以用于處理數(shù)學、法律、醫(yī)學等領域的問題。業(yè)界也在考慮能否將這些大模型壓縮，或者分割成更小的模型，讓它們能夠更容易地做事。比如新聞工作者關心的可能是稿件，程序員關心能否讓模型幫忙寫代碼。如果每次只用一個功能，就可以根據(jù)那種功能來微調它的模型。大語言模型在云端就像一個巨型的大腦，但我們在電腦上真正能用到的，可能不會是有1000億參數(shù)的模型，而是100億參數(shù)的小模型。

經濟觀察網(wǎng)：高通是全球首個在安卓手機上跑通了Stable Diffusion的企業(yè)，能不能解釋這個DEMO的意義？

徐晧：在手機上，在沒有任何云端的幫助的情況下，這個大模型是可行的。至少從0到1讓大規(guī)模AI模型進入手機終端，證明了下一步AI在端側有很好的應用機會和發(fā)展空間。

這其中涉及到大量的工作，因為如此大的一個模型要搬到手機里運行，大多數(shù)人認為是不大可行的，但它運行的速度也很快，基本上每十幾秒鐘就能輸出結果。

經濟觀察網(wǎng)：大模型進入終端，尤其是手機，給產業(yè)鏈帶來的影響很大嗎？

徐晧：AI可以推動手機和其他終端形式的全面升級，芯片是尤其需要升級的部分。比如說以前大家對手機的定位就是打電話，所以當時的芯片就相對簡單；后來因為數(shù)據(jù)的應用，芯片開始變得復雜；再后來因為引入了小模型的AI算法，以及深度學習的算法，芯片就變得更復雜了一點；直到現(xiàn)在，我們要支持大模型，就需要使用處理能力更強的芯片。

經濟觀察網(wǎng)：具體需要怎樣的芯片呢？

徐晧：把大模型運行在手機上進行推理，意味著手機的內存要變大，算力也要增強，這對手機芯片的要求是更高的。具體來說，高通有三點考慮，第一，讓手機芯片功耗更小、運算能力更強；第二，改進過去的AI算法，從算法的角度來提高運算效率；第三，采用一些軟件工具。現(xiàn)在的硬件、軟件和算法結合得都比較緊密，在硬件上做任何事情都需要軟件的支持，所以我們希望提供全棧的AI優(yōu)化，包括軟件的編譯、模型的優(yōu)化，與整個生態(tài)系統(tǒng)的適配，比如芯片要與手機廠家適配，讓客戶把我們的芯片用得更好，而我們也能支持各種操作系統(tǒng)，以保證和生態(tài)的兼容。

經濟觀察網(wǎng)：是 CPU、GPU、NPU等全方位的更新?lián)Q代，還是只升級AI相關的專用芯片？

徐晧：不同部件更新?lián)Q代的需求是不一樣的。以高通為例，我們的AI引擎是由多個硬件和軟件組件構成的一個整體，其中包含了高通Hexagon處理器、Adreno GPU、Kryo CPU和傳感器中樞。目前我們團隊準備將這些能力集成在一起，提供給手機和更多終端客戶使用。

經濟觀察網(wǎng)：同時服務很多手機客戶，是否也要支持客戶在大模型上的差異化設計？

徐晧：我們在與手機廠商的合作中了解到，手機品牌為實現(xiàn)差異化，在大模型的部署和設計上有所不同。所以，我們的模式是，提供一個統(tǒng)一的AI平臺，硬件、軟件都有，讓他們自行適配自己的大模型，擁有較大的優(yōu)化設計的空間。比如同樣基于高通提供的芯片，不同的手機廠商推出了擁有不同功能側重點的手機。AI同理，在大模型方面，高通與多家手機客戶緊密合作，但最終客戶的呈現(xiàn)結果會有很大差別，開發(fā)出的應用程序和用戶體驗完全不同。

經濟觀察網(wǎng)：短期看，芯片的升級無疑會增加研發(fā)成本。這是否會讓新一代手機成本上升？

徐晧：目前我認為最關鍵的是找到使用大模型的剛性需求。雖然很難準確評估其價值，但當人們認為一項技術極具實用性的時候，那么就會愿意為之投入，將其應用于實際。我認為這是最為重要的。

經濟觀察網(wǎng)：對于芯片廠商，支持大模型是否像當年支持5G一樣面臨復雜的技術挑戰(zhàn)？

徐晧：5G和AI還有所不同。此前AI應用已經對手機的性能有了很大提升。過去手機中已經運用簡單的AI算法，用于智能識別、美顏、背景虛化等功能。如今，大語言模型剛開始流行，我們就進行了全球首個運行在安卓手機上的 Stable Diffusion 終端側演示，是因為我們在終端側AI有多年的積累。從技術上說，5G的復雜度在于基帶的算法，更多的是對通信芯片的影響；而AI更多的是對算力和整個AI的加速器的影響，二者涉及不同領域的升級。

經濟觀察網(wǎng)：手機之外，在汽車、頭顯、物聯(lián)網(wǎng)等設備上支持大模型，高通是否也在嘗試？

徐晧：高通在這些終端形式上都有持續(xù)的研發(fā)，一些終端客戶顯示出了對大模型的需求，但每一個終端的形式和需求不一樣。

經濟觀察網(wǎng)：未來，很多智能終端仍然會延續(xù)過去的AI算法，也就是傳統(tǒng)的小模型嗎？

徐晧：這取決于用戶的需求，AI存在諸多算法，大模型只是其中之一，僅僅作為一個工具。從工程的角度來看，對于簡單的任務，最好的方法是使用最簡單的工具。就像要將一個釘子敲入時，使用錘子是最合適的選擇。大模型可以類比為電鉆或大型聯(lián)合收割機，但并非所有的事情都需要它來完成，終端側的需求有可能是其他一系列的AI算法。

經濟觀察網(wǎng)：有了大模型，原來的小模型并不是完全沒有用武之地？

徐晧：很多場景小模型就能勝任。例如，應對讓“小度”響應用戶的召喚這種需求，就只需要一種非常低功耗的算法，調用大模型并沒有意義，因為只需實時識別出“小度小度”這一詞匯即可。未來，我們的客戶會將大模型和傳統(tǒng)小模型結合使用，它們就像一個工具包中的各種不同工具，無法簡單地認為哪個更好，因為應用的目標不同。