不用GPU！硅谷Groq大模型橫空出世，能否挑戰(zhàn)英偉達？

張賽男2024-02-22 12:38

AI圈卷瘋了。

人們還沒從視頻生成模型Sora帶來的震撼中回過神來，硅谷AI芯片初創(chuàng)公司Groq的大模型又引發(fā)了市場熱烈討論，其主打一個“快”，每秒能輸出500個token（注：語言模型中用來表示最小文本單元）。相比之下，Chat GPT-3.5每秒生成速度為40個token。

在大模型產(chǎn)品多如牛毛的當下，Groq為何得以爆火？

其最大的亮點在于獨特的技術(shù)路徑。不同于廣泛使用英偉達GPU的大模型產(chǎn)品，Groq團隊為其大模型量身定制了專用芯片（ASIC），這一芯片能在速度上取勝的核心技術(shù)是其首創(chuàng)的LPU（Language Processing Unit）技術(shù)。

“天下苦英偉達久矣”，自大模型興起以來，英偉達的GPU芯片一卡難求，算力短缺成為很多AI企業(yè)面臨的難題。而如今Groq橫空出世，不僅繞開了GPU，還能實現(xiàn)更快的計算速度，無疑讓市場倍感興奮。

Groq的AI芯片到底和GPU有何不同？能否實現(xiàn)“平替”英偉達？

主打一個“快”

據(jù)介紹，Groq的芯片采用14nm制程，搭載了230MB大靜態(tài)隨機存儲器（SRAM）以保證內(nèi)存帶寬，片上內(nèi)存帶寬達80TB/s。在算力方面，該芯片的整型（8位）運算速度為750TOPs，浮點（16位）運算速度為188TFLOPs。

如何直觀地感受其運算效率？據(jù)稱，Groq在大語言模型任務(wù)上徹底擊敗了GPU——比英偉達的GPU快10倍，而成本僅為GPU的10%，且只需要GPU十分之一的電力。

Anyscale的LLMPerf排行也顯示，在Groq LPU推理引擎上運行的Llama 2 70B，輸出tokens吞吐量快了18倍，優(yōu)于其他所有云推理供應(yīng)商。

為了證明自研芯片的能力，Groq在官網(wǎng)發(fā)布了免費的大模型服務(wù)，包括三個開源大模型，Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K，目前前兩個已開放使用。

Groq火箭般的生成速度，讓市場側(cè)目，也吸引網(wǎng)友紛紛測評。

據(jù)網(wǎng)友測試，面對300多個單詞的“巨型”prompt（AI模型提示詞），Groq在不到一秒鐘的時間里，就為一篇期刊論文創(chuàng)建了初步大綱和寫作計劃。此外，Groq還完全實現(xiàn)了遠程實時的AI對話。

電子郵件初創(chuàng)企業(yè)Otherside AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默（Matt Shumer）在體驗Groq后稱贊其快如閃電，能夠在不到一秒鐘的時間內(nèi)生成數(shù)百個單詞的事實性、引用性答案。更令人驚訝的是，其超過3/4的時間用于搜索信息，而生成答案的時間卻短到只有幾分之一秒。

Groq能實現(xiàn)上述功能的核心技術(shù)在于首創(chuàng)的LPU，那么對這一技術(shù)該如何理解？

據(jù)社交媒體X上與Groq關(guān)系密切的投資人k_zeroS分享，LPU的工作原理與GPU截然不同。它采用了時序指令集計算機（Temporal Instruction Set Computer）架構(gòu)，這意味著它無需像使用高帶寬存儲器（HBM）的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點不僅有助于避免HBM短缺的問題，還能有效降低成本。不同于英偉達 GPU需要依賴高速數(shù)據(jù)傳輸，Groq的LPU在其系統(tǒng)中沒有采用HBM，它使用的是SRAM，其速度比GPU所用的存儲器快約20倍。

科技投資專家、首建投合伙人王嘉寧在接受21世紀經(jīng)濟報道記者采訪時表示，“LPU架構(gòu)與GPU使用的SIMD（單指令，多數(shù)據(jù)）不同，它的推理引擎是一個端到端系統(tǒng)，專為需要大量計算和連續(xù)處理的應(yīng)用（如大語言模型）設(shè)計。LPU的設(shè)計允許更有效地利用每個時鐘周期，確保一致的延遲和吞吐量，并降低復(fù)雜調(diào)度硬件的需求。”

“平替”英偉達？

“快”字當頭，Groq的大模型可謂賺足眼球。Groq還喊話各大公司，揚言在三年內(nèi)超越英偉達。

作為“AI賣鏟人”，英偉達在這一波AI熱潮中賺得盆滿缽滿，其GPU芯片價格一再被炒高，但仍一卡難求，因此在這場戰(zhàn)役中，“天下苦英偉達久矣”的呼聲一直高亢。如果Groq的LPU架構(gòu)能“彎道超車”，顯然為業(yè)內(nèi)樂見。據(jù)悉，該公司的推理芯片在第三方網(wǎng)站上的售價為2萬多美元。

不過，想要“平替”英偉達GPU可并不容易，從各方觀點來看，Groq的芯片還無法與之分庭抗禮。

原Facebook人工智能科學家、原阿里技術(shù)副總裁賈揚清算了一筆賬，因為Groq小得可憐的內(nèi)存容量，在運行Llama 2 70B模型時，需要305張Groq卡才足夠，而用英偉達的H100則只需要8張卡。從目前的價格來看，這意味著在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

對比LPU和GPU的優(yōu)劣，天使投資人、資深人工智能專家郭濤對21世紀經(jīng)濟報道記者進一步分析，“性能方面，對于特定任務(wù)，比如深度學習中的矩陣運算，LPU可能提供更高的吞吐量和更低的延遲；通用性方面，GPU設(shè)計用于處理各種并行計算任務(wù)，而LPU可能更專一，這既是優(yōu)勢也是劣勢。生態(tài)系統(tǒng)和軟件支持方面，GPU擁有成熟的生態(tài)系統(tǒng)和廣泛的軟件支持，而新出現(xiàn)的LPU可能需要時間來建立相應(yīng)的支持。”

深度科技研究院院長張孝榮認為：“盡管LPU在某些方面可能無法與為廣泛圖形處理任務(wù)設(shè)計的英偉達GPU直接競爭，但在特定的AI領(lǐng)域，尤其是語言大模型推理方面，LPU具備不小的應(yīng)用潛力。”

雖然市場上對GPU的主導(dǎo)地位有所不滿，但受訪專家普遍認為，LPU要完全取代GPU并非易事。

郭濤認為，“英偉達的GPU不僅性能強大，而且擁有龐大的用戶基礎(chǔ)和生態(tài)系統(tǒng)。隨著AI和深度學習的不斷發(fā)展，對專用芯片的需求也在增長。不過，LPU和其他ASIC提供了一種可能性，可以在特定領(lǐng)域內(nèi)挑戰(zhàn)GPU的地位。”。

當前，隨著AI技術(shù)的發(fā)展和市場需求的變化，各種專用加速器如FPGA、ASIC以及其他初創(chuàng)公司的AI芯片已經(jīng)不斷涌現(xiàn)，它們在各自擅長的領(lǐng)域內(nèi)展現(xiàn)出了挑戰(zhàn)GPU的可能性。“不過，要實現(xiàn)大規(guī)模的市場替代還需要解決生態(tài)建設(shè)、兼容性、成本效益等諸多問題。”王嘉寧說。

來源：21世紀經(jīng)濟報道作者:張賽男

版權(quán)與免責：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【張賽男】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議