<nav id="4uuuu"></nav>
  • <tr id="4uuuu"></tr>
  • <tr id="4uuuu"></tr>
  • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
    • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>

      久久精品福利网站免费,亚洲色大情网站WWW在线观看,久久水蜜桃网国产免费网手机 ,男女性高视频免费观看国内,老色鬼第一页av在线,久久久久精品婷婷

      不用GPU!硅谷Groq大模型橫空出世,能否挑戰(zhàn)英偉達?

      張賽男2024-02-22 12:38

      AI圈卷瘋了。

      人們還沒從視頻生成模型Sora帶來的震撼中回過神來,硅谷AI芯片初創(chuàng)公司Groq的大模型又引發(fā)了市場熱烈討論,其主打一個“快”,每秒能輸出500個token(注:語言模型中用來表示最小文本單元)。相比之下,Chat GPT-3.5每秒生成速度為40個token。

      在大模型產(chǎn)品多如牛毛的當下,Groq為何得以爆火?

      其最大的亮點在于獨特的技術(shù)路徑。不同于廣泛使用英偉達GPU的大模型產(chǎn)品,Groq團隊為其大模型量身定制了專用芯片(ASIC),這一芯片能在速度上取勝的核心技術(shù)是其首創(chuàng)的LPU(Language Processing Unit)技術(shù)。

      “天下苦英偉達久矣”,自大模型興起以來,英偉達的GPU芯片一卡難求,算力短缺成為很多AI企業(yè)面臨的難題。而如今Groq橫空出世,不僅繞開了GPU,還能實現(xiàn)更快的計算速度,無疑讓市場倍感興奮。

      Groq的AI芯片到底和GPU有何不同?能否實現(xiàn)“平替”英偉達?

      主打一個“快”

      據(jù)介紹,Groq的芯片采用14nm制程,搭載了230MB大靜態(tài)隨機存儲器(SRAM)以保證內(nèi)存帶寬,片上內(nèi)存帶寬達80TB/s。在算力方面,該芯片的整型(8位)運算速度為750TOPs,浮點(16位)運算速度為188TFLOPs。

      如何直觀地感受其運算效率?據(jù)稱,Groq在大語言模型任務(wù)上徹底擊敗了GPU——比英偉達的GPU快10倍,而成本僅為GPU的10%,且只需要GPU十分之一的電力。

      Anyscale的LLMPerf排行也顯示,在Groq LPU推理引擎上運行的Llama 2 70B,輸出tokens吞吐量快了18倍,優(yōu)于其他所有云推理供應(yīng)商。

      為了證明自研芯片的能力,Groq在官網(wǎng)發(fā)布了免費的大模型服務(wù),包括三個開源大模型,Mixtral 8×7B-32K、Llama 2-70B-4K和Mistral 7B-8K,目前前兩個已開放使用。

      Groq火箭般的生成速度,讓市場側(cè)目,也吸引網(wǎng)友紛紛測評。

      據(jù)網(wǎng)友測試,面對300多個單詞的“巨型”prompt(AI模型提示詞),Groq在不到一秒鐘的時間里,就為一篇期刊論文創(chuàng)建了初步大綱和寫作計劃。此外,Groq還完全實現(xiàn)了遠程實時的AI對話。

      電子郵件初創(chuàng)企業(yè)Otherside AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默(Matt Shumer)在體驗Groq后稱贊其快如閃電,能夠在不到一秒鐘的時間內(nèi)生成數(shù)百個單詞的事實性、引用性答案。更令人驚訝的是,其超過3/4的時間用于搜索信息,而生成答案的時間卻短到只有幾分之一秒。

      Groq能實現(xiàn)上述功能的核心技術(shù)在于首創(chuàng)的LPU,那么對這一技術(shù)該如何理解?

      據(jù)社交媒體X上與Groq關(guān)系密切的投資人k_zeroS分享,LPU的工作原理與GPU截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構(gòu),這意味著它無需像使用高帶寬存儲器(HBM)的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。這一特點不僅有助于避免HBM短缺的問題,還能有效降低成本。不同于英偉達 GPU需要依賴高速數(shù)據(jù)傳輸,Groq的LPU在其系統(tǒng)中沒有采用HBM,它使用的是SRAM,其速度比GPU所用的存儲器快約20倍。

      科技投資專家、首建投合伙人王嘉寧在接受21世紀經(jīng)濟報道記者采訪時表示,“LPU架構(gòu)與GPU使用的SIMD(單指令,多數(shù)據(jù))不同,它的推理引擎是一個端到端系統(tǒng),專為需要大量計算和連續(xù)處理的應(yīng)用(如大語言模型)設(shè)計。LPU的設(shè)計允許更有效地利用每個時鐘周期,確保一致的延遲和吞吐量,并降低復(fù)雜調(diào)度硬件的需求。”

      “平替”英偉達?

      “快”字當頭,Groq的大模型可謂賺足眼球。Groq還喊話各大公司,揚言在三年內(nèi)超越英偉達。

      作為“AI賣鏟人”,英偉達在這一波AI熱潮中賺得盆滿缽滿,其GPU芯片價格一再被炒高,但仍一卡難求,因此在這場戰(zhàn)役中,“天下苦英偉達久矣”的呼聲一直高亢。如果Groq的LPU架構(gòu)能“彎道超車”,顯然為業(yè)內(nèi)樂見。據(jù)悉,該公司的推理芯片在第三方網(wǎng)站上的售價為2萬多美元。

      不過,想要“平替”英偉達GPU可并不容易,從各方觀點來看,Groq的芯片還無法與之分庭抗禮。

      原Facebook人工智能科學家、原阿里技術(shù)副總裁賈揚清算了一筆賬,因為Groq小得可憐的內(nèi)存容量,在運行Llama 2 70B模型時,需要305張Groq卡才足夠,而用英偉達的H100則只需要8張卡。從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

      對比LPU和GPU的優(yōu)劣,天使投資人、資深人工智能專家郭濤對21世紀經(jīng)濟報道記者進一步分析,“性能方面,對于特定任務(wù),比如深度學習中的矩陣運算,LPU可能提供更高的吞吐量和更低的延遲;通用性方面,GPU設(shè)計用于處理各種并行計算任務(wù),而LPU可能更專一,這既是優(yōu)勢也是劣勢。生態(tài)系統(tǒng)和軟件支持方面,GPU擁有成熟的生態(tài)系統(tǒng)和廣泛的軟件支持,而新出現(xiàn)的LPU可能需要時間來建立相應(yīng)的支持。”

      深度科技研究院院長張孝榮認為:“盡管LPU在某些方面可能無法與為廣泛圖形處理任務(wù)設(shè)計的英偉達GPU直接競爭,但在特定的AI領(lǐng)域,尤其是語言大模型推理方面,LPU具備不小的應(yīng)用潛力。”

      雖然市場上對GPU的主導(dǎo)地位有所不滿,但受訪專家普遍認為,LPU要完全取代GPU并非易事。

      郭濤認為,“英偉達的GPU不僅性能強大,而且擁有龐大的用戶基礎(chǔ)和生態(tài)系統(tǒng)。隨著AI和深度學習的不斷發(fā)展,對專用芯片的需求也在增長。不過,LPU和其他ASIC提供了一種可能性,可以在特定領(lǐng)域內(nèi)挑戰(zhàn)GPU的地位。”。

      當前,隨著AI技術(shù)的發(fā)展和市場需求的變化,各種專用加速器如FPGA、ASIC以及其他初創(chuàng)公司的AI芯片已經(jīng)不斷涌現(xiàn),它們在各自擅長的領(lǐng)域內(nèi)展現(xiàn)出了挑戰(zhàn)GPU的可能性。“不過,要實現(xiàn)大規(guī)模的市場替代還需要解決生態(tài)建設(shè)、兼容性、成本效益等諸多問題。”王嘉寧說。

      來源:21世紀經(jīng)濟報道 作者:張賽男

      版權(quán)與免責:以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【張賽男】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議

      熱新聞

      電子刊物

      點擊進入
      久久精品福利网站免费
      <nav id="4uuuu"></nav>
    • <tr id="4uuuu"></tr>
    • <tr id="4uuuu"></tr>
    • <tfoot id="4uuuu"><dd id="4uuuu"></dd></tfoot>
      • <noscript id="4uuuu"><optgroup id="4uuuu"></optgroup></noscript>