GPU：從游戲之友到權(quán)力之杖

陳永偉2023-08-15 18:19

陳永偉/文

近日，AI算力新秀CoreWeave在自己的推特上分享了一則消息：該公司剛剛通過(guò)抵押英偉達(dá)H100GPU的方式獲得了23億美元的融資，將用這筆錢(qián)來(lái)購(gòu)買(mǎi)更多的H100GPU，以便在年底前再建立10個(gè)新數(shù)據(jù)中心。

一位供職于國(guó)內(nèi)某互聯(lián)網(wǎng)大廠(chǎng)的朋友在轉(zhuǎn)發(fā)該消息后評(píng)論道：“以前只聽(tīng)說(shuō)過(guò)地產(chǎn)公司通過(guò)抵押房子來(lái)拿貸款，然后用貸來(lái)的錢(qián)繼續(xù)蓋房子。這種抵押GPU借錢(qián)，再拿借來(lái)的錢(qián)繼續(xù)買(mǎi)GPU的做法倒是第一次看到。”

一般來(lái)說(shuō)，同樣的一件電子產(chǎn)品，年末時(shí)的價(jià)格會(huì)比年初低上一大截。所以幾乎不會(huì)有人購(gòu)買(mǎi)電子產(chǎn)品來(lái)進(jìn)行保值，金融機(jī)構(gòu)也很少會(huì)愿意接受電子產(chǎn)品作為抵押品。然而，這些經(jīng)驗(yàn)在GPU面前失靈了。今時(shí)今日，似乎整個(gè)市場(chǎng)都在爭(zhēng)搶GPU，在eBay平臺(tái)上，英偉達(dá)H100GPU芯片的價(jià)格已經(jīng)被炒到了每張4.5萬(wàn)美元，而在兩三個(gè)月前，它的價(jià)格還是在3.6萬(wàn)美元左右。

GPU究竟是什么？為什么在AI時(shí)代，GPU會(huì)成為人們競(jìng)相爭(zhēng)搶的硬通貨？它的價(jià)值來(lái)自哪里？又能保持多長(zhǎng)的時(shí)間？在GPU硬通貨化的背后，又存在著什么更深的隱喻？且讓我們一一說(shuō)來(lái)。

GPU的由來(lái)

大家知道，GPU是英文“圖形處理器”（graphicprocessingunit）的縮寫(xiě)。從這個(gè)名字就不難知道，GPU原本并不是用來(lái)執(zhí)行AI相關(guān)的任務(wù)，而是用來(lái)處理圖形的。

從上世紀(jì)80年代開(kāi)始，隨著計(jì)算機(jī)輔助應(yīng)用（CAD）、地理信息系統(tǒng)（GIS）等技術(shù)的發(fā)展，用計(jì)算機(jī)處理圖形的需求開(kāi)始出現(xiàn)增長(zhǎng)。尤其是電子游戲行業(yè)的異軍突起，更是為計(jì)算機(jī)圖形處理培養(yǎng)了龐大的用戶(hù)群體。然而，作為計(jì)算機(jī)處理核心的元件CPU在處理圖形時(shí)效率并不高，這就導(dǎo)致了專(zhuān)業(yè)處理圖形任務(wù)的計(jì)算元件的出現(xiàn)。

1983年，《計(jì)算機(jī)世界》（ComputerWorld）雜志上刊登的一篇介紹Tek－tronix的圖形終端的文章里首先出現(xiàn)了GPU一詞。但是，此GPU非彼GPU，它的全稱(chēng)是graphicprocessorunit。這一類(lèi)所謂的GPU雖然能夠處理2D圖像，但由于當(dāng)時(shí)還缺乏光影轉(zhuǎn)換（trans－formandlighting，簡(jiǎn)稱(chēng)T&L）組件，因而它們還無(wú)法獨(dú)立處理3D圖形，必須搭配CPU使用。直到1990年代，圖形處理元件加入了T&L組件，現(xiàn)在人們所熟悉的GPU才正式出現(xiàn)。

關(guān)于究竟誰(shuí)才是現(xiàn)在意義上GPU的發(fā)明者，業(yè)界一直存在著爭(zhēng)議。一種觀點(diǎn)認(rèn)為，GPU的發(fā)明權(quán)應(yīng)該歸于美國(guó)硅圖公司（SiliconGraphics，簡(jiǎn)稱(chēng)SGI）。1996年，SGI推出了可以實(shí)現(xiàn)硬件T&L的圖形處理器，已經(jīng)具有了現(xiàn)在人們認(rèn)為的GPU的主要功能。不過(guò)，由于它主要是被用在任天堂的主機(jī)上，所以很多人并不愿意承認(rèn)它是真正的GPU。另一種觀點(diǎn)則認(rèn)為，第一塊GPU是由一家名為3Dlabs的英國(guó)公司推出的。1997年時(shí)，它在一塊雙芯片處理器中加入了帶有T&L功能的引擎，并將這塊處理器冠以了“幾何處理器”（GeometryPro－cessorUnit，簡(jiǎn)稱(chēng)也是GPU）的名字。然而，由于3Dlabs專(zhuān)注于CAD的狹小市場(chǎng)，影響并不大，因而將其認(rèn)為是GPU發(fā)明者的人也不多。

相比于SGI和3Dlabs，一個(gè)認(rèn)可度更高的GPU發(fā)明者是英偉達(dá)。在上世紀(jì)90年代的半導(dǎo)體市場(chǎng)上，英偉達(dá)其實(shí)算是一個(gè)后來(lái)者。當(dāng)時(shí)，這個(gè)市場(chǎng)上的基本格局是AMD和英特爾兩大巨頭對(duì)峙，而它們爭(zhēng)奪的焦點(diǎn)是CPU。在那幾年中，英特爾的奔騰系列CPU和AMD的Am386、Am486系列CPU可謂是你方唱罷我登場(chǎng)，戰(zhàn)得不亦樂(lè)乎，其他企業(yè)只能坐看神仙打架。

1993年，就在整個(gè)市場(chǎng)都認(rèn)為很難在巨頭霸占的市場(chǎng)中搶到機(jī)會(huì)時(shí)，供職于LSILogic的黃仁勛卻選擇了辭職下海，創(chuàng)立了英偉達(dá)。不過(guò)，黃仁勛看好的并不是CPU，而是圖形加速卡。在當(dāng)時(shí)看來(lái)，這似乎是一個(gè)非常冷門(mén)的業(yè)務(wù)。雖然隨著PC和游戲機(jī)的普及，不少人認(rèn)識(shí)到了圖形處理的重要性，但其中的大部分人認(rèn)為這個(gè)任務(wù)應(yīng)該由CPU而不是專(zhuān)門(mén)的圖形處理硬件來(lái)完成。

但黃仁勛并不這么認(rèn)為，他堅(jiān)持看好圖形處理硬件的未來(lái)。在很大程度上，他的這個(gè)判斷來(lái)自于對(duì)當(dāng)時(shí)游戲行業(yè)的觀察。1993年，一款名為《德軍總部3D》（Wolfstein3D）的游戲橫空出世，引發(fā)了市場(chǎng)對(duì)3D游戲的極大興趣。但事實(shí)上，《德軍總部3D》并不是真3D，它只是用2D貼圖偽裝出了3D效果。在黃仁勛看來(lái)，既然單獨(dú)的CPU不足以支持真3D游戲，那么要實(shí)現(xiàn)它們就只能采用輔助的加速硬件。當(dāng)然，雖然當(dāng)時(shí)看好硬件加速市場(chǎng)潛力的人不多，但也不只黃仁勛一人。比如，英偉達(dá)早期最重要的競(jìng)爭(zhēng)者3dfx公司也很早押注了這個(gè)市場(chǎng)，并一度憑借著其率先推出的巫毒（Voodoo）加速卡雄霸全球市場(chǎng)。

應(yīng)該說(shuō)，黃仁勛運(yùn)氣確實(shí)不錯(cuò)，在創(chuàng)業(yè)初期就收到了日本游戲機(jī)公司世嘉的芯片研發(fā)訂單，并得到了700萬(wàn)美元資金支持。但這種運(yùn)氣并沒(méi)有持續(xù)多久，由于他在3D圖像技術(shù)上選擇的失誤，沒(méi)能兼容微軟新制定的DirectX標(biāo)準(zhǔn)，導(dǎo)致了初代產(chǎn)品NV1出師不利，銷(xiāo)量慘淡。

在經(jīng)過(guò)一番調(diào)整后，英偉達(dá)終于步入了正軌。靠著世嘉公司支付的研發(fā)費(fèi)用，英偉達(dá)開(kāi)發(fā)出了Riva128。坦白講，單論性能，Riva128并不如巫毒，但3dfx卻犯了一個(gè)致命的錯(cuò)誤——堅(jiān)持自己的開(kāi)發(fā)工具GlideAPI，拒絕使用DirectX。而英偉達(dá)則及時(shí)吸取教訓(xùn)，選擇了擁抱微軟、擁抱DirectX。很顯然，在微軟統(tǒng)治PC系統(tǒng)的時(shí)代，這個(gè)策略是十分明智的，Riva128也因此而大賣(mài)。

1998年，英偉達(dá)與臺(tái)積電達(dá)成合作，開(kāi)始使用“無(wú)工廠(chǎng)”（Fabless）模式。之后，英偉達(dá)只負(fù)責(zé)芯片的設(shè)計(jì)和銷(xiāo)售，生產(chǎn)則完全交托給臺(tái)積電來(lái)代工。通過(guò)這種模式，英偉達(dá)得以輕裝上陣，將更多的精力投放到研發(fā)和市場(chǎng)研究中，從而推出了一系列爆款產(chǎn)品。利用這些產(chǎn)品，英偉達(dá)終于在圖形加速市場(chǎng)上站穩(wěn)了腳跟。

不過(guò)，黃仁勛的野心當(dāng)然不止于此。在他看來(lái)，圖形加速硬件不應(yīng)該只是CPU的助手，應(yīng)該有自己的獨(dú)立角色。在這種理念的指導(dǎo)下，英偉達(dá)于1999年推出了它的GeForce256顯卡。這款顯卡不僅將T&L功能整合到了其中，實(shí)現(xiàn)了獨(dú)立于CPU的T&L處理，集成了立方環(huán)境材質(zhì)貼圖、頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素、256位渲染引擎等先進(jìn)技術(shù)，還同時(shí)設(shè)計(jì)了可編程加速功能。在這些技術(shù)特質(zhì)的加持之下，GeForce256對(duì)一些高端3D游戲的支持能力要遠(yuǎn)勝于當(dāng)時(shí)流行的3D圖形加速卡，面世后一炮而紅，迅速成為了廣大發(fā)燒友鐘愛(ài)的游戲神器。英偉達(dá)也趁熱打鐵，利用廣告攻勢(shì)，順勢(shì)將“具有集成T&L、三角形設(shè)置/裁剪和渲染引擎，能夠每秒至少處理 1000萬(wàn)個(gè)多邊形的單芯片處理器”定義為了GPU——如果嚴(yán)格按照這個(gè)定義，那么英偉達(dá)就確實(shí)是GPU的發(fā)明者了。

英偉達(dá)迅速成為了這個(gè)市場(chǎng)上的勝利者和引領(lǐng)者。2000年，它更是將最主要的競(jìng)爭(zhēng)對(duì)手3dfx直接收購(gòu)，進(jìn)一步穩(wěn)固了自己的市場(chǎng)霸主地位。所謂歷史是由勝利者書(shū)寫(xiě)的，時(shí)至今日，當(dāng)我們?cè)谒阉饕嫔纤阉髡l(shuí)是GPU的發(fā)明者時(shí)，英偉達(dá)就成了默認(rèn)的答案。

從游戲之友到AI神器

那么，GPU又是怎么從一款游戲神器變成AI神器的呢？在對(duì)這個(gè)問(wèn)題進(jìn)行說(shuō)明前，我們需要先對(duì)GPU的結(jié)構(gòu)進(jìn)行一些簡(jiǎn)單的介紹。

從總體上看，無(wú)論是CPU還是GPU，都包括運(yùn)算器（ArithmeticandLogicUnit，簡(jiǎn)稱(chēng)ALU）、控制單元（ControlUnit，簡(jiǎn)稱(chēng)CL）、高速緩存器（Cache）和動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（DRAM）。但是，這些成分在兩者中的構(gòu)成比例是不同的。在CPU當(dāng)中，控制單元和存儲(chǔ)單元占的比例很大，而作為計(jì)算單位的ALU比例則很小；而在GPU當(dāng)中則正好相反。

這種結(jié)構(gòu)上的差異決定了CPU和GPU功能上的區(qū)別。由于CPU在控制和存儲(chǔ)的能力上比較強(qiáng)，因此就能進(jìn)行比較復(fù)雜的計(jì)算，不過(guò)可以同時(shí)執(zhí)行的線(xiàn)程很少。而GPU則相反，大量的計(jì)算單位讓它可以同時(shí)執(zhí)行多線(xiàn)程的任務(wù)，但每一個(gè)任務(wù)都比較簡(jiǎn)單。打個(gè)比喻，CPU是一個(gè)精通數(shù)學(xué)的博士，微積分、線(xiàn)性代數(shù)樣樣都會(huì)，但盡管如此，讓他做一萬(wàn)道四則運(yùn)算也很難；而GPU呢，則是一群只會(huì)四則運(yùn)算的小學(xué)生，雖然他們不會(huì)微積分和線(xiàn)性代數(shù)，但人多力量大，如果一起開(kāi)干，一萬(wàn)道四則運(yùn)算分分鐘就能搞定。

由于在圖形處理的過(guò)程中會(huì)涉及很多不同色彩單元的圖形和色彩的變換，所以GPU的特質(zhì)就讓它先天地適合被作為圖形處理的硬件使用。而當(dāng)深度學(xué)習(xí)興起之后，人工智能專(zhuān)家們很快就發(fā)現(xiàn)，GPU也很適合用來(lái)訓(xùn)練神經(jīng)和應(yīng)用網(wǎng)絡(luò)模型。因?yàn)樵谏疃葘W(xué)習(xí)模型中，最主要的運(yùn)算就是矩陣運(yùn)算和卷積，而這些運(yùn)算從根本上都可以分解為簡(jiǎn)單的加法和乘法。如此一來(lái)，GPU就找到了新的“就業(yè)”空間，開(kāi)始被廣泛地應(yīng)用于人工智能，搖身一變，從游戲神器變成了AI神器。

對(duì)于英偉達(dá)這個(gè)GPU市場(chǎng)的王者，AI領(lǐng)域的上述動(dòng)向簡(jiǎn)直是為它送來(lái)了一塊天上掉下的餡餅。它也順勢(shì)抓住了這個(gè)機(jī)會(huì)。2007年，英偉達(dá)提出了GPGPU，即“通用目的GPU”（GeneralPurposeGPU）架構(gòu)，將原本專(zhuān)用于圖形處理的GPU改造成了更適合AI運(yùn)算的GPU。與此同時(shí)，英偉達(dá)還推出了GPGPU的計(jì)算統(tǒng)一架構(gòu)（ComputeU－nifiedDeviceArchitecture，CUDA）平臺(tái)，允許程序員使用類(lèi) C語(yǔ)言編寫(xiě)GPU的并行計(jì)算代碼，并且提供了大量的庫(kù)函數(shù)和工具來(lái)幫助優(yōu)化 GPU計(jì)算。通過(guò)這些努力，英偉達(dá)成功將GPU能處理的問(wèn)題由圖形擴(kuò)展到了通用計(jì)算領(lǐng)域，由此在市場(chǎng)上搶得了先機(jī)，率先從游戲領(lǐng)域的硬件霸主轉(zhuǎn)型成了AI領(lǐng)域的“軍火商”。

各大AI巨頭為搶占大模型市場(chǎng)搶破頭時(shí)，這位“軍火商”卻坐收漁人之利，成為了這場(chǎng)大戰(zhàn)最大的贏家——不僅賺得盆滿(mǎn)缽滿(mǎn)，讓自己的市值突破了萬(wàn)億美元大關(guān)，還憑借著其對(duì)GPU進(jìn)行分配的權(quán)力，在某種程度上成為了左右AI大戰(zhàn)最終走向的幕后之手。

從AI神器到硬通貨

現(xiàn)在我們回到本文開(kāi)頭的問(wèn)題：為什么GPU并沒(méi)有遵循一般半導(dǎo)體產(chǎn)品的價(jià)格下降規(guī)律，反而成為了一件硬通貨？

在市場(chǎng)經(jīng)濟(jì)的條件下，可以讓某種商品的價(jià)格保持高昂且堅(jiān)挺的原因只有一個(gè)，那就是需求超過(guò)了供給。要理解GPU為何能夠成為硬通貨，就必須對(duì)其供求狀況有所了解。

1、GPU的需求狀況

什么人在購(gòu)買(mǎi)GPU呢？關(guān)于這個(gè)問(wèn)題，馬斯克曾給出過(guò)一個(gè)回答：“在現(xiàn)在這個(gè)時(shí)間點(diǎn)，似乎所有人和他們的狗都在到處找GPU。”馬斯克的這個(gè)回答當(dāng)然是帶有調(diào)侃的，但是整個(gè)AI圈確實(shí)都在為GPU而瘋狂。

最近在社交新聞網(wǎng)站Raddit上熱傳的一篇文章曾對(duì)幾個(gè)大公司的GPU需求量做過(guò)一個(gè)統(tǒng)計(jì)。根據(jù)這篇文章，OpenAI在訓(xùn)練GPT-4時(shí)曾使用了10000到25000張英偉達(dá)A100GPU；臉書(shū)在訓(xùn)練AI時(shí)使用了大約21000張A100；特斯拉使用了約7000張A100；Midjourney的開(kāi)發(fā)者StabilityAI大約使用了5000張A100。此外，阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所開(kāi)發(fā)的Falcon-40B用了384張A100進(jìn)行訓(xùn)練；AI初創(chuàng)公司Inflection則正在使用3500張H100GPU來(lái)訓(xùn)練性能足以匹敵GPT-3.5的大模型。而根據(jù)馬斯克的爆料，OpenAI正在訓(xùn)練的GPT-5所使用的H100GPU可能達(dá)到了3萬(wàn)到5萬(wàn)張。除此之外，還有眾多初創(chuàng)企業(yè)也都需要GPU，需求量從幾百?gòu)埖綆浊埐坏取Ｋ羞@些需求加總在一起，就構(gòu)成了十分龐大的數(shù)字。

這里需要說(shuō)明的是，在GPU市場(chǎng)上，不同型號(hào)的GPU的需求差別非常大。目前，市場(chǎng)上最受歡迎的GPU就是英偉達(dá)的H100。根據(jù)英偉達(dá)方面的介紹，這款專(zhuān)門(mén)為人工智能設(shè)計(jì)的GPU芯片采用了新一代的Hopper架構(gòu)，擁有800億個(gè)晶體管，無(wú)論是在深度學(xué)習(xí)模型的訓(xùn)練還是推理方面，都具有十分強(qiáng)大的能力。在各種第三方的測(cè)試當(dāng)中，H100也取得了非常好的成績(jī)。例如，在近期舉行的一次MLPerfAI測(cè)試中，英偉達(dá)H100集群一舉在全部八個(gè)項(xiàng)目中都獲得了第一，僅用11分鐘就完成了一遍GPT-3的訓(xùn)練，用8秒就完成了一遍BERT模型的訓(xùn)練。

得益于H100的優(yōu)良性能，所以幾乎所有AI企業(yè)都對(duì)其虎視眈眈。根據(jù)網(wǎng)上熱傳的一個(gè)估計(jì)：OpenAI可能需要5萬(wàn)張H100；臉書(shū)可能需要2.5萬(wàn)張；Inflection需要2.2萬(wàn)張；微軟的Azure云、谷歌云、亞馬遜的AWS，以及Oracle這四大云服務(wù)商可能各需要3萬(wàn)張；Lambda、CoreWeave以及其他私有云可能總共需要10萬(wàn)張；Anthropic、Helsing、Mistral、Character等企業(yè)可能各需要1萬(wàn)張——將上面這些需求加總在一起，H100的總需求量就超過(guò)了43萬(wàn)張。需要指出的是，上述估計(jì)數(shù)字還沒(méi)有包括中國(guó)的大型科技企業(yè)，以及包括JP摩根在內(nèi)的眾多金融企業(yè)的需求。如果將這些企業(yè)的需求量考慮在內(nèi)，H100的需求量將更是驚人。

或許有人會(huì)問(wèn)，同樣是GPU，為什么H100會(huì)要比其他型號(hào)的GPU，比如A100更受歡迎呢？這其實(shí)既是一個(gè)技術(shù)問(wèn)題，也是一個(gè)經(jīng)濟(jì)問(wèn)題。總體上講，盡管同為GPU，但是不同型號(hào)的GPU之間的主要職能是不同的。大致上講，在AI領(lǐng)域，GPU的用途主要有兩種：一是推理（inference），即用訓(xùn)練好的模型生成我們需要的結(jié)果和內(nèi)容；二是訓(xùn)練（training），即利用樣本數(shù)據(jù)來(lái)訓(xùn)練AI模型。由于任務(wù)不同，所以在設(shè)計(jì)過(guò)程中必須安排不同的架構(gòu)來(lái)對(duì)它們進(jìn)行支持。一般而言，推理過(guò)程通常需要高效的計(jì)算能力和低延遲的響應(yīng)速度，因此推理芯片的設(shè)計(jì)注重高效的計(jì)算單元和能耗控制；而訓(xùn)練過(guò)程則需要更高的計(jì)算能力和存儲(chǔ)能力，因此訓(xùn)練芯片的設(shè)計(jì)注重高度并行化和大規(guī)模存儲(chǔ)。

得益于更為優(yōu)秀的架構(gòu)設(shè)計(jì)，H100無(wú)論是在推理能力還是訓(xùn)練能力上都要比A100更優(yōu)。測(cè)試結(jié)果表明，它的16位推理速度大約是A100的3.5倍，16位訓(xùn)練速度則大約是A100的2.3倍。而從成本上看，H100大約是A100的1.5到2倍。由此可見(jiàn)，雖然H100的價(jià)格要比A100更貴，但從性?xún)r(jià)比看，H100則具有更大的優(yōu)勢(shì)。

這里尤其需要指出的是，當(dāng)Chat－GPT的爆火之后，大批企業(yè)都投入了大模型的開(kāi)發(fā)。對(duì)于這些企業(yè)而言，能夠更早地開(kāi)發(fā)出品質(zhì)優(yōu)良的大模型就能為自己在競(jìng)爭(zhēng)中獲得更為有利的位置，這就激發(fā)了它們對(duì)可以以更快速度訓(xùn)練模型的工具的渴望。

2、GPU的供應(yīng)狀況

既然現(xiàn)在價(jià)格已經(jīng)被炒上了天，那么供應(yīng)商就應(yīng)該抓住這個(gè)機(jī)會(huì)賣(mài)賣(mài)賣(mài)吧。但有意思的是，各大GPU供應(yīng)商遲遲不增加供給，逼得一些AI企業(yè)甚至不得不到二手市場(chǎng)去收購(gòu)舊的GPU。非不愿也，實(shí)不能也。

對(duì)于包括GPU在內(nèi)的半導(dǎo)體產(chǎn)品而言，整個(gè)供應(yīng)鏈可以分為三段：上游主要是指EDA、IP授權(quán)以及GPU芯片設(shè)計(jì)，中游主要是指GPU的制造和封裝測(cè)試，下游主要是集成商和終端銷(xiāo)售。其中，現(xiàn)在GPU卡口最嚴(yán)重的部分就出在供應(yīng)鏈的中游。

眾所周知，芯片的生產(chǎn)對(duì)于工藝的要求非常高，因此符合生產(chǎn)條件的制造商很少。以英偉達(dá)的H100為例，正如我們前面提到的，在英偉達(dá)采用了“無(wú)工廠(chǎng)”模式之后，其制造就全部委托給了臺(tái)積電。但是，即使是對(duì)臺(tái)積電而言，也只有N5、N5P、N4和N4P四個(gè)制程節(jié)點(diǎn)（注：制程節(jié)點(diǎn)指的是電路鑄造的制程工藝節(jié)點(diǎn)。通常以納米來(lái)衡量，例如N5指的就是5納米制程節(jié)點(diǎn)。制程節(jié)點(diǎn)越小,在一塊晶圓上可以制造的集成電路就越多。）可以用來(lái)進(jìn)行H100的制造。而由于臺(tái)積電的制作工藝突出，所以蘋(píng)果、高通等公司都在委托其進(jìn)行代工，因而英偉達(dá)就不得不需要和這些公司一起共用以上制程節(jié)點(diǎn)。除此之外，在封裝環(huán)節(jié)，臺(tái)積電也面臨著產(chǎn)能的限制。這些因素加在一起，就導(dǎo)致了H100在供應(yīng)鏈的中游面臨著非常緊的瓶頸。

與此同時(shí)，還需要注意的一點(diǎn)是，GPU的組件供應(yīng)也在一定程度上制約著它的供應(yīng)。仍以H100為例，其使用的關(guān)鍵組件高帶寬存儲(chǔ)器（HighBandwidthMemory，簡(jiǎn)稱(chēng)HBM）就面臨著很?chē)?yán)重的供應(yīng)限制。目前，英偉達(dá)在H100上使用的HBM幾乎都來(lái)自于韓國(guó)企業(yè)SK海力士半導(dǎo)體公司（SKHynix）。然而，SK海力士生產(chǎn)HBM的能力是有限的，這就對(duì)H100的產(chǎn)量構(gòu)成了直接的限制。有傳聞?wù)f英偉達(dá)可能從三星和美光采購(gòu)一部分HBM，但這兩家企業(yè)的產(chǎn)能依然是有限的，因此擴(kuò)大采購(gòu)范圍究竟可以在多大程度上緩解HBM的緊缺依然是一個(gè)問(wèn)題。

綜合以上分析，我們可以看到，雖然面臨著GPU需求的暴漲，但由于供應(yīng)鏈的制約，GPU的供應(yīng)量很難在短期內(nèi)出現(xiàn)重大提升。目前看來(lái)，由生成式AI所帶動(dòng)的算力需求增長(zhǎng)還會(huì)持續(xù)較長(zhǎng)的一段時(shí)間，因而至少在這段時(shí)間內(nèi)，GPU的供不應(yīng)求還會(huì)繼續(xù)存在。在需求定律的作用之下，這就導(dǎo)致了GPU這種半導(dǎo)體產(chǎn)品出現(xiàn)了十分反常的價(jià)格持續(xù)上升。因此，在融資當(dāng)中，它也就得以扮演起了抵押品的角色。

從財(cái)富之源到權(quán)力之杖

當(dāng)人們津津樂(lè)道于GPU竟然可以成為硬通貨，在金融市場(chǎng)上作為抵押品的時(shí)候，很可能忽略了另外一層更深的隱喻，即隨著GPU在AI時(shí)代作用的日益突出，它似乎正在成為AI領(lǐng)域的權(quán)力之源。

7月25日，微軟公布了它2023財(cái)年第四季度的財(cái)報(bào)。得益于和OpenAI的合作，微軟的云業(yè)務(wù)在本財(cái)季出現(xiàn)了大幅的增長(zhǎng)，帶動(dòng)了公司營(yíng)收狀況的顯著改善。與去年相比，其營(yíng)收同比增長(zhǎng)了8%，凈利潤(rùn)的同比漲幅更是達(dá)到了20%。在展示自己所取得的驕人成績(jī)的同時(shí)，微軟也在財(cái)報(bào)中提示了一些潛在的風(fēng)險(xiǎn)，其中之一就是GPU風(fēng)險(xiǎn)。微軟指出，GPU已經(jīng)成為了支撐其云業(yè)務(wù)迅速增長(zhǎng)的關(guān)鍵原材料，如果GPU的供應(yīng)不能保證，則其服務(wù)質(zhì)量可能會(huì)受到很大影響。

為了緩解對(duì)GPU的渴求，微軟可謂是不遺余力。一方面，它直接向英偉達(dá)方面示好，要求采購(gòu)更多的GPU。另一方面，它也想了一些迂回的方法。比如，在不久之前，它就和CoreWeave——也就是本文開(kāi)頭提到的那家抵押H100來(lái)借錢(qián)買(mǎi)H100的算力提供商達(dá)成了協(xié)議，約定將在未來(lái)幾年內(nèi)持續(xù)向后者提供金額數(shù)十億的投資，一起建設(shè)云計(jì)算的基礎(chǔ)設(shè)施。其原因在于CoreWeave和英偉達(dá)關(guān)系甚密，在不久前的B輪融資中，就得到了英偉達(dá)的投資。憑借著這層關(guān)系，英偉達(dá)方面許諾會(huì)優(yōu)先對(duì)CoreWeave提供GPU的供應(yīng)。因此，對(duì)于微軟來(lái)說(shuō)，投資CoreWeave就是和英偉達(dá)套了近乎，從而有機(jī)會(huì)讓它得到更多的H100和A100的使用權(quán)。看看微軟現(xiàn)在這番良苦的用心，再聯(lián)想英偉達(dá)創(chuàng)業(yè)之初為求生存不得不屈服于微軟創(chuàng)立的標(biāo)準(zhǔn)，真不禁讓人感嘆三十年河?xùn)|，三十年河西。

當(dāng)然，我們還可以舉出更多的GPU供應(yīng)商操控AI之戰(zhàn)的案例。一個(gè)典型的例子是我們前面起到過(guò)的Inflection。這家由DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼（MustafaSuleyman）創(chuàng)辦并擔(dān)任CEO的公司最近可謂風(fēng)頭正勁。和其他大模型公司不同，Inflection并不想創(chuàng)造無(wú)所不能的通用人工智能（AGI），而是將注意力集中在了個(gè)人智能（PI）領(lǐng)域。它的主要產(chǎn)品——名為Pi的聊天機(jī)器人功能也很單一，目前只有聊天。很顯然，在目前林立的AI模型中，這款產(chǎn)品并不出眾。然而，就是這樣一家看似平平無(wú)奇的公司，其估值卻達(dá)到了40億美元。除了它擁有的寶貴智力資源外，一個(gè)重要的原因就是GPU。不久前，Inflection公開(kāi)宣布，它將打造一個(gè)擁有2.2萬(wàn)塊H100芯片的超級(jí)計(jì)算集群，以支持新一代AI大模型的訓(xùn)練和部署。這個(gè)集群的集成數(shù)量已經(jīng)完全超越了臉書(shū)于5月宣布的計(jì)劃。

Inflection是怎么做到的呢？只要我們看一下它的投資人，答案就立即揭曉了。是的，在它的投資人中，就有英偉達(dá)。另外值得一提的是，Inflection在打造這個(gè)集群的過(guò)程中，還有一個(gè)重要的合作者——CoreWeave。而正如我們已經(jīng)看到的，它也是英偉達(dá)的利益共同體。由此可知，Inflection得以爆火的背后，英偉達(dá)以及它手中的GPU應(yīng)該起了關(guān)鍵的作用。

記得今年3月，各大生成式AI公司激戰(zhàn)正酣的時(shí)候，曾有一位記者來(lái)采訪(fǎng)我，她問(wèn)：“依您看來(lái)，這場(chǎng)AI大戰(zhàn)的最后贏家會(huì)是誰(shuí)？微軟，谷歌，還是OpenAI？”我當(dāng)時(shí)的回答是：“我不知道它們當(dāng)中誰(shuí)會(huì)贏，但最后的贏家里一定有英偉達(dá)！”現(xiàn)在看來(lái)，這個(gè)回答是完全正確的。不過(guò)，如果現(xiàn)在她再問(wèn)我這個(gè)問(wèn)題，我會(huì)在答案上再加一句：或許，它還能用GPU投票，決定誰(shuí)會(huì)是贏家。