市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

幾乎所有AI里程碑都執行在英偉達的硬體上

有一個關於英偉達如何從遊戲和圖形硬體轉向主宰AI晶片的虛構故事,它與「貓」有關。

早在2010年,現任英偉達首席科學家的比爾·達利 (Bill Dally) 與斯坦福大學前同事、計算機科學家吳恩達 (Andrew Ng) 共進早餐,當時他正在與谷歌合作一個專案。

「他試圖在網際網路上尋找貓——他沒有那樣說,但他就是這樣做的。」達利說。

吳恩達在Google X實驗室負責的專案旨在構建一個可以自主學習的神經網路。這個神經網路在YouTube上觀看了1000萬個影片,學會了如何識別人臉、身體和貓,但要做到這一點,系統還需要數千個CPU。

達利建議吳恩達,這個工作可以用GPU來做,因為GPU專門用於處理更密集的工作負載,例如3D渲染,這使得它們在處理AI方面比CPU更拿手。

為此,達利求助於現在領導英偉達深度學習研究的Bryan Catanzaro。他猜對了,僅用了12個GPU就把吳恩達設計的識別貓的神經網路訓練好,這證明了在處理平行計算方面,GPU比CPU更快、更有效。

不過,Catanzaro希望人們知道英偉達開始AI方面的努力並非緣於那次偶然的早餐。事實上,在2008年加入英偉達之前,他還是伯克利分校的研究生時就一直在為AI開發GPU。

「英偉達在這個市場上的地位並非偶然。」Catanzaro表示。

Cambrian AI Research的分析師Karl Freund表示,英偉達佔據了人工智慧演演算法訓練市場「近100%」的份額。500強超級計算機中近70%使用其GPU。幾乎所有AI里程碑都發生在英偉達的硬體上。吳恩達的YouTube cat finder、DeepMind的AlphaGo、OpenAI的語言預測模型GPT-3都在英偉達的硬體上執行。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

英偉達GPU已經覆蓋了整個行業?

儘管英偉達取得了這樣的成功,但英偉達負責深度學習研究的副QuattroporteCatanzaro仍然對一些人的說法感到不滿,即英偉達是盲目地從遊戲領域進入人工智慧領域的。

「我讀過的幾乎每一個故事都是這樣的:圖形處理器碰巧在人工智慧方面表現出色,英偉達透過向新市場出售現有晶片獲得了暫時的意外之財,很快它們就會被初創公司取代。

但10年來,英偉達一直把進軍AI市場作為重要的戰略。」Catanzaro說。

十年過去了,市場已經成熟,可以進行顛覆。越來越多的企業開始使用人工智慧來理解他們收集的海量資料,而政府則將資金投入深度學習研究以保持領先地位。科技大國之間的競爭尤為激烈;德勤分析師Costi Perricos表示,人工智慧將成為各國競爭的「下一個焦點」。與此同時,深度學習模型的規模和複雜性不斷增加,需要更多計算能力。

OpenAI的GPT-3就是一個極端的例子,它由1750億個引數組成,這些引數是構成模型的變數,它的訓練計算成本估計為460萬美元。需要更高效的硬體來處理更多引數和更多資料以提高準確性,同時還要防止人工智慧成為更大的環境災難——丹麥研究人員計算出,訓練GPT-3所需的能量相當於駕駛70萬公里的碳足跡。

我們需要更多的人工智慧晶片,我們需要更好的人工智慧晶片。雖然英偉達的早期工作為GPU製造商提供了領先優勢,但挑戰者正在競相迎頭趕上。

谷歌於2015年開始製造自己的晶片;在2016年收購Annapurna Labs後,亞馬遜去年開始將Alexa的大腦轉移到自己的Inferentia晶片上;百度旗下的崑崙,最近估值為20億美元;高通擁有Cloud AI 100;IBM 正在致力於節能設計。AMD收購Xilinx用於AI資料中心工作,Intel在2019年為其Xeon資料中心CPU添加了AI加速;它還收購了兩家初創公司:2016年以4.08億美元收購了 Nervana,2019年以20億美元收購了Habana Labs。尚未被搶購的初創公司已經發布了自己的硬體,在過去幾年中,Graphcore、Samba Nova、Cerebras、Mythic AI等公司釋出或試用了AI晶片。

我們仍處於人工智慧的早期階段。這些初創公司大多隻有幾年的歷史。

隨著智慧物聯網裝置開始一場機器對機器的革命,更多的資料集將會流動起來,所有人的觀點都集中在同一件事上:擁有人工智慧晶片的公司擁有未來。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

Bryan Catanzaro,英偉達副Quattroporte,領導英偉達深度學習研究。

機器學習對工作量不同於其他任何計算,需要使用欠精確的數字進行大量的數學計算。傳統的高效能計算(HPC)是將多個系統連線在一起,構建超級計算機來處理複雜的工作負載,如科學模擬或金融建模,需要高精度的數學,使用64位數字(如果不是更高的話)。

「數學運算大部分都很簡單,但有計算量很大。」人工智慧計算也需要大量的計算基礎設施,但所使用的數學計算並不精確,數字是16位甚至是8位,這類似於超現實影象和80年代畫素化遊戲之間的區別。

人工智慧晶片是透過程式設計框架(如谷歌Tensor Flow和Facebook的PyTorch)最佳化以執行機器學習工作負載的處理器。在訓練或執行深度學習模型時,AI晶片不一定會完成所有工作,而是作為加速器快速處理最密集的工作負載。

例如,英偉達的盒裝AI系統DGX A100使用8個自己的A100「Ampere」GPU 作為加速器,但還配備了128核AMD CPU。

人工智慧並不新鮮,但我們之前很難使深度學習模型成為可能的計算能力,這讓研究人員不得不等待硬體跟上他們的想法。

「GPU的出現打開了一扇大門。」另一家製造人工智慧晶片的初創公司SambaNova的聯合創始人兼執行長Rodrigo Liang表示。

2012年,多倫多大學的研究人員Alex Krizhevsky在一年一度的ImageNet計算機視覺挑戰賽中擊敗了其他競爭對手,該挑戰賽讓研究人員相互競爭以開發可以識別影象或其中物體的演演算法。Krizhevsky首次使用由GPU驅動的深度學習來擊敗手工的編碼工作。到2015年,所有在ImageNet競賽中排名靠前的都是使用GPU。

深度學習研究爆炸式增長。英偉達的技術性能提高了20倍甚至更多,當英國晶片初創公司Graphcore的聯合創始人成立公司時,投資人都不見他們。

我們從VC那裡聽到的問題是:「什麼是人工智慧?」該公司聯合創始人兼首席技術官西蒙•諾爾斯回憶起2015年去加州尋求融資的經歷。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

幾個月後,也就是2016年初,一切都變了。「那時,每個人都熱衷於人工智慧。」諾爾斯說。「然而,他們不喜歡晶片。」新的晶片架構被認為是不必要的,英偉達已經覆蓋了整個行業。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

新需求與新競爭,英偉達與AI晶片的未來之戰

GPU、IPU、RPU都用於處理深度學習的資料集,但名稱確實反映了架構上的差異。Graphcore的Colossus MK2 IPU與獨立執行的處理器是大規模並行的,這種技術被稱為多指令、多資料。

但是,在2016年5月,谷歌改變了一切,他們宣佈已經為人工智慧應用開發了自己的晶片,它被稱為張量處理單元 (TPU),它會與TensorFlow框架配合使用。諾爾斯表示,這向投資者發出了一個訊號,即新的獨立AI處理器設計可能存在市場。

突然間,AI晶片的投資開始變得火熱,從那時起,Graphcore已經籌集了7.1億美元。

英偉達的競爭對手稱,GPU是為圖形而不是機器學習而設計的,儘管其強大的處理能力幫讓它們在人工智慧任務方面比CPU更好,但是,它們的市場主導地位持續這麼長時間主要是因為精心最佳化和複雜的軟體層。

「它之所以有效,是因為他們建立的軟體庫、框架和最佳化,使複雜性得以隱藏。對於英偉達來說,這是一項非常艱鉅的任務。」Graphcore 聯合創始人兼執行長Nigel Toon說。

英偉達的競爭者們認為相比GPU,從頭開始設計一個具有全新架構的AI晶片會更好,使用者會有很多選擇。Google的TPU是專用積體電路(ASIC),專為特定工作負載而設計;Cerebras製造了一個晶圓級引擎,這是一個比任何其他晶片大56倍的龐然大物;IBM和BrainChip以人腦為模型製造神經形態晶片;Mythic和Graphcore都製造了智慧處理單元(IPU),儘管它們的設計有所不同。

任何人都可以競爭這個領域嗎?英偉達在核心基準測試MLPerf中佔主導地位,MLPerf是深度學習晶片的黃金標準,它是由包括谷歌在內的學術界和行業參與者設計的基準測試工具,目前由谷歌和英偉達主導。

英偉達在這方面確實很強,它每年都要超過谷歌的TPU。谷歌發明了MLPerf來展示他們的TPU有多好,黃仁勳則希望谷歌每次執行MLPerf基準測試時,結果都顯示GPU比TPU稍微快一點。

為了確保它在一個版本的基準測試中名列前茅,英偉達將一臺內部超級計算機從36個DGX盒升級到驚人的96個。這需要重新安裝整個系統。為了儘快完工,他們簡單地切斷了電纜並把新裝置運了進來。這可能有助於突出基準驅動下的瘋狂行為,但它也啟發了重新設計DGX:當前一代區塊現在可以以20個為一組組合,而無需重新佈線。

在基準測試和超級計算機方面,堆更多晶片是有效的。但對於AI計算的另一面,邊緣推理,這是一個不同的故事。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

一個 NVIDIA SuperPOD,它的機架構成了 Cambridge-1 超級計算機

英偉達在2020年以400億美元的價格收購了ARM,這家英國晶片設計公司的架構為全球95%的智慧手機提供支援,這引起了全世界的關注。

但各界反應不一,早已卸去實際職務而只擔任ARM股東的ARM聯合創始人Hermann Hauser認為英偉達收購ARM是一場「災難」,這可能會破壞ARM在市場上的中立性。世界各地的監管機構:歐盟、英國、中國和美國,正在密切研究該交易。

ARM設計晶片,將智慧財產權授權給公司以供其使用。如果AI晶片製造商需要用於系統的CPU,他們可以從ARM獲得晶片設計許可,並按照他們的規格製造。競爭對手擔心英偉達控制ARM可能會限制這些合作夥伴關係,儘管黃仁勳明確表示英偉達會尊重ARM的開放模式。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

Cerebras執行長Andrew Feldman意識到,晶片上的通訊速度很快,但它們之間的通訊速度會變慢,所以為什麼不建造一個真正的大晶片,這樣你的資料就永遠不必離開? Cerebras Wafer Scale Engine將400000個核心塞進46.225平方毫米。「GPU 有正確的核心,但有錯誤的通訊架構。」他說。

ARM是晶片的主要設計者,該晶片將在現實世界中應用深度學習,即所謂的邊緣推理。這意味著該交易可能對市場形態產生巨大影響;在ARM幫助下,英偉達可以憑藉其GPU和邊緣優勢在資料中心領域佔據主導地位。

什麼是邊緣推理?為了訓練和應用模型,英偉達強大、高效能的系統會對資料進行大量處理,但人工智慧還有另一種工作量稱為推理,這是一項更輕量級的任務,即使用訓練過的模型來解釋一些東西。比如無人駕駛汽車理解攝像頭看到的東西,一個智慧手機應用程式發現你的臉部邊緣,把貓耳朵貼在你的自拍照上,或者一個醫學成像模型在掃描中發現癌症的跡象。由於需要巨大的計算能力,訓練是在一個數據中心完成的,但推理可以在兩個地方找到。

第一個也在資料中心:當你向Alexa或Siri提問時,它會被髮送回亞馬遜和蘋果的伺服器進行轉錄和回覆。第二個推理發生在終端使用者裝置中,例如相機、汽車和智慧手機。這需要較少的處理能力,但需要快速(沒有人願意等待他們的無人駕駛汽車思考後再決定是否剎車)。

英偉達目前在資料中心方面佔據主導地位。它的A100處理用於訓練的資料,而推理被虛擬化為更小的微型伺服器,允許在同一硬體上同時發生50個或更多推理工作負載。這對於像AWS這樣提供AI即服務的科技巨頭很有幫助,因為多家公司可以使用相同的硬體而沒有資料洩露的風險。

在邊緣,英偉達有用於無人駕駛汽車的DRIVE和用於現場推理的EGX,但低功耗晶片不是它的傳統專長。低功耗晶片是ARM的領域,這也是英偉達斥資400億美元收購該公司的原因。

談到人工智慧,ARM的努力主要集中在兩個領域。首先,它正在將軟體框架安裝到其現有的CPU上。對於更密集的工作負載,它開發了一種稱為Ethos的神經處理單元 (NPU),用作加速器。ARM的IP產品部QuattroporteRene Haas表示,使用 Ethos-U55的裝置應該很快就會到貨,因為獲得該設計許可的公司已經生產了晶片。

有了邊緣人工智慧,語音助手將不再需要將語音上傳到AWS或蘋果伺服器進行處理,而是可以根據本地智慧做出響應。

「它允許工作在靠近源頭的地方完成,這在很多方面都有助於提高效率。」Haas說,並指出將資料來回傳送到雲會消耗電池電量。

「我們談論物聯網已經很長時間了,但直到現在才實現這一願景。」英偉達歐洲、中東和非洲地區副Quattroporte戴維·霍根 (David Hogan) 表示,「正是這種轉變是我們收購ARM計劃的核心。」

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

Cambridge-1超級計算機受控環境中的技術人員

當其他人都在烤香蕉麵包、狂看Netflix的時候,英偉達的解決方案架構和工程主管Marc Hamilton在去年花了很多時間建造了一臺價值4000萬英鎊的超級計算機,克服了疫情造成的短缺,基本上按時組裝了Cambridge-1。

英偉達樂高式系統使構建變得更加容易。8個A100晶片構成了被稱為DGX的計算系統的核心,售價19.9萬美元,是一臺完整的人工智慧計算機,具有記憶體、網路和其他功能,被設計成相對即插即用。Cambridge-1由一排排裝著20個DGX的金盒子組成,被稱為「超級pod」。

Cambridge-1將成為英國最大、最強大的人工智慧超級計算機,在世界上排名第30位,但它只會在英偉達自己的集合中排名第五。Cambridge-1使用80個DGX A100盒子建造,而最大的Selene使用了560個盒子。

英偉達在英國建造Cambridge-1的部分原因是收購了 ARM,因為收購意味著該公司在英國獲得了員工。雖然它不是整體最快的,也不是最大的,但是,Cambridge-1聲稱擁有兩個第一。

Hamilton稱其為世界上第一臺雲原生超級計算機,因為它具有類似於AWS的分割槽功能,讓公司可以使用相同的硬體而不會出現安全漏洞或資料洩露的風險。

這讓Cambridge-1有了第二個第一:這是英偉達將向外部合作夥伴開放的唯一超級計算機,讓大學和醫療保健巨頭Astra Zeneca、Oxford Nanopore和 GSK執行自己的深度學習模型。

為什麼英偉達要建造自己的超級計算機?原因之一是它需要用這種工具來吸引最優秀的人。早在2016年,英偉達還沒有超級計算機,Facebook 和谷歌正在搶購最優秀的人工智慧研究人員。

「有時候人才流動並不完全取決於薪酬,谷歌和Facebook擁有數以千計的GPU用於運營業務,並且允許AI研究人員使用這些GPU。」Hamilton說。

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

SambaNova Systems的軟體定義方法將資料放在首位,用過濾和減少指令代替加法和減法等整數。SambaNova將其設計稱為可重新配置的資料流,這是透過每個「Cardinal」晶片的1.5TB記憶體實現的,其中每個DataScale SN10-8R系統中有8個記憶體。

現在,英偉達超級計算機Selene是世界第五大計算機,僅次於中國,美國,日本的幾臺機器,這意味著如果你是一名想要獲得最快AI硬體的研究人員,你可以為中國、美國或英偉達工作。中國的目標是到2030年成為人工智慧的全球領導者,而美國則希望保持其在技術上的領先地位;人工智慧方面可能會變成一場軍備競賽。

在Catanzaro領導的40人實驗室,研究人員開發了可在自己系統中使用的人工智慧,但該實驗室還充當系統架構師的「玻璃容器」,可以窺視深度學習模型在未來的工作方式。

「如果你想為未來製造晶片,希望它對未來有用,你必須有能力預測未來最重要的工作負載是什麼,以及它們在計算上是什麼樣子。如果你搞砸了,你就製造了錯誤的晶片。晶片的設計和製造需要數年時間,這種遠見是必要的。」Catanzaro說。

雖然目前大多數研究人員目前都在研究GPU,但開發模型有沒有可能脫離GPU呢?「如果開發的模型不再在GPU上執行,或者至少不能在GPU上執行,會發生什麼?」英偉達首席科學家Dally認為這並非不可能。

「新模型釋出之前,我們通常已經聽說過它並有機會對其進行測試,確保它在我們的GPU上執行良好。」他說。

英偉達的競爭對手們則不同意,他們認為GPU可能會阻礙深度學習模型發揮其全部潛力。「每個人都將他們的模型轉向當今的技術。」Cerebras的Feldman說。

「我們最高興和最興奮的事情之一是看到一群正在編寫全新模型的客戶。今年 Cerebras將展示所謂的”GPU不可能work”的例子。」

Graphcore的Toon則說,研究人員早就告訴他,今天的硬體阻礙了他們。他的搭檔諾爾斯則引用了奧威爾的話:「這就像是一種簡單的語言阻止了人們思考更復雜的問題。」

「有一些想法,例如機率機器學習,仍然被擱置,因為像GPU這樣的硬體無法支援這種想法繼續向前發展,競爭焦點將是英偉達能夠以多快的速度發展GPU,還是會推出新的東西來實現這一點?」Toon說。

麻省理工學院計算機科學和人工智慧實驗室的研究員尼爾·湯普森在人工智慧會議上注意到一個趨勢,研究人員暗示,計算能力的限制阻礙了他們的模型,限制了他們的選擇和資料集,迫使一些人在他們的工作中留下錯誤,因為他們負擔不起重新執行模型來解決問題。

湯普森和同事分析了1058篇AI論文,發現機器學習的計算需求遠遠超過硬體改進或模型訓練效率。在這條道路上,系統有朝一日將花費數億甚至數十億美元來訓練,並且還有其他成本。

「使用更多GPU的問題在於,每次GPU數量增加一倍,成本就會增加一倍,環境足跡、碳和汙染也會增加一倍。」湯普森表示。

他認為,無論是來自英偉達還是其他廠商的晶片,僅靠新的硬體解決方案都不足以阻止人工智慧創新陷入困境。相反,我們需要構建更高效的模型並更好地利用我們已有的模型。諸如稀疏性之類的想法—忽略資料集中的零以節省計算—可以提供幫助,因為對資料更加有條理,只將其與相關引數進行比較。另一個想法是將我們從模型中學到的東西提煉成更輕量級的方程,只執行模型的相關部分而不是大量通用部分。

如果沒有這樣的努力,我們將需要更大的資料中心。但人工智慧不應該僅限於那些買得起超級計算機的人。「在從事高階深度學習工作的大學中,計算機能力較弱的大學所佔比例已經越來越小。」湯普森補充道。

削減成本,這可能是初創公司贏得客戶對抗現有企業的一種方式。AWS去年將Habana Labs的晶片新增到其雲中這會讓執行成本降低了 40%。

「為了讓AI惠及所有人而不僅僅是富人,你確實需要提高性價比。」Habana Labs首席商務官Eitan Medina表示。

「人工智慧已經存在偏見問題,而對硬體的不平等訪問加劇了這一問題。這意味著我們只會看到硬幣的一面。」英偉達新興領域負責人Kate Kallot說。

她指出聯合國的可持續發展目標:許多人工智慧研究人員正在將他們的工作轉向解決貧困和氣候危機等挑戰,但這些問題將在很大程度上影響新興市場。

除此之外,還有其他挑戰。在新冠疫情期間,晶片的製造一直受到限制。歐盟最近承諾,到2030年,將生產全球五分之一的高階晶片。晶片設計商大多外包製造——英偉達的晶片是由臺積電製造的。今年3月,英特爾宣佈計劃首次在美國開設兩家新工廠,為外部設計師生產晶片,這或許會讓美國在製造方面擁有更多控制權。

隨著這些障礙被克服,晶片繼續進化,人工智慧將擴充套件到觸控一切,就像wifi支援和應用程式被新增到從烤麵包機到冰箱的物體上的連線浪潮一樣。但在未來,智慧不僅僅意味著聯網,還意味著嵌入人工智慧。

「在未來幾年內,人工智慧將無處不在地出現在每一個計算應用程式中。」ARM的Haas說。

更多精彩文章:

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

市值達到Intel兩倍後,英偉達能否打贏與AI晶片的未來之戰?

創始合夥人許四清獲得2020年「福布斯中國最佳創投人」、投中「2019年中國最佳早期投資人TOP50」,以及36氪「2018年中國企業服務領域投資人TOP10」、「2019企業服務領域投資人TOP20」等獎項。創始合夥人蔣亞萌獲得2019年「福布斯中國最佳創投人」、36氪「2019年中國中生代投資人TOP50」大獎。

BP請投遞到:bp@alphastartups.net,7 天內快速收到回覆,直接約見資深合夥人。