ChatGPT正在榨幹算力，如何打贏這場算力攻堅戰？--星空人工智能美女福利导航網

如何用更少的電，輸出更高的算力？

史上用戶增速最快消費級應用ChatGPT，自去年11月底發布以來，讓全球為其狂歡，各方勢力仍持續為此“上火”：用戶急著試探ChatGPT是否真的有那麽聰明，每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT，並展現自己的“調教”成果；

（ChatGPT每日點擊訪問量統計圖源：國盛證券研究所）

國內互聯網大廠們基於要“活下去”的心願和講更動聽的AI故事，急著與ChatGPT扯上關係：一時間百度、騰訊、阿裏等紛紛拿出相關美女福利导航布局以及底層設施儲備，為中國的ChatGPT奮力一戰；

近3個月過去，ChatGPT熱度絲毫未減，有關部門也在努力：

2月24日，東數西算一體化算力服務平台在寧夏銀川正式上線發布。據悉，東數西算一體化算力服務平台將瞄準目前最稀缺、剛需迫切的ChatGPT運算能力，以支撐中國星空人工智能運算平台急需的大算力服務。

目前，該平台已吸引曙光、中國電子雲、天翼雲、阿裏雲、華為、中興等大算力頭部企業，以及國家信息中心、北京大數據研究院等中國主要大數據機構入駐。

各方勢力蜂擁而至，足以見得，目前的算力填補不了ChatGPT們的需求，眾誌成城，才能打贏ChatGPT算力攻堅戰。

本文試圖探究，ChatGPT到底需要多大的算力？升級算力的路子是什麽？

ChatGPT，企圖榨幹算力

通用AI時代來臨，人類對於算力的需求正逐漸失控。

伴隨著摩爾定律失效，大模型時代來臨，算力不再“淡定”，每5-6個月就要翻倍，以困獸衝破牢籠之勢飛速增長：

（模型及算力變化圖源：浙商證券）

2018年，穀歌帶著3億參數BERT模型，闖進大眾視野，開啟大規模預訓練模型時代；在這之後，OpenAI、英偉達、微軟先後推出15億參數的GPT-2、83億參數的Megatron-LM、170億參數的圖靈Turing-NLG，各個大廠暗自較勁，參數規模從十億級別競爭到了百億級別。

2020年6月，OpenAI又將算力“戰場”拔高了一個層級：推出1750億參數的GPT-3，把參數規模提高到千億級別。隨後一山更比一山高：微軟和英偉達在2020年10月聯手發布了5300億參數的Megatron-Turing自然語言生成模型（MT-NLG）。

2021年，國內迎來預訓練大模型元年。在這一年裏，華為、百度、阿裏等中國企業開始發力：

華為雲聯合北京大學發布盤古α超大規模預訓練模型，參數規模達2000億；

百度推出ERNIE 3.0 Titan模型，參數規模達2600億；

阿裏達摩院的M6模型參數達到10萬億，又將大模型參數帶到新的高度 ……

在這之中表現最為亮眼的，莫過於從GPT-3迭代而來的ChatGPT，2022年底一出世就博得全球目光，無論是在模型預訓練階段，還是模型被訪問階段，ChatGPT都對算力提出“史無前例”的要求。

在模型預訓練階段，從GPT-1到GPT-3，從GPT-3 Small到GPT-3 175B，對算力的需求呈指數型增長。

在大模型的框架下，每一代 GPT 模型的參數量均高速擴張，參數量從GPT-1的1.17億個，翻了1029倍至GPT-3 的1750 億個；

具體來看，在GPT-3曆代模型中，短短2年，參數量便從GPT-3 Small的1.25億個，翻了1399倍至GPT-3的1750億個，未來GPT-4還要翻倍：根據 Altman 的介紹，預計GPT-4的參數將會達到2800億個。

與此同時，在模型被訪問階段，ChatGPT對算力同樣有著“狂熱”需求：

據Similarweb數據，ChatGPT官網在2023年1月27日-2月3日一周內吸引的每日訪客數量高達2500萬。假設以目前的穩定狀態，每日每用戶提問約10個問題，則每日約有2.5億次谘詢量。

如果想要“消化”掉這2.5億次谘詢量，根據國盛證券測算，需要大量的A100 GPU芯片“連夜趕工”：

假設每個問題平均30字，單個字在A100 GPU上約消耗350ms，則一天共需消耗729,167個A100 GPU運行小時，對應每天需要729,167/24=30,382片英偉達A100 GPU。

也就是說，目前每天2.5億次谘詢量，需要30,382片英偉達A100 GPU同時計算，才能把ChatGPT“喂飽”，以下是ChatGPT部分耗費（電費以0.08美元/kwh計算）：

而以上圖表所顯示的，僅僅是2.5億谘詢量需求下，使用英偉達A100 GPU相關設備，ChatGPT所需要的算力成本。

其背後對能源的消耗，更是“觸目驚心”。

環球零碳研究中心曾粗略合計了ChatGPT全生命周期的碳足跡：自2022年11月30日運行以來，其製造設備的碳排放量超過了33.41噸，模型訓練碳排放超過552噸，運行60天碳排放約為229.2噸。

也就是說上線兩個月的ChatGPT，全過程碳排放超過了814.61噸，而這，相當於186個丹麥家庭每年消耗的能量。

現階段ChatGPT背後的大模型仍在迭代，每日訪問量仍在遞增，未來還會有更多的ChatGPT們湧現。彼時，算力以及其背後的功耗還能顧得過來嗎？

對此，蘇媽表示了擔憂：在ISSCC 2023上，蘇媽表示根據目前計算效率每兩年提升2.2倍的規律，預計到2035年，如果想要算力達到十萬億億級，則需要的功率可達500MW，相當於半個核電站能產生的功率，“這是極為離譜、不切合實際的”。

（2010-2040功率發展情況圖源：2023 IEEE international Solid-State Circuits Conference）

為了達到這樣的效果，美女直播全婐APP免费下载的計算效率起碼要每兩年提升2.2倍，才能匹配上2035年的算力需求。蘇媽坦言，盡管用上目前最先進的計算美女福利导航、最先進的芯片，也滿足不了ChatGPT們。

而當ChatGPT吞噬完大量算力、能源，“吃飽喝足”之後，各國打的不再是算力之爭，而是“國運之爭”：一旦搭載ChatGPT的人形星空機器人能夠大批量地上崗時，吃人口紅利的國家不再有顯著的優勢。

ChatGPT們，包括未來的人形星空機器人們，正對算力、能源“虎視眈眈”，同時對人類的威脅也不容小覷：往小了看，影響到個人職業發展，往大了看，牽扯到國家競爭力。

存算一體承載和釋放ChatGPT

而一切的一切，都得從打好算力之爭開始。

傳統的AI1.0時代的代表企業，例如AMD已經開始探尋新的出路：依靠係統級創新實現更大的突破。係統級創新，即從整體設計的上下遊多個環節協同設計來完成性能的提升。

一個經典案例是，在對模型算法層麵使用創新數製（例如8位浮點數FP8）的同時，在電路層對算法層麵進行優化支持，最終實現計算層麵數量級的效率提升：相比傳統的32位浮點數（FP32），進行係統級創新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優化FP32計算單元的效率，無論如何也難以實現數量級的效率提升。

於是，為解決“如何用更少的電，輸出更高的算力”這一終極命題，業內給出不少美女福利导航及方案：量子計算（量子芯片）、光機芯片、芯粒（Chiplet）、3D封裝、存算一體……。同時也有團隊將這些美女福利导航進行結合，以期達到係統級創新。

在這之中，現在能夠兼容CMOS工藝又能盡快量產的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業內普遍認為，能夠突破 AI 算力困境，進行架構創新的兩條清晰路線。

浙商證券指出，麵對未來潛在的算力指數增長，短期使用芯粒異構美女福利导航加速各類應用算法落地，長期來看，打造存算一體芯片，或將成為未來算力升級的潛在方式。

（架構創新路線圖源：浙商證券）

芯粒異構美女福利导航成為“種子”選手的原因是，該美女福利导航能夠突破先進製程的封鎖，且大幅提升大型芯片的良率、降低設計成本、芯片製造成本。

而之所以說是短期，是因為該美女福利导航路徑需要犧牲一定的體積和功耗，導致其目前隻能在基站、服務器、智能電車等領域廣泛使用。

為解決這一“小缺陷”，目前在學術界，已有團隊選擇將芯粒異構美女福利导航與存算一體架構相融合，以期達到1+1>2的效果：

在ISSCC 2022上，複旦大學芯片與係統前沿美女福利导航研究院劉明院士團隊提出多芯粒的存算一體集成芯片——COMB-MCM。

據團隊表示，電路上COMB-MCM采用存算一體設計，能夠降低功耗、提高係統算力。在存算一體的加持下，該芯片具有精度無損且支持非結構化稀疏的自適應能效調節特點，也就補足了芯粒異構美女福利导航的短板。

既是芯粒異構美女福利导航的最佳拍檔之一，同時也是未來架構創新路徑之一，存算一體為何能博得多方“歡心”？

這是因為存算一體成功打破了“三堵牆”：

在傳統馮·諾伊曼架構之下，芯片的存儲、計算區域是分離的。計算時，數據需要在兩個區域之間來回搬運，而隨著神經網絡模型層數、規模以及數據處理量的不斷增長，數據已經麵臨“跑不過來”的境況，成為高效能計算性能和功耗的瓶頸，也就是業內俗稱的“存儲牆”。

（存儲牆限製具體表現圖源：浙商證券）

存儲牆相應地也帶來了能耗牆、編譯牆（生態牆）的問題。例如編譯牆問題，是由於大量的數據搬運容易發生擁塞，編譯器無法在靜態可預測的情況下對算子、函數、程序或者網絡做整體的優化，隻能手動、一個個或者一層層對程序進行優化，耗費了大量時間。

這“三堵牆”會導致算力無謂浪費：據統計，在大算力的AI應用中，數據搬運操作消耗90%的時間和功耗，數據搬運的功耗是運算的650倍。

而存算一體能夠將存儲和計算融合，徹底消除了訪存延遲，並極大降低了功耗。基於此，浙商證券報告指出，存算一體的優勢包括但不限於：具有更大算力（1000TOPS以上）、具有更高能效（超過10-100TOPS/W）、降本增效（可超過一個數量級）······

存算一體，正在衝破三堵牆“解救”ChatGPT，加速算力升級。

大算力芯片需紮好馬步

除了架構創新，芯片本身的升級迭代也非常重要。作為基石的底層芯片，需要足夠“大”，AI大算力應用才能高樓平地起。

（ChatGPT研究框架圖源：浙商證券）

那麽AI大算力說的“大”到底是多大？

以2020年發布的GPT3預訓練語言模型為例，采用的是2020年最先進的英偉達A100 GPU，算力達到624 TOPS。2023年，隨著模型預訓練階段模型迭代，又新增訪問階段井噴的需求，未來模型對於芯片算力的需求起碼要破千。

再例如自動駕駛領域，根據財通證券研究所表明，自動駕駛所需單個芯片的算力未來起碼1000+TOPS。

目前巨頭已開始卷上1000+TOPS的SoC，主要用於自動駕駛領域：在2021年4月，英偉達就已經發布了算力為1000TOPS的DRIVE Atlan芯片。到了今年，英偉達直接推出芯片Thor達到2000TOPS。

故，大算力背景下，大算力芯片起碼得是1000+TOPS選手。

而在符合大算力條件下，也需要考慮到“用料”的功耗、造價問題。

目前，在存算一體架構優勢下，億鑄科技為當前的算力、能耗困局，給出一條解題思路：選擇有著麵積更小、微縮性好等特性的RRAM實現“同等能耗，更大算力；同等算力，更低能耗”，為各大數據中心、自動駕駛等應用領域“排憂解難”，在數字經濟時代，實現綠色算力。

而在存算一體架構下，傳統SRAM、閃存（Flash ) 均有著致命的缺陷，無法實現在大算力賽道的降本增效：

SRAM麵積較大，占據了英偉達數據中心級GPU總邏輯麵積的約50%。而一個A100 GPU的成本就在1萬美元以上，根據測算，成熟產品每GB SRAM內存的成本將在100美元左右，最貴的存儲器當屬SRAM。

除了成本難壓之外，SRAM也存在著不穩定的問題。SRAM 的問題在於它的靜態電流大，當大量的 SRAM 堆積在芯片上時，會產生一種被稱為 DI/DT 的工程性問題（也就是電流在短時間內大量變化），應用落地極具挑戰性。

基於這兩點考慮，SRAM 並不適合做大算力場景。據了解，目前采用 SRAM 的這些公司大都在基於邊緣端做小算力的場景，比如語音識別、智能家居的喚醒、關鍵命令詞的識別等。

同時，Flash也麵臨著因微縮性差導致不穩定的問題。傳統存儲器的局限性讓行業逐漸將目光逐漸轉向了新型存儲器：

比如近期英飛淩宣布其下一代 AURIX ™微控製器 ( MCU ) 將采用新型非易失性存儲器 ( NVM ) RRAM ( ReRAM ) ；
億鑄科技自2020成立以來，就專注於研發基於RRAM的全數字存算一體大算力AI芯片。

ChatGPT，需要存算一體的“解救”，也需要該架構下，更物美價廉（微縮性好、單位麵積小、成本低）的新型存儲器RRAM的大力支持。

億歐獲悉，億鑄科技今年將誕生首顆基於RRAM的存算一體AI大算力芯片。屆時，或許“ChatGPT們”以及其下遊的應用能夠基於該芯片，更輕鬆地吸取算力，更快實現“智力”升維。

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 大數據 » ChatGPT正在榨幹算力，如何打贏這場算力攻堅戰？

ChatGPT，企圖榨幹算力

存算一體承載和釋放ChatGPT

大算力芯片需紮好馬步

相關推薦