首頁(yè)>消費(fèi) >
環(huán)球快看:大模型橫行:不到2月10余個(gè)問世 燒30億就能煉造?激戰(zhàn)背后機(jī)會(huì)在哪兒? 2023-04-24 14:49:19  來源:每日經(jīng)濟(jì)新聞

ChatGPT的火爆帶動(dòng)了國(guó)內(nèi)對(duì)大語(yǔ)言模型的開發(fā)熱潮。從百度3月份發(fā)布“文心一言”以來,不到兩個(gè)月,國(guó)內(nèi)互聯(lián)網(wǎng)大廠、AI企業(yè)和初創(chuàng)團(tuán)隊(duì)陸續(xù)官宣了約10個(gè)大模型項(xiàng)目。此番熱鬧場(chǎng)景讓不少人感慨:自從“千團(tuán)大戰(zhàn)”之后,中國(guó)互聯(lián)網(wǎng)產(chǎn)業(yè)已經(jīng)有十年沒有如此“卷”過了。


(資料圖)

面對(duì)英偉達(dá)CEO黃仁勛所謂的AI“iPhone”時(shí)刻,沒有人愿意被甩在“大模型時(shí)代”的浪潮身后。然而,“煉大模型”需要的是天量的算力支持和資金投入,據(jù)悉,僅硬件上的投資就需要30億元,這無(wú)疑考驗(yàn)著參與者的資金實(shí)力和戰(zhàn)略定力。

AI大模型最終將是大廠之間的“游戲”嗎?中小企業(yè)的機(jī)會(huì)又在哪里?《每日經(jīng)濟(jì)新聞》采訪了多家互聯(lián)網(wǎng)大廠、逐浪AI的創(chuàng)業(yè)者及行業(yè)人士,一窺這場(chǎng)競(jìng)速賽中的發(fā)展現(xiàn)狀。

熱到發(fā)燙的大模型

隨著ChatGPT的現(xiàn)象級(jí)爆紅,國(guó)內(nèi)科技領(lǐng)域的創(chuàng)業(yè)熱情也被點(diǎn)燃。一時(shí)間,打造“中國(guó)版OpenAI”和類ChatGPT產(chǎn)品成為最熱門的話題和趨勢(shì)。

互聯(lián)網(wǎng)大廠自然不會(huì)錯(cuò)失這樣的機(jī)遇。百度已率先推出“文心一言”,阿里巴巴發(fā)布“通義千問”,華為也介紹了“盤古”大模型的最新進(jìn)展……

據(jù)《每日經(jīng)濟(jì)新聞》記者的不完全統(tǒng)計(jì),今年3月~4月,已經(jīng)約有10家企業(yè)及機(jī)構(gòu)發(fā)布大模型或啟動(dòng)大模型測(cè)試邀請(qǐng)。接下來,蓄勢(shì)待發(fā)的還有騰訊的“混元”、京東的“言犀”、字節(jié)跳動(dòng)的自研大模型等一系列大模型。

大廠之外,還有許多重量級(jí)科技大佬也已高調(diào)入局。原美團(tuán)聯(lián)合創(chuàng)始人王慧文、前搜狗CEO王小川、創(chuàng)新工場(chǎng)董事長(zhǎng)兼首席執(zhí)行官李開復(fù)等相繼成立初創(chuàng)公司,投身AI大模型創(chuàng)業(yè)。

圖片來源:每經(jīng)記者蘭素英制圖

一場(chǎng)“百模大戰(zhàn)”就此在國(guó)內(nèi)全面拉開序幕。

一名不愿具名的硅谷大模型工程師認(rèn)為,國(guó)內(nèi)現(xiàn)在的大模型領(lǐng)域有點(diǎn)過熱?!霸诤M?,搞大模型的其實(shí)就那么幾家。在國(guó)內(nèi),競(jìng)爭(zhēng)對(duì)手的數(shù)量是美國(guó)的幾倍,而市場(chǎng)就這么大?!彼嬖V《每日經(jīng)濟(jì)新聞》記者。

這種熱到發(fā)燙的形勢(shì)也讓許多人質(zhì)疑,蜂擁的投入能不能在商業(yè)價(jià)值上帶來回報(bào)。長(zhǎng)期關(guān)注芯片產(chǎn)業(yè)的集微咨詢資深分析師錢禹對(duì)《每日經(jīng)濟(jì)新聞》記者表示,“我個(gè)人覺得是有機(jī)會(huì)的,因?yàn)楝F(xiàn)在的AIGC(AI生成內(nèi)容)產(chǎn)品的準(zhǔn)確性和效率的優(yōu)勢(shì)是非常明顯的?!彼J(rèn)為,互聯(lián)網(wǎng)和AI的商業(yè)模式靈活度很高,未來既可做API或者SDK開發(fā)包的授權(quán),也可以參與硬件業(yè)務(wù),探索to B和to C的服務(wù)。

圖片來源:阿里云提供

“缺芯”卡脖子

隨著眾多玩家“入局”大模型研發(fā),一場(chǎng)關(guān)于算力的爭(zhēng)奪戰(zhàn)也打響了。

在業(yè)內(nèi),開發(fā)大語(yǔ)言模型被戲稱為“煉大模型”,是一個(gè)“大力出奇跡”的模式,指的就是依靠巨大算力訓(xùn)練海量數(shù)據(jù)后“涌現(xiàn)”出的對(duì)答如流能力。ChatGPT的成功就得益于微軟慷慨的資金和算力支持。美國(guó)市場(chǎng)研究機(jī)構(gòu)TrendForce推算稱,處理ChatGPT的訓(xùn)練數(shù)據(jù)需要2萬(wàn)枚GPU芯片,而隨著OpenAI進(jìn)一步展開ChatGPT和其他GPT模型的商業(yè)應(yīng)用,其GPU需求量將突破3萬(wàn)張(該報(bào)告計(jì)算以A100芯片為主)。

行業(yè)人士普遍認(rèn)為,1萬(wàn)顆A100芯片是訓(xùn)練大模型的入門券。馬斯克4月17日表示,他要開發(fā)一款名為“TruthGPT”的AI模型,叫板ChatGPT。據(jù)外媒報(bào)道,馬斯克已經(jīng)為搭建大模型購(gòu)入了1萬(wàn)張A100芯片。

“現(xiàn)在(國(guó)內(nèi)大模型廠商面臨的)問題是買不到芯片。對(duì)于目前訓(xùn)練大模型的主流芯片,例如英偉達(dá)GPU A100和(更新一代的)GPT H100,市場(chǎng)上所有的公司都在搶貨。一個(gè)公司能搶到多少?”上述硅谷工程師反問道,“國(guó)內(nèi)真正有萬(wàn)卡級(jí)別的公司是鳳毛麟角。”

據(jù)此前媒體報(bào)道,國(guó)內(nèi)擁有超過1萬(wàn)枚GPU的企業(yè)不超過5家,且多為英偉達(dá)中低性能產(chǎn)品,而擁有1萬(wàn)枚A100芯片的企業(yè)最多只有一家。

在A100這樣的“香餑餑”短缺的情況下,英偉達(dá)在國(guó)內(nèi)市場(chǎng)推出了A100的低配版A800和專為ChatGPT研發(fā)的H100芯片的“特供版”芯片H800,但A800和H800的數(shù)據(jù)傳輸速率相比A100分別下降了30%和50%。有業(yè)內(nèi)人士對(duì)媒體表示,H800國(guó)內(nèi)已經(jīng)少量出貨,但新近下的訂單可能要年底才能到貨。

互聯(lián)極簡(jiǎn)聯(lián)合創(chuàng)始人&CTO馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,目前市場(chǎng)上有一些存量A100芯片,更多的是用A800在做芯片替代。他所在的公司就專注于應(yīng)用私有數(shù)據(jù)微調(diào)大模型,服務(wù)垂直行業(yè)。錢禹估計(jì),國(guó)內(nèi)的互聯(lián)網(wǎng)公司或算法公司之前肯定對(duì)英偉達(dá)芯片做了儲(chǔ)備,不過具體數(shù)量不好量化。

百度、阿里等大廠以及國(guó)內(nèi)芯片廠商也在自研芯片,但錢禹指出,目前這些自研芯片主要還是部署在大模型的推理階段,而非要求更高的訓(xùn)練階段。

少數(shù)人的游戲

即便市場(chǎng)上芯片供應(yīng)充足,但也不是每個(gè)入局者都能玩得起的,擋在他們面前的不僅是高昂的成本,還有協(xié)同發(fā)揮硬件設(shè)施的能力。

圖片來源:每經(jīng)記者蘭素英制圖

1)燒錢的GPU

取決于購(gòu)買量和英偉達(dá)的折扣政策,一顆80GB的A100芯片在國(guó)外的定價(jià)為1萬(wàn)~1.5萬(wàn)美元(約合人民幣68800~103300元)之間。

《每日經(jīng)濟(jì)新聞》記者注意到,目前京東售賣的的80GB A800芯片價(jià)格為89999元(約13079美元),而庫(kù)存僅剩數(shù)張。有媒體報(bào)道稱,實(shí)際上A800現(xiàn)在處于“有價(jià)無(wú)市”的情況,供應(yīng)緊張,真實(shí)成交價(jià)格高于平臺(tái)報(bào)價(jià)。即便按89999元一顆A800芯片的價(jià)格計(jì)算,1萬(wàn)顆的成本就是約人民幣9億元。

更重要的是,這還只是GPU芯片部分的成本,并非全部的硬件投入花費(fèi)。錢禹對(duì)《每日經(jīng)濟(jì)新聞》記者指出,除GPU外,建設(shè)數(shù)據(jù)中心還需要ASIC或FPGA類專用芯片、服務(wù)器CPU芯片,以及服務(wù)于分布式訓(xùn)練硬件架構(gòu)的光模塊通信芯片。搭建一臺(tái)服務(wù)器,刨除GPU芯片成本,還需要3萬(wàn)元到4萬(wàn)元的成本。據(jù)估算,一臺(tái)服務(wù)器多由8顆GPU組成,那1萬(wàn)顆GPU就意味著1250臺(tái)服務(wù)器,所涉及的GPU之外的成本就還需要3750萬(wàn)~5000萬(wàn)元。

業(yè)內(nèi)估計(jì),服務(wù)器的采購(gòu)成本通常為數(shù)據(jù)中心建設(shè)成本的30%,按此推算,一個(gè)服務(wù)于大模型的數(shù)據(jù)中心建設(shè)成本或超過30億元。

2)不只是GPU

構(gòu)建大模型的計(jì)算基礎(chǔ)設(shè)施,不僅是簡(jiǎn)單的硬件堆砌,更需要實(shí)際搭建過程中積累的know-how(實(shí)踐知識(shí))。

“大模型訓(xùn)練離不開密集型計(jì)算算力,今天模型的訓(xùn)練往往會(huì)以有多少?gòu)埧▉肀硎颈澈蟮乃懔?,其?shí)這是一個(gè)非常簡(jiǎn)單的描述,”阿里云CTO周靖人對(duì)《每日經(jīng)濟(jì)新聞》記者表示。

他進(jìn)一步指出,“所有GPU不是簡(jiǎn)簡(jiǎn)單單的堆砌,更需要的是讓所有GPU,讓異構(gòu)算力能夠聯(lián)合起來去為我們的模型訓(xùn)練服務(wù)。我們有成千上萬(wàn)的模塊,如何幫助他們有效地高速連接起來,如何能夠提供一個(gè)高吞吐、低延遲的網(wǎng)絡(luò)方案,對(duì)模型訓(xùn)練是至關(guān)重要的?!贝送?,完善的大規(guī)模的數(shù)據(jù)存儲(chǔ)和低延遲的網(wǎng)絡(luò)方案同樣重要。

前述硅谷工程師也認(rèn)為,就算是現(xiàn)在市面上能直接商業(yè)化買到的最強(qiáng)算力策略,也很難建設(shè)一個(gè)特別大的計(jì)算機(jī)群,因?yàn)檫B接芯片用的是電,而電的衰減很快,一般來說只能達(dá)到百卡互聯(lián)的量級(jí)。

“如果是距離較近的芯片連接,你可能感受不到損耗;但如果距離稍微遠(yuǎn)一點(diǎn),例如說機(jī)器在10米遠(yuǎn)的地方,想把兩個(gè)卡連在一起,電的損耗實(shí)際上是非常大的?!彼麑?duì)記者解釋稱。

3) 訓(xùn)練和運(yùn)營(yíng)成本

硬件搭建完成后,大模型的訓(xùn)練花費(fèi)也不菲。馬力遙對(duì)記者透露,訓(xùn)練大模型門檻非常高,GPT-4的訓(xùn)練成本據(jù)估計(jì)達(dá)到了10億美元,是GPT-3的5倍。在他看來,大模型的訓(xùn)練絕對(duì)是少數(shù)人的游戲。

此外,錢禹還指出,若芯片性能不足,那模型的訓(xùn)練效率就會(huì)受到巨大影響。“比如一個(gè)大模型,用英偉達(dá)可能一個(gè)月就訓(xùn)練好了,但如果訓(xùn)練卡算力沒有人家那么好,那訓(xùn)練三個(gè)月或者半年都是有可能的?!倍绻涌煊?xùn)練速度,電力消耗就會(huì)攀升。

原騰訊副總裁、自然語(yǔ)言模型專家吳軍此前就在一次直播分享中形象地描繪了大模型訓(xùn)練中的電力成本:ChatGPT訓(xùn)練一次需要耗費(fèi)的電量,相當(dāng)于3000輛特斯拉電動(dòng)車每輛跑20萬(wàn)英里(32萬(wàn)公里)的耗電量。

一旦推出,每天的用戶訪問也需要大量算力支撐。相比訓(xùn)練階段,大規(guī)模運(yùn)營(yíng)的推理階段對(duì)算力要求更高。

半導(dǎo)體研究公司SemiAnalysis認(rèn)為,ChatGPT大規(guī)模服務(wù)用戶的成本遠(yuǎn)超訓(xùn)練成本,以GPT-3模型推算,ChatGPT每天的運(yùn)營(yíng)成本高達(dá)70萬(wàn)美元,新一代的GPT-4模型只會(huì)更燒錢。按每日70萬(wàn)美元計(jì)算,則ChatGPT一年的運(yùn)營(yíng)成本高達(dá)2.555億美元(約17.6億人民幣)。

國(guó)盛證券則從電費(fèi)角度進(jìn)行了分析,以英偉達(dá)A100芯片、DGX A100服務(wù)器、現(xiàn)階段每日2500萬(wàn)訪問量等假設(shè)為基礎(chǔ),ChatGPT的初始投入成本約為8億美元(約合人民幣55億元),對(duì)應(yīng)約4000臺(tái)服務(wù)器,每日運(yùn)行電費(fèi)約為5萬(wàn)美元。

這還沒算人力成本,高昂的投資意味著只有手握云計(jì)算、數(shù)據(jù)資源和資金實(shí)力的幾家大廠才能承擔(dān)開發(fā)大模型的成本。

出路在哪兒?

實(shí)際上,在巨額的投入面前,部分一開始激動(dòng)不已的創(chuàng)業(yè)者也逐漸冷靜。

出門問問創(chuàng)始人、前谷歌科學(xué)家李志飛曾在2月份第一個(gè)喊出做中國(guó)OpenAI的口號(hào),但在近期的采訪中,他已經(jīng)轉(zhuǎn)變思路,放棄了從零開始“煉大模型”的思路。他在一次采訪中提到, “兩個(gè)月以前,我就是要復(fù)制ChatGPT,但現(xiàn)在我覺得不想清楚商業(yè)模式到最后會(huì)很痛苦。”

那在這場(chǎng)AI“軍備賽”中,各路玩家的機(jī)會(huì)在哪里?

馬力遙告訴《每日經(jīng)濟(jì)新聞》記者,大模型產(chǎn)業(yè)主要分為三大塊:最底層是芯片,中間是大模型,最上面是大模型的開發(fā)應(yīng)用。

圖片來源:每經(jīng)記者蘭素英制圖(資料整理自采訪內(nèi)容)

英國(guó)工程技術(shù)協(xié)會(huì)會(huì)員、Frelan GPT的開發(fā)者張冶對(duì)《每日經(jīng)濟(jì)新聞》記者表示, “在日新月異的AI行業(yè),每個(gè)層級(jí)的廠商都有著自己的任務(wù)和使命。頭部的廠商有著大量的財(cái)力人力,應(yīng)該專注在核心技術(shù)的研發(fā)以及算法的迭代,把大部分的精力用于應(yīng)對(duì)國(guó)際上激烈的競(jìng)爭(zhēng)。中小型企業(yè)應(yīng)著重技術(shù)應(yīng)用,并且靈活的方式應(yīng)對(duì)活躍的市場(chǎng),并反哺頭部大廠?!?/p>

當(dāng)大廠跑出自己的路子,小企業(yè)就有機(jī)會(huì)站在巨人的肩膀上。前述硅谷工程師以MidJourney為例解釋說,“MidJourney實(shí)際上是一個(gè)非常小的公司。新時(shí)代的公司不會(huì)說‘賣漢堡是從養(yǎng)牛做起’,我們都是基于一個(gè)平臺(tái),上面接亞馬遜云等,站在巨人的肩膀上,能以很快的速度就做很多的事情,獲得高關(guān)注度和高收益?!?/p>

4月20日,出門問問發(fā)布了自家的百億參數(shù)級(jí)的多模態(tài)大模型“序列猴子”。李志飛表示,未來公司將聚焦在算法層面的研發(fā)和迭代,不做硬件,在商業(yè)化上側(cè)重于面向B端的企業(yè)定制類服務(wù),“這會(huì)比一個(gè)通用大模型可能更加有用?!?/p>

目前,在大模型上走在前列的大廠,也在積極推動(dòng)把自己的算力和模型開放給第三方企業(yè)使用,從而降低中小企業(yè)開發(fā)模型的成本,一個(gè)分工有序的大模型生態(tài)正在形成之中。阿里云和商湯科技就對(duì)《每日經(jīng)濟(jì)新聞》記者表示,他們可為企業(yè)提供大模型服務(wù)或算力服務(wù),騰訊和字節(jié)跳動(dòng)近期也推出了面向大模型開發(fā)的算力服務(wù)。

錢禹認(rèn)為,像王小川和王惠文這樣的創(chuàng)業(yè)團(tuán)隊(duì),可以把精力放在算法和模型上,服務(wù)器硬件和訓(xùn)練數(shù)據(jù)可以找合作伙伴,“比如說我給阿里提需求,我需要這樣的服務(wù)器和這樣的算力,你來給我配置。”

另一方面,中小企業(yè)也可以利用大廠的模型做二次開發(fā)?!氨热缯f文言文的研究我是比較專業(yè)的,那我可能把百度的模型拿來借鑒一下,在此基礎(chǔ)上做一個(gè)深度開發(fā),然后實(shí)現(xiàn)文言文的聊天,這是完全可以的?!卞X禹表示。

專注垂直行業(yè)的馬力遙對(duì)此也深以為然。

他告訴《每日經(jīng)濟(jì)新聞》記者,初創(chuàng)企業(yè)可根據(jù)其核心能力和市場(chǎng)地位選擇創(chuàng)業(yè)方向,只要掌握私有數(shù)據(jù)和充沛的業(yè)務(wù)知識(shí),仍可打造其行業(yè)壁壘。他強(qiáng)調(diào),要在應(yīng)用層實(shí)現(xiàn)突破,一定要把握垂直行業(yè)企業(yè)客戶的痛點(diǎn),有的放矢,一定要具備私有的高質(zhì)量數(shù)據(jù)、對(duì)大模型能力的充分利用能力和對(duì)行業(yè)的深刻理解,有效結(jié)合這三者才能產(chǎn)生實(shí)實(shí)在在的商業(yè)價(jià)值。

“一個(gè)再聰明的孩子,如果沒有高質(zhì)量的數(shù)據(jù)教導(dǎo),也是不可能成材的。例如Stack Overflow,OpenAI就是用這個(gè)平臺(tái)上的高質(zhì)量數(shù)據(jù)來訓(xùn)練代碼的生成。”前述硅谷工程師也對(duì)記者如是說道。

更重要的是,利用垂直領(lǐng)域數(shù)據(jù)對(duì)大模型微調(diào)的成本已經(jīng)達(dá)到中小企業(yè)可以接受的范圍。馬力遙以開源聊天機(jī)器人 Vicuna-13B為例對(duì)記者解釋道,這款通過 LLaMA 模型微調(diào)和 ShareGPT 用戶共享對(duì)話訓(xùn)練而成的機(jī)器人的訓(xùn)練成本僅為 300 美元(約合人民幣 2060 元),而質(zhì)量可達(dá) OpenAI ChatGPT 和 Google Bard 的 90% 以上。

(文章來源:每日經(jīng)濟(jì)新聞)

關(guān)鍵詞:

相關(guān)閱讀:
熱點(diǎn)
圖片