當前,大模(mo)(mo)型(xing)發展(zhan)重心(xin)正(zheng)從“訓練”轉(zhuan)向(xiang)“推(tui)(tui)理”,基于(yu)超(chao)節(jie)(jie)(jie)點形態的云(yun)上(shang)推(tui)(tui)理成(cheng)為(wei)趨勢(shi),超(chao)節(jie)(jie)(jie)點推(tui)(tui)理性(xing)能成(cheng)為(wei)產業界核心(xin)關注點。近期,中國(guo)電信研究院聯合廣東公司、華為(wei)公司基于(yu)昇騰384超(chao)節(jie)(jie)(jie)點系統,依托(tuo)研究院自研“翼芯(xin)”智算測(ce)試與適配優化(hua)平臺,開(kai)展(zhan)了面向(xiang)不同場景(jing)的大模(mo)(mo)型(xing)推(tui)(tui)理性(xing)能測(ce)試與調優。經系統優化(hua),各場景(jing)推(tui)(tui)理性(xing)能均(jun)大幅提升,其中DeepSeek 671B滿(man)血版模(mo)(mo)型(xing)在超(chao)節(jie)(jie)(jie)點部(bu)署(shu),單(dan)卡推(tui)(tui)理吞吐性(xing)能2122 Tokens/s,創(chuang)下國(guo)內新(xin)紀錄。
超節點是采用(yong)高(gao)速互連技術(shu)將多(duo)臺(tai)服務器內的AI芯片緊密(mi)耦合形(xing)成的大型算力(li)單元,需要對不(bu)同業務場景的資源配置(zhi)(zhi)和并發策(ce)略靈活設置(zhi)(zhi)才能(neng)最(zui)大限(xian)度發揮系統性能(neng)。
本(ben)次優化(hua)(hua)完成(cheng)了“翼(yi)芯(xin)”平臺(tai)和昇(sheng)騰超節點的(de)對接,針(zhen)對13項基準性能(neng)、6類典型(xing)場景,以及5類典型(xing)資(zi)(zi)源配(pei)(pei)置,開展了推理(li)性能(neng)自動化(hua)(hua)測試與系統級調優。“翼(yi)芯(xin)”平臺(tai)按照業務模型(xing),分別配(pei)(pei)置超節點Prefill池(chi)和Decode池(chi)的(de)資(zi)(zi)源數(shu)量、推理(li)實(shi)例數(shu)量和并行策略,通過測試快速反(fan)饋性能(neng)指標并進行實(shi)時策略調整,同時配(pei)(pei)合算子融合替換、KV Cache優化(hua)(hua)、集(ji)合通信優化(hua)(hua)、服(fu)務調度優化(hua)(hua)等手段,不(bu)斷優化(hua)(hua)P池(chi)和D池(chi)吞(tun)吐性能(neng)使其達到最(zui)大平衡(heng)。
結果表(biao)明(ming),面向(xiang)DeepSeek 671B滿血版(ban)模(mo)型的超節(jie)點優(you)化方案,多種場景下單(dan)卡吞吐性(xing)(xing)(xing)能(neng)(neng)較優(you)化前有2.5至(zhi)4.3倍(bei)提(ti)升,其中(zhong)272卡配置(128卡P池、144卡D池)是系統(tong)性(xing)(xing)(xing)能(neng)(neng)最大平衡點,在(zai)TTFT為1.28s、TPOT為50ms的服務質量(liang)保證下,系統(tong)單(dan)卡吞吐達到2122 Tokens/s,較前期業(ye)界最佳優(you)化性(xing)(xing)(xing)能(neng)(neng)提(ti)升9.2%。該技術驗證充分(fen)彰顯了中(zhong)國電信(xin)在(zai)超節(jie)點上的系統(tong)優(you)化能(neng)(neng)力(li)——能(neng)(neng)根據客戶業(ye)務需求靈活配置云上節(jie)點資(zi)源,提(ti)供高性(xing)(xing)(xing)價比(bi)推(tui)理算力(li),有效服務于復雜推(tui)理、多智能(neng)(neng)體協同等(deng)新場景。
未來,中國電(dian)信將開展更廣泛場景(jing)、更多類(lei)型的超(chao)節點形(xing)態技(ji)術研究和優化驗證,不斷推動國產智(zhi)算基礎設施技(ji)術創新(xin)。