云天勵飛公布大算力芯片戰(zhàn)略:目標(biāo)把百萬 Tokens 推理成本降低 100 倍以上
2月3日,云天勵飛正式舉辦“大算力芯片戰(zhàn)略前瞻會”,首次對外公布未來三年的大算力 AI 推理芯片戰(zhàn)略布局。
會上,云天勵飛提出“訓(xùn)練追趕、推理超車”的戰(zhàn)略方向,并發(fā)布了基于“PD 分離”思路的芯片路線圖:力爭實現(xiàn)百萬 Tokens 推理成本降低 100 倍以上的目標(biāo),推動 AI 從技術(shù)嘗鮮走向普惠生產(chǎn)力。

云天勵飛董事長兼CEO陳寧博士發(fā)表演講
戰(zhàn)略方向:訓(xùn)練追趕,推理超車
云天勵飛董事長兼 CEO 陳寧博士在會上指出,訓(xùn)練芯片與推理芯片在算力需求上存在顯著差異。訓(xùn)練芯片更側(cè)重“絕對值”,對算力規(guī)模、帶寬能力以及科學(xué)計算的復(fù)雜精度要求更高,且對成本相對不敏感;推理芯片的核心考量則在于成本、效率與市場經(jīng)濟(jì)學(xué),關(guān)鍵在于每一個 Token 背后的邊際成本與整體性價比。
陳寧表示,公司致力于持續(xù)降低百萬 Token 的成本,目標(biāo)是通過下一代芯片實現(xiàn)“百萬 Tokens 一分錢”。未來三年,公司希望將成本進(jìn)一步降至“百萬 Tokens 0.1分錢”,以加速大模型應(yīng)用的規(guī)模化落地。
對于未來五年的中國芯片產(chǎn)業(yè)發(fā)展,陳寧提出“訓(xùn)練追趕、推理超車”的策略:在訓(xùn)練芯片領(lǐng)域,目標(biāo)是持續(xù)追趕,盡量保持差距不被拉大;而在推理芯片領(lǐng)域,依托中國豐富的應(yīng)用場景、強(qiáng)大的基礎(chǔ)設(shè)施能力以及開源模型生態(tài),有機(jī)會實現(xiàn)突破與超車。

云天勵飛董事長兼CEO陳寧博士發(fā)表演講
基于“PD 分離”架構(gòu),三年規(guī)劃三代芯片
針對大模型時代云推理場景的需求,云天勵飛 CTO 李愛軍在會上介紹了公司的技術(shù)解構(gòu)與路線圖。
他表示,云天勵飛將全力投入云推理場景的大算力芯片研發(fā),基于對大模型推理計算特征的理解,按照“PD 分離”的系統(tǒng)架構(gòu)規(guī)劃兩類大算力芯片:
P 芯片(Prefill):面向計算密集型需求設(shè)計,滿足 Prefill 階段的高算力要求;
D 芯片(Decode):面向訪存密集型需求設(shè)計,滿足 Decode 階段的高帶寬需求。
李愛軍介紹,公司在芯片微架構(gòu)層面針對 Attention 及 AFN 等計算特點進(jìn)行細(xì)粒度分析,并在底層實現(xiàn)針對性優(yōu)化。在一個包含 1024 顆芯片的超節(jié)點內(nèi),P 芯片與 D 芯片可實現(xiàn)有效組合,以滿足大模型云推理的集群化部署需求。

云天勵飛CTO李愛軍介紹公司芯片產(chǎn)品規(guī)劃
未來三年,云天勵飛規(guī)劃了三代芯片產(chǎn)品:
今年(第一年):打造第一代超節(jié)點 P 芯片,面向百萬級長上下文場景進(jìn)行 Prefill 推理優(yōu)化,算力水平對標(biāo) Hopper 架構(gòu);
明年(第二年):研發(fā)第一代超節(jié)點 D 芯片,聚焦 Decode 推理的低時延目標(biāo),算力水平對標(biāo) Blackwell 架構(gòu);
2028 年(第三年):推出第二代超節(jié)點 D 芯片,面向毫秒級推理時延目標(biāo)進(jìn)一步優(yōu)化,帶動 Prefill 與 Decode 性能提升,算力層面有望看齊下一代 Rubin 芯片。

云天勵飛高級副總裁、CFO兼董秘鄧浩然介紹公司資本、人才與產(chǎn)能情況
GPNPU 架構(gòu)的四大技術(shù)亮點
李愛軍表示,上述路線圖的核心支撐是云天勵飛的 GPNPU 架構(gòu)。GPNPU 不僅是處理器架構(gòu),也體現(xiàn)了對大模型推理系統(tǒng)架構(gòu)的整體理解,其主要技術(shù)亮點包括四個方面:
GPGPU 級通用編程能力(CUDA 兼容):面向國內(nèi)芯片“易用性”痛點,GPNPU 架構(gòu)強(qiáng)調(diào)對主流 CUDA 等生態(tài)的兼容與遷移支持,以降低客戶模型部署與遷移門檻;
極致能效的 NPU 內(nèi)核:圍繞推理效率與能效比進(jìn)行深度優(yōu)化,提升推理側(cè)性價比;
引入 3D Memory 結(jié)構(gòu):采用 3D Memory 結(jié)構(gòu),以獲得更高帶寬與更低訪問時延,提升推理效率;
算力積木架構(gòu):公司延續(xù)過去五年在國產(chǎn)工藝上的探索,以“算力積木”架構(gòu)定義下一代芯片的 Scale-up 超節(jié)點,以滿足萬億級乃至十萬億級 MoE 架構(gòu)大模型的推理需求。

推理時代的競爭,本質(zhì)是“單位推理成本”的競爭。只有把推理做得足夠便宜、足夠穩(wěn)定、足夠易用,AI 才能從“看得見的能力”走向“用得起的生產(chǎn)力”。
未來,云天勵飛將以 GPNPU 架構(gòu)為核心,大力推進(jìn)云端大算力芯片,強(qiáng)化軟硬協(xié)同與存儲體系攻堅,力爭將百萬 Tokens 推理成本降低 100 倍以上,推動大模型從示范應(yīng)用走向規(guī)模化交付。