AI時(shí)代下,推理技術(shù)關(guān)系用戶與AI交互的體驗(yàn),包括回答問題的時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等,在此背景下,華為最新推出AI推理黑科技UCM(推理記憶數(shù)據(jù)管理器),可大幅降低推理時(shí)延與成本,并大幅提升推理效率。
8月12日,華為舉行發(fā)布會(huì),正式發(fā)布AI推理創(chuàng)新技術(shù)UCM。
據(jù)了解,目前,國(guó)外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國(guó)普遍小于60 Tokens/s(時(shí)延50-100ms),如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。
“高延遲、高成本是當(dāng)下AI推理領(lǐng)域發(fā)展的主要挑戰(zhàn)?!比A為數(shù)字金融軍團(tuán)CEO曹沖在會(huì)上表示。
華為方面介紹,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。
在具體技術(shù)實(shí)現(xiàn)路徑方面,華為相關(guān)負(fù)責(zé)人表示,UCM通過層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),可實(shí)現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對(duì)話、RAG知識(shí)檢索等場(chǎng)景中直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計(jì)算,使首Token時(shí)延最大降低90%。
另外,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中自動(dòng)分級(jí)緩存,同時(shí)融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理Token數(shù))提升2—22倍,降低每Token推理成本。
此外,UCM通過動(dòng)態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù),將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ),利用算法突破模型和資源限制,實(shí)現(xiàn)10倍級(jí)推理上下文窗口擴(kuò)展。
華為相關(guān)負(fù)責(zé)人表示,當(dāng)前,中國(guó)互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的投資規(guī)模僅為美國(guó)的十分之一。與此同時(shí),國(guó)內(nèi)大模型的推理體驗(yàn)與海外相比仍存在差距——而推理體驗(yàn)的不足會(huì)直接導(dǎo)致用戶流失,進(jìn)而減緩企業(yè)的投資節(jié)奏;投資收縮又會(huì)使企業(yè)難以承擔(dān)高昂的推理成本,反過來進(jìn)一步限制推理體驗(yàn)的提升,形成惡性循環(huán)。UCM能夠在算力基礎(chǔ)設(shè)施投入保持不變的前提下,顯著優(yōu)化推理體驗(yàn),推動(dòng)AI推理進(jìn)入“體驗(yàn)提升—用戶增長(zhǎng)—投資加大—技術(shù)迭代”的商業(yè)正循環(huán)。
記者了解到,華為UCM已率先在中國(guó)銀聯(lián)“客戶之聲”“營(yíng)銷策劃”“辦公助手”三大業(yè)務(wù)場(chǎng)景中,開展智慧金融AI推理加速應(yīng)用試點(diǎn),并已取得一定成果。
“AI時(shí)代后,Token經(jīng)濟(jì)時(shí)代到來,目前推理過程仍存不少挑戰(zhàn),如何改進(jìn)推理系統(tǒng)的體驗(yàn)和效率是一個(gè)重要的話題。與中國(guó)銀聯(lián)合作落地UCM,對(duì)于AI推理的效率來說是一個(gè)有效的突破。”華為副總裁、數(shù)據(jù)存儲(chǔ)總裁周躍峰表示。
隨著AI應(yīng)用向各類實(shí)際場(chǎng)景深度滲透,用戶規(guī)模和請(qǐng)求量急劇攀升,模型分析和生成的Token數(shù)更呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì),最大化單Token智能承載力、優(yōu)化其成本成為廠商核心目標(biāo),Token經(jīng)濟(jì)時(shí)代來臨,訓(xùn)練、推理效率與體驗(yàn)量綱都以Token為表征。以火山引擎為例,2025年5月日均Token調(diào)用達(dá)16.4萬億,較2024年同期激增137倍。巨大的Token處理量意味著高昂運(yùn)營(yíng)成本——服務(wù)器維護(hù)、電力消耗持續(xù)攀升;而保障流暢推理體驗(yàn)又需加大算力投入。如何在兩者間找到平衡,成為全行業(yè)亟待破解的難題。
在此背景下,華為計(jì)劃于2025年9月正式開源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。
“為什么要開源,是希望行業(yè)內(nèi)更多人(企業(yè))一起推動(dòng)推理框架、標(biāo)準(zhǔn)的形成,這是一個(gè)大家共創(chuàng)標(biāo)準(zhǔn)、共同推動(dòng)推理領(lǐng)域加速發(fā)展的過程。”華為相關(guān)負(fù)責(zé)人表示。