一个黑丝美女视频网站,fc2美女视频

華為發(fā)布AI黑科技UCM，9月正式開源

來源：證券時(shí)報(bào)網(wǎng)作者：柚西2025-08-12 17:49

AI時(shí)代下，推理技術(shù)關(guān)系用戶與AI交互的體驗(yàn)，包括回答問題的時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等，在此背景下，華為最新推出AI推理黑科技UCM（推理記憶數(shù)據(jù)管理器），可大幅降低推理時(shí)延與成本，并大幅提升推理效率。

8月12日，華為舉行發(fā)布會(huì)，正式發(fā)布AI推理創(chuàng)新技術(shù)UCM。

據(jù)了解，目前，國(guó)外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間（時(shí)延5ms），而我國(guó)普遍小于60 Tokens/s（時(shí)延50-100ms），如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。

“高延遲、高成本是當(dāng)下AI推理領(lǐng)域發(fā)展的主要挑戰(zhàn)?！比A為數(shù)字金融軍團(tuán)CEO曹沖在會(huì)上表示。

華為方面介紹，作為一款以KV Cache為中心的推理加速套件，UCM融合了多類型緩存加速算法工具，分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)，可擴(kuò)大推理上下文窗口，以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn)，降低每Token推理成本。

在具體技術(shù)實(shí)現(xiàn)路徑方面，華為相關(guān)負(fù)責(zé)人表示，UCM通過層級(jí)化自適應(yīng)的全局前綴緩存技術(shù)，可實(shí)現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用，在多輪對(duì)話、RAG知識(shí)檢索等場(chǎng)景中直接調(diào)用KV緩存數(shù)據(jù)，避免重復(fù)計(jì)算，使首Token時(shí)延最大降低90%。

另外，UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中自動(dòng)分級(jí)緩存，同時(shí)融合多種稀疏注意力算法，實(shí)現(xiàn)存算深度協(xié)同，使長(zhǎng)序列場(chǎng)景下TPS（每秒處理Token數(shù)）提升2—22倍，降低每Token推理成本。

此外，UCM通過動(dòng)態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù)，將超長(zhǎng)序列Cache分層卸載至外置專業(yè)存儲(chǔ)，利用算法突破模型和資源限制，實(shí)現(xiàn)10倍級(jí)推理上下文窗口擴(kuò)展。

華為相關(guān)負(fù)責(zé)人表示，當(dāng)前，中國(guó)互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的投資規(guī)模僅為美國(guó)的十分之一。與此同時(shí)，國(guó)內(nèi)大模型的推理體驗(yàn)與海外相比仍存在差距——而推理體驗(yàn)的不足會(huì)直接導(dǎo)致用戶流失，進(jìn)而減緩企業(yè)的投資節(jié)奏；投資收縮又會(huì)使企業(yè)難以承擔(dān)高昂的推理成本，反過來進(jìn)一步限制推理體驗(yàn)的提升，形成惡性循環(huán)。UCM能夠在算力基礎(chǔ)設(shè)施投入保持不變的前提下，顯著優(yōu)化推理體驗(yàn)，推動(dòng)AI推理進(jìn)入“體驗(yàn)提升—用戶增長(zhǎng)—投資加大—技術(shù)迭代”的商業(yè)正循環(huán)。

記者了解到，華為UCM已率先在中國(guó)銀聯(lián)“客戶之聲”“營(yíng)銷策劃”“辦公助手”三大業(yè)務(wù)場(chǎng)景中，開展智慧金融AI推理加速應(yīng)用試點(diǎn)，并已取得一定成果。

“AI時(shí)代后，Token經(jīng)濟(jì)時(shí)代到來，目前推理過程仍存不少挑戰(zhàn)，如何改進(jìn)推理系統(tǒng)的體驗(yàn)和效率是一個(gè)重要的話題。與中國(guó)銀聯(lián)合作落地UCM，對(duì)于AI推理的效率來說是一個(gè)有效的突破。”華為副總裁、數(shù)據(jù)存儲(chǔ)總裁周躍峰表示。

隨著AI應(yīng)用向各類實(shí)際場(chǎng)景深度滲透，用戶規(guī)模和請(qǐng)求量急劇攀升，模型分析和生成的Token數(shù)更呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì)，最大化單Token智能承載力、優(yōu)化其成本成為廠商核心目標(biāo)，Token經(jīng)濟(jì)時(shí)代來臨，訓(xùn)練、推理效率與體驗(yàn)量綱都以Token為表征。以火山引擎為例，2025年5月日均Token調(diào)用達(dá)16.4萬億，較2024年同期激增137倍。巨大的Token處理量意味著高昂運(yùn)營(yíng)成本——服務(wù)器維護(hù)、電力消耗持續(xù)攀升；而保障流暢推理體驗(yàn)又需加大算力投入。如何在兩者間找到平衡，成為全行業(yè)亟待破解的難題。

在此背景下，華為計(jì)劃于2025年9月正式開源UCM，屆時(shí)將在魔擎社區(qū)首發(fā)，后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū)，并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。

“為什么要開源，是希望行業(yè)內(nèi)更多人（企業(yè)）一起推動(dòng)推理框架、標(biāo)準(zhǔn)的形成，這是一個(gè)大家共創(chuàng)標(biāo)準(zhǔn)、共同推動(dòng)推理領(lǐng)域加速發(fā)展的過程。”華為相關(guān)負(fù)責(zé)人表示。