亚洲小说图片区综合在线,日本公厕撒尿高清视频,国产又黄又湿又刺激网站,少妇自慰毛多水多

華為發(fā)布AI黑科技UCM,下個月開源
來源:證券時報網(wǎng)作者:嚴(yán)翠2025-08-12 17:20

AI時代下,推理技術(shù)關(guān)系用戶與AI交互的體驗(yàn),包括回答問題的時延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等,在此背景下,華為最新推出AI推理黑科技UCM(推理記憶數(shù)據(jù)管理器),可大幅降低推理時延與成本,并大幅提升推理效率。

8月12日,華為舉行發(fā)布會,正式發(fā)布AI推理創(chuàng)新技術(shù)UCM。

據(jù)了解,目前,國外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60 Tokens/s(時延50—100ms),如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。

“高延遲、高成本是當(dāng)下AI推理領(lǐng)域發(fā)展的主要挑戰(zhàn)?!比A為數(shù)字金融軍團(tuán)CEO曹沖在會上表示。

華為方面介紹,作為一款以KVCache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KVCache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時延的推理體驗(yàn),降低每Token推理成本。

在具體技術(shù)實(shí)現(xiàn)路徑以及方面,華為相關(guān)負(fù)責(zé)人表示,UCM通過層級化自適應(yīng)的全局前綴緩存技術(shù),可實(shí)現(xiàn)任意物理位置、任意輸入組合上的KV前綴緩存重用,在多輪對話、RAG知識檢索等場景中直接調(diào)用KV緩存數(shù)據(jù),避免重復(fù)計算,使首Token時延最大降低90%。

另外,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中自動分級緩存,同時融合多種稀疏注意力算法,實(shí)現(xiàn)存算深度協(xié)同,使長序列場景下TPS(每秒處理token數(shù))提升2—22倍,降低每Token推理成本。

此外,UCM通過動態(tài)KV逐層卸載、位置編碼擴(kuò)展、Prefill稀疏等組合技術(shù),將超長序列Cache分層卸載至外置專業(yè)存儲,利用算法突破模型和資源限制,實(shí)現(xiàn)10倍級推理上下文窗口擴(kuò)展。

華為相關(guān)負(fù)責(zé)人表示,當(dāng)前,中國互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的投資規(guī)模僅為美國的十分之一。與此同時,國內(nèi)大模型的推理體驗(yàn)與海外相比仍存在差距——而推理體驗(yàn)的不足會直接導(dǎo)致用戶流失,進(jìn)而減緩企業(yè)的投資節(jié)奏;投資收縮又會使企業(yè)難以承擔(dān)高昂的推理成本,反過來進(jìn)一步限制推理體驗(yàn)的提升,形成惡性循環(huán)。UCM能夠在算力基礎(chǔ)設(shè)施投入保持不變的前提下,顯著優(yōu)化推理體驗(yàn),推動AI推理進(jìn)入“體驗(yàn)提升—用戶增長—投資加大—技術(shù)迭代”的商業(yè)正循環(huán)。

記者了解到,華為UCM已率先在中國銀聯(lián)“客戶之聲”“營銷策劃”“辦公助手”三大業(yè)務(wù)場景中,開展智慧金融AI推理加速應(yīng)用試點(diǎn),并已取得一定成果。

“AI時代后,Token經(jīng)濟(jì)時代到來,目前推理過程仍存不少挑戰(zhàn),如何改進(jìn)推理系統(tǒng)的體驗(yàn)和效率是一個重要的話題。與中國銀聯(lián)合作落地UCM,對于AI推理的效率來說是一個有效的突破。”華為副總裁、數(shù)據(jù)存儲總裁周躍峰表示。

隨著AI應(yīng)用向各類實(shí)際場景深度滲透,用戶規(guī)模和請求量急劇攀升,模型分析和生成的Token數(shù)更呈現(xiàn)指數(shù)級增長態(tài)勢,最大化單Token智能承載力、優(yōu)化其成本成為廠商核心目標(biāo),Token經(jīng)濟(jì)時代來臨,訓(xùn)練、推理效率與體驗(yàn)量綱都以Token為表征。以火山引擎為例,2025年5月日均Token調(diào)用達(dá)16.4萬億,較2024年同期激增137倍。巨大的Token處理量意味著高昂運(yùn)營成本——服務(wù)器維護(hù)、電力消耗持續(xù)攀升;而保障流暢推理體驗(yàn)又需加大算力投入。如何在兩者間找到平衡,成為全行業(yè)亟待破解的難題。

在此背景下,華為計劃于2025年9月正式開源UCM,屆時將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有ShareEverything(共享架構(gòu))存儲廠商和生態(tài)伙伴。

“為什么要開源,是希望行業(yè)內(nèi)更多人(企業(yè))一起推動推理框架、標(biāo)準(zhǔn)的形成,這是一個大家共創(chuàng)標(biāo)準(zhǔn)、共同推動推理領(lǐng)域加速發(fā)展的過程?!比A為相關(guān)負(fù)責(zé)人表示。

責(zé)任編輯: 張一帆
聲明:證券時報力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險自擔(dān)
下載“證券時報”官方APP,或關(guān)注官方微信公眾號,即可隨時了解股市動態(tài),洞察政策信息,把握財富機(jī)會。
網(wǎng)友評論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評論僅供其表達(dá)個人看法,并不表明證券時報立場
暫無評論
為你推薦
時報熱榜
換一換
    熱點(diǎn)視頻
    換一換