首页 > 汽车世界 > 汽车世界 > 刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

发布时间:2025-11-07 19:42:01

11月5日消息,刚刚,华为正式开源了UCM(Unified Cache Manager)推理记忆数据管理,这是一项针对AI推理加速的关键技术。

▲GitCode项目页面

▲GitCode项目页面

今年8月12日,华为正式发布了UCM技术,发布会上华为公布,经大量测试验证,UCM可将首Token时延最高降低90%,系统吞吐最大提升22倍,实现10倍级上下文窗口扩展,AI推理性能显著提升。

▲8月12日UCM技术发布,图源:智东西

▲8月12日UCM技术发布,图源:智东西

时隔近3个月,这一技术正式开源,比发布会上预计的9月稍晚。目前UCM在ModelEngine社区开放了基础框架和工具链,开发者可以在社区获取UCM源代码和技术文档。

▲Github项目页面

▲Github项目页面

GitCode开源地址:

https://gitcode.com/ModelEngine/unified-cache-management

Github开源地址:

https://github.com/ModelEngine-Group/unified-cache-management

总体来看,UCM是以KV Cache和记忆管理为中心的推理加速套件,可以提供全场景系列化推理加速方案,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,破解长序列推理效率低、成本高的难题,以实现AI推理的更优体验、更低成本。其主要服务对象是企业用户。

Agentic AI时代,AI推理的KV Cache容量增长已超出HBM的承载能力。通过一系列算法,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,提升整个系统的效率,一定程度上降低对HBM的需求。

UCM融合了多类型缓存加速算法工具,可分级管理在推理过程中产生的KV Cache记忆数据。

UCM架构包含多个协同工作的关键功能模块,具体如下:

·UCM稀疏化模块 (UcmSparseBase):兼容多种稀疏算法的统一基类,负责稀疏KV Cache Block的卸载、加载与计算,实现“零感知”插拔式稀疏化。在不影响整体推理流程的前提下,能够灵活适配不同稀疏算法以提升推理效率。

·稀疏化KV管理器 (SparseKVManager):面向算法级定制的KV Cache Block分配总控器,各稀疏算法以多态子类形式将自身分配逻辑注入框架,实现不同稀疏算法策略与推理引擎解耦,满足差异化推理场景需求。

·KV Cache存储组件 (UcmKVStoreBase):负责提供与外部存储通信的通用接口。该组件支持稀疏算法与存储后端解耦,可无缝对接任意存储系统,同时支持前缀缓存,为数据存储提供了灵活多样的选择。

·UCM连接器(UC Connector):桥接KV Cache存储组件与推理引擎,保障数据在不同组件之间的高效传输,实现高可靠的前缀缓存能力。

▲UCM产品架构

▲UCM产品架构

图中所有灰色框代表vLLM 0.9.2版本中的现有类,绿色框则代表UCM新增组件。浅绿色框展示了基于此框架未来规划扩展的子类。

基于以上架构,UCM目前具备四个关键能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦。

做UCM的动机是什么?

根据GitCode官方信息,当前随着模型尺寸的不断增长,KV缓存也变得越来越大,且越来越稀疏,对于长序列请求来说尤为明显。为了减小GPU显存的使用,主流的方向是将全量的KV数据卸载到外部存储中,而在GPU显存中只保留部分或者被压缩的KV数据。这同时可以减小GPU的运算量,在解码时增加最大生成序列长度和批大小。

有许多种不同的稀疏KV缓存的实现。最新的论文指出,能够最好地适配所有场景和所有模型的方法是不存在的。因此,更好的做法是搭建一套公共的框架,并在此之上接入不同的稀疏化算法,就像KV连接器和PC一样。

根据GitCode官方信息,UCM的核心原理是持久化LLM的KVCache,并通过多种检索机制替代冗余计算。UCM支持前缀缓存(prefix cache,PC),同时提供了多种无需训练的稀疏注意力检索方法,在处理极长序列推理任务时达到更高性能;此外,UCM基于存算分离架构提供了PD分离方案,使得异构计算资源的管理更简单灵活。

结语:应对性能挑战,缓解资源瓶颈

UCM开源或加速AI推理落地

随着边缘和端侧AI的快速发展,AI推理需求快速增长,在Agentic AI时代,AI推理任务愈发复杂,对算力、内存访问效率等方面都提出了更多挑战。

UCM的开源,可以进一步缓解AI推理复杂任务产生的资源瓶颈和性能挑战,给行业提供新的技术路径,加速优秀商用AI推理方案的落地。

汽车世界更多>>

继多位老主播回归后 “三只羊网络”正式复播 消息称韩国AI芯片企业Rebellions向马斯克xAI交付样品 击败OpenAI、让马斯克不满 路透:谷歌拿下苹果AI大单赢得重大胜利 台积电将大幅增加在美投资 再建至少五座芯片工厂 OpenAI宣布收购医疗保健初创公司Torch 推进ChatGPT Health布局 价格承诺替代反补贴征税!中欧电动汽车案磋商有重大进展 中科宇航公布力鸿一号任务成果:载荷舱顺利着陆,落点精度达百米量级 iPhone Fold首次采用三星COE OLED面板:更亮更纤薄 用户发现苹果iPhone手机电池会在飞行途中鼓包,落地后恢复正常 小米17 Ultra变焦环造假?官方回应 宝马开年30多款车型全面降价 最高直降30万 回应:这不是价格战 段永平晒部分持仓:苹果股价翻了18倍 掌管约50个账号 苹果首款低价MacBook即将发布:搭载A18 Pro芯片+12.9英寸屏幕 同比下滑16%!特斯拉第四季度交付418227辆 谁说超20万纯电轿车卖不动 看看SU7,雷军:感谢50多万小米车主支持 2025年,英国预计每卖出10辆车就有1辆来自中国品牌 破4000点!沪指再创10年新高,后续哪些行业还有补涨机会 自证清白背后,小鹏的机器人是怎么走出“猫步”的? “薄”杀全场还是“薄”弱不堪?华为杀入超薄手机战场 何小鹏:小鹏2026 年底规模化量产高阶机器人IRON 罗克韦尔自动化亮相第八届进博会,四大关键词助推新质生产力发展 地平线与大众汽车集团深化战略合作,驱动智能驾驶规模化落地 1.59亿元!优必选Walker人形机器人再获订单 小马智行第七代自动驾驶车在广州、深圳投入运营 牧原又双叒叕捐1亿,背后“养猪大王”财富暴涨520亿 每年10亿美元 苹果Siri被曝将使用谷歌1.2万亿参数AI大模型 山姆App内的大量商品首图,先是从简洁的实拍图变成了精修“艺术照”,后又因消费者的差评“刷屏”,被悄咪咪地恢复成了实拍图 虽然不想承认 但沃尔沃裁员3000人真有用 1200km长续航:三菱扶桑氢燃料电池重卡概念车H2FC首秀 刷新行业速度:文远知行一段式端到端组合辅助驾驶解决方案WePilot 3.0量产启动