无问芯穹开源三大推理系统SpecEE、Semi-PD、FlashOverlap,助力大模型端云智能协同,加速推理速度与效率
无问芯穹开源三大推理系统SpecEE、Semi-PD、FlashOverlap,助力大模型端云智能协同,加速推理速度与效率
未知变量大模型推理加速:无问芯穹开源三大推理系统,助力端云智能协同
当前,人工智能领域正朝着“端云并发”的方向发展,端侧大模型和云侧大模型各自发挥优势,共同拓展着智能应用的可能性。端侧模型能够在本地实现毫秒级的实时响应,而云侧模型则凭借强大的算力支持复杂的大规模推理。但无论是哪种方式,都离不开高效推理系统的有力支撑。
正如 NVIDIA CEO 黄仁勋在 GTC 2025 上所强调的,大模型计算正从预训练阶段转向推理优化阶段。随着大模型产业落地进程的加快,对推理计算的需求呈现出爆发式增长。如何在性能、成本和响应速度之间找到最佳平衡点,成为了当前面临的一项关键工程挑战,而推理系统正是解决这一问题的核心所在。 这就好比盖房子,地基(推理系统)打好了,才能盖更高更稳的楼。
近日,无问芯穹发起了一次推理系统开源活动,连续开源了三个重要的推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD,以及低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap。这些成果从多个层面为高效推理系统的设计提供了助力。下面,我们将对这三个工作进行详细解读:
Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞
- 官方知乎:https://zhuanlan.zhihu.com/p/1899766212109510455
- 开源仓库:https://github.com/infinigence/SpecEE
- 论文地址:https://arxiv.org/abs/2504.08850
随着 DeepSeek 等开源模型展现出越来越强大的性能,在 PC 端本地部署大模型的需求也日益增长,这就像把一个强大的智囊团搬到你的电脑里。虽然在很多情况下,使用云端模型更加方便,但在数据隐私保护、网络受限或成本敏感的场景下,本地部署仍然具有不可替代的优势。
然而,端侧设备通常受到算力、电量和存储的限制,而且 CPU、GPU、NPU 等异构处理器的算力、架构差异显著,这会产生许多不必要的调度和通信开销。将模型安装到 PC 端本地环境后,如果推理速度过慢,其应用场景就会受到很大的限制。
无问芯穹第一天开源的 SpecEE 推理引擎框架,正是为了解决端侧计算、存储与异构处理器协同的挑战而生。这项研究成果被收录于 ISCA 2025(International Symposium on Computer Architecture,计算机体系结构领域的顶级会议),相关论文已在 arXiv 上公开。
与云计算场景相比,端侧设备的特点是“单用户、少请求”,在这种情况下,大模型推理实际上是一个底库庞大的搜索分类问题。
与传统的 Early Exiting 技术不同,SpecEE 从搜索空间的角度出发,探索 Early Exiting 的优化策略,并提出基于推测模型对 Early Exiting 搜索空间进行缩减,从而在精度和速度之间找到更好的平衡点。在 AI PC 场景下,SpecEE 可以实现超过 2 倍的性能提升。
由于 SpecEE 独特的视角,其算法可以无缝兼容任何轻量化优化技术,就像搭积木一样灵活。为了进一步将核心思想应用于 Early Exiting 预测器上,研究团队对预测器进行了三个层面的优化:
- 算法层面: 通过轻量化预测器设计,实现低开销和高精度预测。
- 系统层面: 通过自适应调度引擎,实现预测器的弹性激活。
- 映射层面: 通过重构推测解码 Early Exiting 机制,实现线性复杂度映射。
无问芯穹还展示了 SpecEE 在联想拯救者 Y7000(搭载 NVIDIA RTX 4060 Laptop GPU 与 Intel Core I7-13650HX)上的实测推理速度对比。结果显示,运行 ReLU-llama-7B 模型最高可实现 14.83 token/s 的推理速度,相比 PowerInfer 的 12.41 token/s 速度提升了近 20%。与常用的端侧部署框架 llama.cpp 相比,SpecEE 则能够在 AI PC 上实现高达 2.43 倍的加速。
值得一提的是,由于 SpecEE 的动态特性,它也适用于单用户云端场景下的推理。而且,由于其方法的正交性,SpecEE 可以与现有的许多优化方法集成,无缝兼容任何端侧加速方案,从而进一步推动端侧模型推理精度和速度的提升。
Day 2|Semi-PD:第三代 PD 半分离架构,推理系统的全新选择
- 官方知乎:https://zhuanlan.zhihu.com/p/1900135208373716494
- 开源仓库:https://github.com/infinigence/Semi-PD
- 技术报告:https://github.com/infinigence/Semi-PD/blob/main/docs/_static/paper/arxiv_semi_PD.pdf
第一代 P/D 融合架构采用资源统一分配的策略,Prefill(预填充)和 Decode(解码)阶段共享计算和存储资源,整个推理流程在同一个实例上完成。第二代 P/D 分离架构将 Prefill 和 Decode 阶段的计算与存储资源解耦,请求在 Prefill 实例上完成 Prefill 阶段的计算后,将 KV cache 传输至 Decode 实例进行后续计算,从而解耦了TTFT(Time To First Token,首个 token 延迟)和 TPOT(Time Per Output Token,每个输出 token 的时间)的优化目标,并消除了P/D之间的干扰。月之暗面、DeepSeek 等公司都已采用这种架构,NVIDIA 也将其作为下一代 LLM 服务系统的核心技术方向。无问芯穹此次开源的第二个项目 Semi-PD——第三代 PD 半分离架构,在消除 P/D 干扰的同时,保留了融合式的存储效率,从而实现在给定资源和 SLO(Service Level Objective,服务级别目标)的前提下,最大化“Goodput”(有效吞吐量)。
Semi-PD 混合架构采用了“计算分离、存储融合”的设计理念。与传统方案将 Prefill 和 Decode 任务分别放在不同实例上不同,Semi-PD 让 Prefill 进程和 Decode 进程共享同一个实例,但各自占用部分计算资源(可以想象为“半张卡”)。同时,两个进程通过 IPC 机制共享模型权重和 KV cache,只需存储一份数据,并同时“看到”所有的存储资源。
这种设计可以灵活调整 P 和 D 的资源占比,从而更细粒度地优化 TTFT 和 TPOT。考虑到实际服务中 Prefill 和 Decode 的负载往往是动态变化的,固定资源分配会导致资源利用率低下。为此,研发团队创新性地引入了 SLO 感知的动态资源调整机制。该机制通过实时监控系统负载,动态调整 Prefill 和 Decode 的资源配比(x, y),以更好地满足延迟约束和系统吞吐的双重目标,从而在满足 SLO 要求的同时,最大限度地提高有效吞吐量的性能。
举个例子,如果说 PD 分离架构让备菜师傅专注处理食材(Prefill),炒菜师傅只管烹饪(Decode),那么 Semi-PD 混合架构则像配备了智能变形功能的现代化厨房。通过可移动的智能隔断,厨房空间可以动态划分:早上备菜多就多给备菜区,午市炒菜忙就多给烹饪区。最巧妙的是,两个区域共享同一套智能厨具系统(统一存储),既避免了重复购置设备,又能通过资源动态分配实现效率最大化。
相比于开源的 SOTA(State-of-the-Art,最先进技术)实现,Semi-PD 的 Goodput 提升了 1.55-1.72 倍,单请求平均端到端时延提升 1.27-2.58 倍。
以下是 llama 系列模型的测试结果:
其中 vllm-S 对应 splitfuse schedule,vllm-D 对应 default schedule 即 Prefill 优先
以及 Deepseek 系列模型的测试结果:
Day 3|FlashOverlap:计算零干扰,基于信号的通信重叠
- 官方知乎:https://zhuanlan.zhihu.com/p/1900488778407211472
- 开源仓库:https://github.com/infinigence/FlashOverlap
- 论文地址:https://arxiv.org/abs/2504.19519
第三天,无问芯穹发布了一个非常有意思的工作——FlashOverlap,这是一个基于控制信号的计算通信重叠新思路。 它的主要目标是提供一种低侵入矩阵乘法、无侵入通信的方式来完成细粒度的计算通信重叠,它可以无缝适配矩阵乘法和各种常见的通信原语,包括但不限于 AllReduce、ReduceScatter、All2All 等。对于通信瓶颈显著的低端消费卡来讲,优化效果尤为明显,可以达到高达 1.65 倍的性能提升。
研究团队指出,一个低开发成本、高性能收益的计算和通信重叠方案,需要至少满足以下三个方面:
- 支持 Tile 粒度的重合和调度,以最大化重叠效果。
- 重叠方案要尽可能减少对计算部分的侵入,以最小化对计算部分的影响。
- 重叠方案要尽可能对不同的通信原语和基于拓扑的优化技术正交,以最小化对通信部分的损害,以及最小化不同通信原语的适配成本。
为此,他们提出了一种基于信号的计算通信重叠技术,该技术可以完美契合上面提到的三个准则。
这就好比参加接力跑比赛需要训练一套团队战术:交接棒时要往前多送一段,以最大化重叠效果;接棒时要站在整体最短路径上,以最小化对竞速部分的影响;交接时统一右手交右手接,以最小化对大部分运动员左右手习惯的适配成本。FlashOverlap 就像是一套最先进的接力赛战术,能够让整体团队都省力的同时,跑出最快的速度。
如何减少对计算的侵入性,同时又能和通信都正交,是实现基于信号控制做通信的难点。FlashOverlap 的核心思想是,让计算 Kernel 能够在完成一部分计算结果之后自动发出一个就绪的信号,然后接收到该信号之后再发起一次针对就绪部分数据的 NCCL 通信。 最终,基于信号的计算通信重叠架构如下图所示:
FlashOverlap 的实验结果分为两部分:
- 第一部分是针对矩阵乘法和 AllReduce、ReduceScatter 和 All2All 三个通信算子,在 A800 和 4090 上的优化效果。
- 第二部分以 AllReduce 为例,分析 M、N、K 变化时优化效果的变化。
整体上看,FlashOverlap 可以获得 1.07-1.31 倍的性能提升,而且大多数情况下都优于其他 SOTA 工作。 具体如下图所示,研究团队测试了小面表格中大量的矩阵乘法形状,柱状图代表表格中所有矩阵乘法形状下的平均性能,线状图分别代表性能最差情况和最优情况。
为了更进一步展开研究,研究团队还在 4090 上针对 TP=2 下做 ReduceScatter,以及在 A800 上针对 TP=4 下做 AllReduce,并分析了这两种场景下不同矩阵乘法形状 M_K_N 的性能结果。
研究团队表示,开源这一方案,希望能帮助到各个生成式大模型训练和推理场景,从而降低大规模计算带来的通信开销。
软硬协同驱动高效推理系统发展
早在 2023 年,无问芯穹就曾推出过一个惊艳业界的推理加速方法 FlashDecoding++(机器之心曾独家报道:GPU 推理提速 4 倍,256K 上下文全球最长:无问芯穹刷新大模型优化记录)。该方法通过异步方法实现注意力计算的真正并行,并针对“矮胖”矩阵乘优化加速 Decode 阶段的计算,从而将国际主流 GPU 推理速度提升了 2-4 倍。随后,无问芯穹将这套软硬件协同设计能力逐个应用在国产计算卡上,取得了十余种计算卡的最佳优化效果,并搭建了 GPU 云“异构云”,支持在多种国产芯片上完成大模型推理任务。
近日,无问芯穹联合创始人、CEO 夏立雪在出席活动时表示:“此次开源无问芯穹新一代大模型端、云推理系统相关工作,是希望以开源方案为桥梁,助力大模型产业落地在保障质量的基础上实现效率跃升与成本优化,加速技术普惠与产业升级进程。”
推理系统是技术协同的中枢,也是产业价值的放大器。在纵向维度上,推理系统向上连接着 AI 模型、工具和各类应用场景,向下对接硬件资源,能够充分发挥不同硬件的优势。在横向维度上,高效推理系统的应用,将全面激活大模型在端侧的应用潜能以及在云侧的生产力效能,从而推动 AI 技术的价值向更多行业和人群辐射渗透。











