后摩前沿 | 后摩智能4篇论文入选CVPR、ICML、ACL三大国际顶会，攻关大模型端边侧部署关键技术

2025-08-01

2025 年上半年，继年初被 AAAI、ICLR、DAC 三大国际顶会收录 5 篇论文后，后摩智能近期又有 4 篇论文入选CVPR、ICML、ACL三大国际顶会，面向大模型的编码、量化、压缩与微调等技术难题提出创新性解决方案，为大模型的性能提升、多场景部署建构了可行路径。

众所周知，CVPR作为计算机视觉领域国际顶级会议，专注于图像和视频的感知与理解；ICML作为机器学习领域顶会，强调算法、理论与模型创新；ACL作为自然语言处理领域顶会，聚焦语言理解与生成。这三大会议分别代表了人工智能的三个核心子领域，是全球学术界和产业界高度关注的重要学术交流平台。

本文将简要概述近期被收录论文的关键工作。

【CVPR-2025】PillarHist: A Quantization-aware Pillar Feature Encoder based on

Height-aware Histogram

PillarHist：

一种基于高度直方图的高效 pillar 特征编码方法

在自动驾驶和机器人等对实时感知要求较高的场景中，基于LiDAR的3D目标检测技术近年来得到了广泛关注。Pillar-based方法因其结构简单、计算效率高，成为了当前主流的轻量级三维检测方案之一。然而，我们在调研和实验中发现，现有的pillar特征编码模块（PFE）在处理高度信息和模型量化方面仍存在一定局限。

研究动机

当前大多数PFE模块采用max pooling等方式对点云特征进行汇聚，这种策略虽然计算高效，但容易造成细粒度信息的丢失，特别是在高度维度上的表达不够充分。此外，由于输入特征量纲差异大，直接量化后模型性能往往下降较为明显。

为了解决上述问题，我们提出了一种新的pillar特征编码方法——PillarHist，旨在在保持高效率的同时，增强模型对高度信息的建模能力，并提升其在低比特量化下的鲁棒性。

方法简介

PillarHist的核心思想是通过高度离散直方图来替代传统的点级特征汇聚方式。具体而言，我们将每个pillar在高度方向划分为若干个区间（bin），统计每个区间内的点数以及反射强度的加权平均值，从而构建出包含几何与语义信息的直方图特征表示。同时，结合pillar的中心坐标信息，我们通过一个轻量的线性层将其映射为最终的pillar特征向量。

与传统PFE模块相比，PillarHist具有以下优势：

更强的高度建模能力：保留了点云在高度维度上的结构信息；
避免信息丢失：不再依赖max pooling，减少特征压缩带来的损失；
计算更高效：特征提取操作在pillar级别完成，降低了总体计算开销；
量化友好：特征值范围稳定，INT8量化后性能下降更小。

实验结果

我们在KITTI、nuScenes和Waymo等多个公开数据集上对PillarHist进行了验证。在多个主流pillar-based检测框架（如PointPillars、CenterPoint、PillarNet等）中引入PillarHist后，模型在精度和推理速度方面均有不同程度的提升。其中，在nuScenes上平均提升约1%的NDS，同时推理延迟降低4~9ms。在8-bit量化实验中，PillarHist有效减少了量化带来的性能损失，表现出良好的硬件适应性。

总结

PillarHist作为一种结构简单但有效的PFE模块，能够在不改变原有检测框架的前提下，提升模型对高度信息的表达能力，并增强其在实际部署中的可用性。我们希望这一工作能为三维目标检测尤其是轻量化和部署友好的设计提供一种可行的方向。

【ICML-2025】RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization

RWKVQuant：

首个面向RWKV模型的高效量化框架

在大模型时代，Transformer架构独领风骚，但近年来一种融合了RNN与Transformer优势的新型架构——RWKV，正在悄然崛起。RWKV模型以其推理高效、结构简洁等特性，在语言和视觉任务上均展现出媲美主流大模型的性能。然而，RWKV在部署到边缘设备或资源受限场景时，仍面临模型体积大、计算开销高等现实挑战。

为此，我们重磅推出RWKVQuant——首个专为RWKV模型设计的后训练量化（Post-Training Quantization，简称PTQ）框架，以应对RWKV模型在部署过程中的性能瓶颈！

研究动机

尽管已有许多PTQ方法在Transformer类模型中取得了成功，例如GPTQ、AWQ、GPTVQ等，但直接将这些方法应用于RWKV模型时，效果却大打折扣：

非线性操作阻碍了参数融合：RWKV结构中含有Token Shift、Sigmoid、指数函数等非线性模块，导致SmoothQuant、QuaRot等方法无法像在Transformer中那样高效融合参数，反而引入了额外计算开销；
权重分布更均匀，聚类难度大：RWKV权重呈现更强的均匀性，这对传统基于聚类的向量量化（VQ）方法构成挑战，聚类效果不佳，精度下降严重。

方法简介

RWKVQuant创新性地提出代理引导的标量-向量混合量化策略，实现高压缩率和高保真度的完美平衡：

1. 粗到细的双层代理机制

粗粒度代理（Information Entropy）：衡量权重整体的均匀性。当权重分布不均时，直接采用VQ；
细粒度代理（高阶中心矩）：即使整体均匀，也能识别局部异常值。若存在离群点，仍优先选择VQ；否则使用SQ。

此机制极大提升了量化策略的适应性和智能决策能力。

2. 针对RWKV结构优化的codebook生成

RWKV在所有投影层中大量使用逐元素乘法操作，而现有VQ方法多针对矩阵乘法模块。RWKVQuant首创了适用于逐元素乘法的codebook优化算法，通过激活值加权KMeans聚类，有效降低量化误差。

实验结果

RWKVQuant在多个RWKV模型上进行了验证，取得了显著成果：

量化比特数降低至约3-bit，精度损失小于1%；
RWKV-6-14B模型内存占用减少至原来的1/3；
推理速度提升高达2.14倍；
在LAMBADA等语言理解任务上，PPL下降、Zero-shot准确率提升，远超GPTQ、AWQ、GPTVQ等主流方法；
在ImageNet、COCO和ADE20K等视觉任务上，RWKVQuant同样表现出色。

总结

RWKVQuant的推出，标志着RWKV模型在轻量化部署领域迈出了关键一步。我们相信，这一创新性的量化框架不仅能推动RWKV在语言与视觉任务中的广泛应用，也将为大模型在资源受限环境下的落地提供全新可能。

【ICML-2025】MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

解锁MoE大模型部署新范式：

MoEQuant让压缩不再“牺牲性能”

近年来，大语言模型（LLMs）在自然语言处理领域取得了突破性进展，尤其是引入“专家混合”（Mixture-of-Experts, MoE）架构的模型，以其高效、可扩展的特性，成为推动模型性能与计算效率双赢的重要方向。

然而，MoE模型也带来了新的挑战：激活参数稀疏，存储压力巨大，尤其在推理阶段，虽然只激活少数专家，但所有专家参数必须常驻显存，导致部署成本居高不下。如何让MoE大模型“瘦身”而又不“失智”，成为业界亟待解决的问题。

研究动机

传统PTQ方法如 GPTQ 和 AWQ 在标准LLMs中表现出色，但在应用到MoE模型时却显得力不从心。其原因在于：MoE架构的稀疏激活和动态路由机制，打破了常规量化对样本分布和重要性评估的假设，导致量化后模型性能急剧下降。

为此，MoEQuant 识别并解决了两个核心问题：

专家间不平衡 (Inter-expert imbalance)：部分专家在校准过程中被频繁激活，而另一些专家几乎被忽略，导致量化精度失衡；
专家内相关性不一致（Intra-expert imbalance）：不同样本与专家之间的“亲和度”差异显著，传统量化忽略了这种动态关系，导致权重更新失真。

方法简介

MoEQuant 引入如下两项关键技术，有效解决上述挑战：

Expert-Balanced Self-Sampling(EBSS)
传统量化依赖固定校准集（如 WikiText2），在 MoE 中容易出现样本分布偏差。EBSS 利用模型自采样机制，在确保语义合理的前提下，引导生成覆盖各专家的均衡样本集，显著提升校准质量。
Affinity-Guided Quantization (AGQ)
AGQ 首次将“样本-专家亲和度”纳入量化过程，为每个样本分配权重，引导误差优化方向，并重新定义Hessian矩阵计算方式，使量化更加精细化、感知MoE动态特性。

实验结果

在Qwen-MoE-14B、DeepSeek-MoE-16B 和 Mixtral-8x7B 三大知名 MoE 模型上，MoEQuant 实现了令人瞩目的成果：

HumanEval 编程任务准确率提升超10个百分点；
在 GSM8K、MMLU、BoolQ 等推理任务上表现全面优于 GPTQ 和 AWQ；
部署效率提升：平均推理速度提升 1.2×，显存节省 3.2×，支持在消费级GPU（如 RTX 4090）部署大模型。

更令人惊喜的是，在指令微调版本（Chat模型）中，MoEQuant 依然保持高精度，部分任务甚至超过全精度模型性能，这对实际应用部署具有重大意义。

总结

MoEQuant 的提出，不仅是大模型量化技术的一次飞跃，更是向“高性能+低成本”大模型部署目标迈出的坚实一步。在未来的AI应用场景中，无论是边缘设备部署，还是云端推理优化，MoEQuant 都将成为不可或缺的“压缩利器”。

【ACL-2025】GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

GSQ-Tuning：

探索资源受限设备上的大模型微调新路径

近年来，大语言模型（LLM）在自然语言处理、代码生成、多模态理解等领域取得了突破性进展。然而，随着模型规模的不断扩大，将其部署到资源受限的边缘设备，仍面临诸多挑战。传统的微调方式通常依赖大规模浮点运算，不仅计算资源需求高，而且在涉及隐私数据时存在上传云端的风险。

为此，我们提出了一种全新的大模型微调方法 GSQ-Tuning（Group-Shared Exponents Quantization Tuning），旨在实现低浮点依赖、端到端整数化的大模型微调流程，更适配隐私敏感与资源受限的终端场景。

方法简介

GSQ-Tuning 的关键技术在于我们设计的 Group-Shared Exponents Integer（GSE）格式。针对传统浮点格式中指数位冗余的问题，GSE 通过在一组参数中共享指数位，实现更高效的低比特整数表示。具体而言：

每组数据共享一个 5-bit 指数位；
替代浮点的隐式前导 1 表示，采用显式整数表示；
通过指数共享，大幅减少了存储与计算时的元数据开销。

这一表示方式不仅保留了数据的动态范围，还提升了表示密度，尤其适用于具有空间局部性特征的神经网络权重和激活值。

1.整数化算子支持：Forward & Backward

在算子层面，GSQ-Tuning 不仅支持前向传播的整数矩阵乘法，还将整数计算扩展至反向传播与梯度更新阶段，实现真正意义上的 Fully Quantized Training。我们采用了经典的 Quantize-Compute-Dequantize（QCD）流程：

量化：将输入权重、激活与梯度从高精度（如 BF16）转换为 GSE-INT 格式；
计算：在整数域中完成乘加运算（MAC），利用共享指数实现高效缩放；
反量化：必要时将输出转换回高精度格式做后处理或损失计算。

这一流程不仅适配 INT5/INT6 等低比特精度，还显著提升了对整数计算硬件（如手机 NPU、FPGA、边缘 AI 芯片）的利用率。

2.与 LoRA 的结合：高效参数微调

为了进一步降低训练开销，我们将 GSQ-Tuning 与主流的 LoRA（Low-Rank Adaptation）方法结合，仅对少量低秩矩阵进行更新。不同于 QLoRA 仍需在 BF16 精度下更新 LoRA 参数，我们在 LoRA 分支同样采用整数化表示与更新，使整个训练流程真正实现浮点“归零”。

我们还提出了位宽与秩的协同优化策略（Bits-Rank Pareto Frontier），根据资源预算灵活选择参数配置，在精度与效率间找到最优平衡。

实验结果

我们在多个 LLaMA 系列模型（3B～70B）、多种微调数据集（Alpaca、CS170K）和任务（BoolQ、PIQA、HellaSwag 等）上进行了验证：