后摩智能与北京大学合作论文入选全球计算机视觉顶会ECCV｜后摩智能科技有限公司|劲能芯·极效行

后摩智能与北京大学合作论文入选全球计算机视觉顶会ECCV

2022-08-01

近日，欧洲计算机视觉国际会议 ECCV 2022 发布了论文录用结果。由北京大学和后摩智能合作撰写的论文《PTQ4ViT: Post-Training Quantization Framework for Vision Transformers with Twin Uniform Quantization》成功入选。

ECCV 全称是European Conference on Computer Vision(欧洲计算机视觉国际会议)，与 CVPR、ICCV 并称计算机视觉方向的三大顶级会议，每两年举行一次。随着人工智能的发展，计算机视觉的研究深入和应用迅速发展，每届 ECCV 都会吸引大量的论文投稿。本届 ECCV 2022论文有效投稿数5803篇，其中1650篇论文中选，录取率仅为28%。

此篇入选论文提出了一种视觉 Transformer 的后量化框架 PTQ4ViT，最少只需32张校验图片，即可在几乎不损失模型精度的情况下，加速模型推理。

近年来，Transformer 模型在计算机视觉、自然语言处理等领域大获成功。在自动驾驶等领域，Transformer 也有很大的潜力。例如在多传感器融合感知等场景上，Transformer 相较于传统 CNN 都有较大优势。但是 Transformer 有相对较大的参数量和计算量，为其实际部署带来了诸多挑战。

神经网络量化将模型中的浮点数量化为低比特的整数，能有效降低模型的计算和访存开销，更好地支持模型部署。神经网络量化可以分为两大类：量化感知训练（Quantization-Aware Training，QAT）和训练后量化（Post-Training Quantization，PTQ）。QAT从零开始训练网络，得到的量化模型精度损失小，但依赖整个训练集的数据，并需要较长的训练和调优时间。PTQ则只需要少量校验样本对预训练模型进行调优，依赖的数据量小，能够实现模型的快速量化。

在计算机视觉中，PTQ 在卷积神经网络上的应用非常成功，但现有方案在视觉 Transformer 模型上精度损失较大。为此，北京大学和后摩智能的研究人员合作提出了一种视觉 Transformer 模型的后量化框架 PTQ4ViT，针对 Transformer 中 Softmax 和 GELU 函数输出的数据，采用硬件友好的双胞胎均匀量化（Twin Uniform Quantization）。同时，使用Hessian guided metric来更加精准地设置量化参数。实验表明，在 ImageNet 分类任务上，PTQ4ViT 得到的 8 比特量化模型的精度损失可以控制在 0.5% 以内。

后摩智能一直鼓励研发团队，在坚持学术研究与技术创新的同时，要重点关注产业需求和应用痛点，将创新型研究与实际业务场景相融合。后摩智能将结合自身在存算一体计算架构、先进存储工艺以及计算机视觉算法等方面的优势，面向智能驾驶等重点场景，打造高能效的大算力 AI 芯片，以颠覆式创新助力智能驾驶等产业的高质量发展。2022年5月，后摩智能首款基于 SRAM 的存算一体大算力 AI 芯片已成功点亮，并跑通了智能驾驶算法模型。

附：

论文地址：

https://arxiv.org/abs/2111.12293

代码地址：

https://github.com/hahnyuan/PTQ4ViT