发布时间:2022-08-19 14:01
2019年的最后一天,送给自己一份特殊的礼物。
模型量化作为一种能够有效减少模型大小,加速深度学习推理的优化技术,已经得到了学术界和工业界的广泛研究和应用。模型量化有 8/4/2/1 bit等,本文主要讨论目前相对比较成熟的 8-bit 低精度推理。 通过这篇文章你可以学习到以下内容:1)量化算法介绍及其特点分析,让你知其然并知其所以然; 2)Pytorch 量化实战,让你不再纸上谈兵;3)模型精度及性能的调优经验分享,让你面对问题不再束手无策;4)完整的量化文献干货合集,让你全面系统地了解这门主流技术。
1.CPU 推理性能提升 2-4 倍,模型大小降低至1/4,模型量化真的这么好使?
维基百科中关于量化(quantization)的定义是: 量化是将数值 x 映射到 y 的过程,其中 x 的定义域是一个大集合(通常是连续的),而 y 的定义域是一个小集合(通常是可数的)【1】。8-bit 低精度推理中, 我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量来处理。模型量化会带来如下两方面的好处:
ClickHouse(04)如何搭建ClickHouse集群
用 Python 批量检查 sqlite/db3 文件是否损坏(qbit)
Java Agent 踩坑之 appendToSystemClassLoaderSearch 问题
SAP Fiori 应用 Adapt UI 动态显示或者隐藏的技术设计细节解析
可运维:云原生时代 RocketMQ 运维管控的利器 - RocketMQ Operator:
软件随想录(local.joelonsoftware.com/wiki)-2000年06月03日 策略书之三:让我换回去! - Strategy Letter III: Let Me Go Back!
【docker】docker学习(2)——docker私有仓库Harbor部署、上传下载镜像至harbor仓库实战
TypeError: can‘t convert cuda:0 device type tensor to numpy. Use Tensor.cpu()