浅谈AI算力优化技术

发布时间：2022-08-19 14:26

一、AI算力的主要构成

在人工智能三要素中，无论是数据还是算法，都离不开算力的支撑。根据IDC报告，过去，用户对于人工智能的感知更多停留在数据层和应用层，随着非结构化数据的激增和算法框架的日益复杂，算力不足的问题逐渐显现出来，越来越多的用户认识到算力的重要性。

根据《2020-2021中国人工智能计算力发展评估报告》显示，人工智能应用对算力最大的挑战来自于数据中心的模型训练。具有海量参数的模型训练几乎完全依赖于核心数据中心的算力支撑。比如2020年微软发布的智能感知计算模型Turing-NLG，参数量高达到175亿；OpenAI发布的GPT-3模型，参数量更达到1750亿，是GPT-2的100余倍。由于其庞大的参数体量，在给人工智能应用提供便利的同时，对AI算力提出了更高的要求。

因此，人工智能的算法越来越依赖于算力的发展。

目前，为AI提供算力的主流AI计算加速芯片主要为以下几种：

GPU：图形处理器（Graphics Processing Unit，GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器。

FPGA：现场可编程门阵列（Field Programmable Gate Array，FPGA）。其设计初衷是为了实现半定制芯片的功能，即硬件结构可根据需要实时配置灵活改变。

ASIC：专用集成电路（Application Specific Integrated Circuit，ASIC），适合于某一单一用途的集成电路产品。

他们之间与传统的CPU对比如下：

从图中可以看出，针对不同的计算任务、不同的场景，不同类型的芯片各具优势。

根据IDC报告，2020年，中国的GPU服务器依然占据人工智能市场95%左右份额；未来FPGA和ASIC等其他加速芯片将在各个行业和领域被越来越多的采用，尤其是部署在边缘和端侧的推理工作负载，以满足成本与功耗的需求。

从厂商的角度来看，Nvidia的GPU加速芯片由于其超多的核心数、超高的计算性能、简单易用的特性，成为数据中心深度学习加速方案的绝佳搭档。

随着GPU在AI领域的广泛应用，对GPU算力的优化也迎来了新的挑战。

二、如何进行算力优化

Q：为什么要优化？

A：因为算力昂贵，而且现阶段算力紧张。

Q：怎么优化？

A：从以下三个方面入手。

1、GPU资源池化

早些年，我们主要使用的资源对象还是以CPU为主，业界的虚拟化和云化技术也是围绕CPU展开。现在随着AI的发展，深度学习应用的规模化扩张，在很多头部客户的数据中心里面已经构建了几千张甚至上万张规模的GPU卡。

当一种新资源扩张到一定程度，必然会带来管理、调度、分配和使用上的挑战，特别是GPU这种既昂贵，又稀缺的资源：

对于资源的IT运维方，就要花更多的金钱和精力来埋单；
对于资源的使用方，就要花更多的时间和人力来填坑。

浅谈AI算力优化技术

一、AI算力的主要构成

二、如何进行算力优化

相关推荐