无监督学习多模态融合！腾讯优图联合厦门大学发布2021十大AI趋势

发布时间：2023-05-19 15:00

腾讯优图实验室联合厦门大学人工智能研究院发布《2021 十大人工智能趋势》报告，对 3D 视觉技术、深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。

6 月 5 日，2021 全球人工智能技术大会（GAITC 2021）在杭州举办，汇集人工智能产学研各界领军者，以国际化、前瞻化、产业化视角，解析并洞察了新一代人工智能发展路径。

在大会上，腾讯优图实验室联合厦门大学人工智能研究院正式发布《2021 十大人工智能趋势》（以下简称“趋势报告”），基于双方长期对人工智能尤其是计算机视觉的研究洞察，对 3D 视觉技术、数字内容产业、AI 深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。

趋势报告指出，随着深度学习在多个人工智能的细分领域（如视觉，自然语言处理等）日趋成熟化和规模化，多模态融合成为真正实现通用人工智能的必然选择，人工智能也将从感知智能迈向认知智能；同时，随着算法和硬件能力的不断升级，3D 视觉智能技术将推动商业发展和个人消费升级；深度学习迈向多模态融合，边缘计算与人工智能加速融合，AI 算法的公平性研究将推动 AI 应用走向普惠。

以下为《2021 十大人工智能趋势》详细内容：

1、自动机器学习的自动化程度与可解释性得到进一步提升

自动机器学习（AutoML）目前已经在多个领域中初步实现对机器学习方法的自动化设计过程，但其仍然存在自动化程度不足，可解释性不强的问题。如神经网络结构搜索（NAS）在一些应用领域中取得了可以与人类机器学习专家可比较的水平，然而现有的 NAS 方法实际需要基于人工设计的神经网络基础结构。此外，AutoML 的自动化过程往往被认为是一种 “黑箱”，缺乏可解释性。今后自动化程度及可解释性仍然是 AutoML 研究的热点问题，通过提高 AutoML 中的超参数选择，特征表示与机器学习算法的确定和神经网络结构搜索的自动化程度及可解释性，AutoML 将实现对机器学习涉及的每个环节的真正的自动化设计过程。AutoML 整个体系架构的日趋完善，将推动新一代普适性 AutoML 平台的建设，并实现机器学习的大众化。

2、无监督 / 弱监督学习逐渐成为企业降本增效新利器

在过去的几年中，深度学习所取得的巨大成功离不开大规模标注的数据集。大规模标注的背后，是传统的监督学习对于每一个训练样本完备标签的要求。随着业务规模的不断扩大，越来越多的企业发现数据的标注开始成为抬高交付成本、制约效果提升的主要因素之一。在此背景下，无监督学习和弱监督学习通过不使用标签或减少对标签数量、质量的要求来迅速降低深度模型对于数据的标注需求，使得原本无法利用的数据如今都可以加入到模型的训练中去，进而由量变引发质变。在 NLP 领域，基于 Transformer 的无监督训练模型已持续霸榜各种 NLP 任务数据集；在 CV 领域，最新的 MPL 方法也通过额外的无标注数据集首次将 ImageNet 的 Top-1 分类准确率提升到了 90%+ 的水平。可以预见的是，将有越来越多的人工智能企业会面临从前期的迅速扩张到稳定期高效化运作的新阶段，而在这个过程中，无监督 / 弱监督学习无疑将成为他们过渡到这个阶段的重要手段之一。

3、3D 视觉技术助力产业消费升级，淡化虚实边界

作为视觉 AI 领域多年热点研究方向之一，3D 视觉技术的核心任务是对三维空间、物体及环境进行真实还原与重建。随着相关算法与硬件计算能力的不断升级， 3D 视觉算法效果得到大幅提升，三维几何重建更加精细，表面纹理重建更加清晰，带来更加逼真的视觉观感。近年来，诸多 3D 视觉研究成果为低成本高质量的 3D 内容生成提供了良好技术支撑，基于 3D 虚拟形象的舞台演出、直播带货、教育互动等应用层出不穷，成为 AI 内容产业全新发展方向。以此为基础，结合 5G 时代流量带宽的全面升级，带有交互功能的 3D 虚拟现实、增强现实、混合现实的 3D 视觉应用将用户体验向真实与虚拟的完美融合进一步迈进。用户会因为虚拟偶像生动自然的舞台表演进行打赏，会由于虚拟主播 “卖力” 地带货促销而下单购买，而线上平台则依靠 3D 视觉技术大大降低内容制作和 IP 运营成本，最终带来社会商业发展模式与个人消费习惯的颠覆与变革。展望未来，3D 视觉技术将持续在包括游戏娱乐、影视制作、电商直播、医疗整形等众多领域广泛应用，虚拟与现实的边界将不断淡化。

4、多模态融合加速 AI 认知升维

深度学习在多个人工智能的细分领域（如视觉，自然语言处理等）已日趋成熟化和规模化，然而要真正实现通用人工智能，必然要将这些细分领域各自所针对的信息模态整合利用，即多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上，实现不同模态信息的统一表征框架，从而起到 1+1>2 的作用。典型的场景之一是通过图文语音联合识别，实现对隐晦和暗示性，招嫖广告，儿童不良表情包等图文混合内容识别，支持审核业务深度打击不良内容。除了图文融合等跨域模态融合，同域内的不同信息维度同样可以融合，如随着深度生成技术的发展，当前的人脸识别除了传统的 RGB 图外，还需要融合深度图、红外图等信息来更好的防御越来越多元化的人脸伪造攻击，实现更强的人脸防御。随着人工智能认知能力的提升，多模态融合也将会从图文等实质性模态，逐渐拓展到如物理关系，逻辑推断，因果分析等知识性模态，从感知智能迈向认知智能。

5、人工智能推动数字内容生成向新范式演进

随着数字文化产业的蓬勃发展，尤其是二次元文化渗透出圈，数字内容产业面临新一轮的需求升级，伴随着 5G 商业化进程的不断加深，多元化、精品化的优质数字内容将面临更快的消费节奏，与此同时，供给侧仍存在巨大的产能缺口，数字内容产业正处于劳动密集型向科技密集型的转型阶段。AI 与数字内容产业的深度耦合，将有希望为行业释放更大的科技势能，以 GPT-3、DALL-E 为代表的 AI 技术，已在文本、语音、图像、视频等内容生成中取得了令人惊艳的结果，然而在精确性、泛化性、合理性方面仍然面临挑战，目前的前沿研究一方面探索从模型结构（自动化搜索等），训练形式（无监督对比学习等）等方面提升精度效果；另一方面引入知识图谱领域知识，向机器介绍常识和其他特定领域的知识进而提升常识推理效果。伴随着技术的持续升级演进，我们预见 AI 将逐步在数字内容生成领域释放引擎级的影响力，在内容、平台、技术多方合力引导下，构筑数字内容生成新范式。

6、边缘计算与人工智能加速融合

近年来，随着深度学习算法的迅猛发展，计算机视觉、自然语言处理、搜索推荐广告等各种领域的任务性能得到不断刷新。同时，随着边缘智能设备的广泛普及和硬件改进，基于深度学习的人工智能技术在边缘端应用落地成为了可能。然而，在边缘端上部署深度学习模型具有很大的难度。其主要挑战表现在，边缘端等智能设备在计算、存储、功耗等方面有很大的限制。因此，边缘端模型必须满足低计算复杂度、小模型尺寸、低模型功耗等要求。未来将趋向硬件友好型的剪枝加速。根据边缘硬件的 CPU 类型来设计特定的网络稀疏化模式，适配不同硬件的模型压缩与优化加速技术是未来研究热点趋势。其次，基于自动化的 1-bit 量化方法有上百倍的理论性能提升，因此也是未来研究热点趋势。

7、人工智能内核芯片向类脑神经计算方向演进

人工智能内核芯片已经成为人工智能时代的关键技术之一，在某些领域中的具体任务上人工智能内核芯片能够实现超越人脑的表现，但针对人工智能内核芯片的研究依然落后于人工智能的发展，人工智能内核芯片无法同时满足多种人工智能算法的加速要求，并且面对各种新型人工智能技术不断涌现的局面，人工智能内核芯片与人脑相比其自我学习能力与可扩展性存在明显不足。未来人工智能内核芯片将在结构上更接近人脑的神经构造，获得类神经计算的能力，通过不断整合最新的人工智能技术，定制型人工智能内核芯片将逐渐演变为通用型人工智能内核芯片，在提高自我学习能力的同时，实现对不同人工智能技术在不同任务上的加速计算，从而推动人工智能内核芯片实现真正的落地。

8、算法公平性研究推动 AI 应用走向普惠无偏见

由于数据偏差、算法本身缺陷、甚至是人为偏见的存在，现有 AI 算法普遍存在对于某些特定人群效果不公平的 "歧视性现象"。随着 AI 算法在社会各行业的广泛落地应用，作为辅助人们决策的重要工具，算法的公平性问题正受到越来越多的关注。过去的几年业界已在逐步探索一些针对性的解决方案，包括构建更公正的数据集、算法训练中引入公平性约束损失、提高机器学习算法的可解释性等。但就整体而言，当前公平性研究在精度和公平性的平衡、不同场景的泛化性有效性等问题上正处于方兴未艾的阶段。随着欧盟发布《人工智能白皮书》、《人工智能伦理: 问题和倡议》，中国发布《协同落实人工智能治理原则的行动建议》，人工智能的治理正成为一个愈加热门的议题，而算法的公平性正是人工智能治理的关键问题。我们预见算法公平性的研究将持续深化，在人脸识别等最广泛的 AI 应用领域取得突破，为不同人群带来更加普惠无偏见的效果。

9、隐私保护 AI 落地实用帮助算法可持续进化

人工智能和机器学习算法的广泛应用，在为人们提供便利的同时，也带来了极大的隐私泄露风险。这种隐私泄露包括用户数据在授权范围以外被处理共享、机器学习算法训练后存在数据记忆等现象。AI 算法开发中的数据隐私保护问题受到的关注以及监管日益增长，美国于 2020 年生效《加利福利亚消费者隐私法案》，中国于 2020 年公布《个人信息保护法(草案)》。针对机器学习中上述隐私保护问题，研究工作近年来逐步深入走向成熟，发展出了数据匿名化、联邦学习、差分隐私等一系列方法。我们预见能够保护用户数据隐私的更加灵活高效的 AI 学习方法将在金融、医疗、社交等场景实用化落地，消减用户的隐私担忧，帮助 AI 算法在场景中可持续地进化。

10、人工智能技术向安全智能方向迈进

随着人工智能技术在各行各业的广泛应用，滥用或恶意破坏人工智能系统将会给社会带来巨大的负面影响。近年来算法后门攻击、对抗样本攻击、模型窃取攻击等针对人工智能算法的攻击技术持续发展，通过篡改构造特殊数据诱骗人工智能应用产生不可信的错误结果，带来了更大的算法安全风险，因此保障人工智能应用安全可靠的需求日渐迫切。未来人工智能技术将向着安全智能方向持续演化，一方面从算法的可解释性入手提升模型的鲁棒性，另一方面化被动为主动，通过主动安全检测机制对各类攻击进行侦测与拦截，最终实现人工智能可用性与可信性双轨并重的现实需求，推动人工智能技术在更广泛领域的安全落地。

作为腾讯旗下顶级的人工智能实验室，腾讯优图长期坚持基础研究和产业落地两条腿走路，拥有超过 1000 余项 AI 相关国内外专利，300 余篇论文被 CVPR、AAAI、ICCV 等国际顶会收录。在产业落地方面，腾讯优图通过腾讯云持续输出顶尖的视觉 AI 能力，目前已推出超过 30 个行业解决方案。

无监督学习多模态融合！腾讯优图联合厦门大学发布2021十大AI趋势

相关推荐