深度学习在文本、语音和视觉等方向的进展--强化学习

发布时间：2023-12-06 17:00

AlphaZero自学成才，机器人Atlas苦练后空翻……2017年，人工智能所取得的新进展真是让人应接不暇。而所有的这些进展，都离不开深度学习一年来在底层研究和技术开发上的新突破。圣诞节前后，Statsbot的数据科学家Ed Tyantov专门评估了深度学习这一年在文本、语音和视觉等方向的各项研究成果，并进一步试图总结出一些可能影响未来的全新趋势。

具体都是些什么呢？我们来看文章。

作者 | Eduard Tyantov

翻译 | 林椿眄

文本

Google神经网络翻译机器

大约一年前，Google公司宣布推出Google在线翻译的新模式，并详细地介绍了其中的技术核心结构—递归神经网络结构。

这项技术最大的突破是，使机器翻译与人类的差距缩小了55-85%。必须指出，如果没有Google的庞大数据库作为支撑，这个递归神经网络的翻译模型很难使机器达到如此好的翻译效果。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第1张图片\"$

谈判，会成功交易吗？

你可能听说过一则愚蠢的新闻，Facebook公司关闭了聊天机器人，然后这个机器人失去控制，自己编写语言。

这个聊天机器人是Facebook公司创造的并用于谈判交易工作的。它的目的是与另一个代理进行谈判并达成交易：如何将物品(如书，帽子等)一分为二。每个代理在谈判中都有自己的目标，而互相之间事先并不知晓对方的想法。

为了训练机器人的需要，他们收集了一个有关人类谈判的数据库并且采用有监督的方式来训练递归神经网络模型。随后，这些聊天机器人用一种强化学习的方式进行自我训练，并在保证语言与人类尽可能相似的前提下，学着与自己进行对话。

慢慢地，这些机器人已经学会了一个真正的谈判策略，那就是通过在谈判过程中表现出对目标虚假的兴趣来误导对方，并在实际目标的选择中受益。

创造这样一个互动机器人是一种全新的且非常成功的尝试。未来关于它的更多细节以及代码都将开源。

当然，新闻中称该机器人发明了一种新语言的消息是有点故弄玄虚。训练时(与同一代理商进行谈判时)，放弃与人类保持相似性的限制，并通过算法来修改交互时所使用的语言，这并不是什么特别的事情。

在过去的一年里，循环神经网络模型已经得到非常广泛的运用，同时，循环神经网络的架构也变得更加复杂。但是在一些领域，简单的前馈网络DSSM就可以得到类似的结果。例如，Google邮件的“智能回复”功能较之前应用LSTM架构，有着相同的性能表现。此外，Yandex还基于这样的网络推出了一个新的搜索引擎。

语音

WaveNet：原始音频的生成模型

DeepMind的员工最近在文章中报道了生成音频的研究成果。简而言之，研究人员基于先前的图像生成方法(像素级RNN模型和像素级CNN模型)，提出了自回归的全卷积WaveNet模型。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第2张图片\"$

该网络实现了端到端的训练：从输入文本到输出音频。相比于人类水平，该研究降低了50%的差异性，取得了很好的结果。但是，该网络的主要缺点就是生产效率低。由于自回归过程的原因，声音是按照顺序生成的，大约需要1-2分钟来创建1秒的音频。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第3张图片\"$

听到这个结果让人感觉有点失望。如果能够消除网络结构对输入文本的依赖性而仅仅留下对先前生成的音符的依赖性，那么网络将产生类似于人类语言的音符，但是这样做并没有意义。

这是一个应用该模型生成声音的例子。这种相同的模式不仅适用于演讲，也适用于音乐创作。

想象一下由生成模型生成的音频，使用关于同样不依赖于输入数据的钢琴数据库进行音乐教学工作。

如果你对这方面感兴趣的话，请阅读DeepMind关于此研究的完整介绍。

唇语解读

唇语解读是深度学习超越人类的另一大表现。Google DeepMind与牛津大学合作，他们发表论文讲述如何用电视数据集训练的模型的性能表现是如何超过BBC频道里的专业唇语读者。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第4张图片\"$

该数据集中有10万个带有音频和视频的句子。采用音频数据训练LSTM模型，视频数据训练CNN+LSTM模型。这两种状态下训练得到的模型向量都被馈送到最终的LSTM模型中去，从而产生最终的结果。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第5张图片\"$

在训练期间使用不同类型的输入数据：包括音频、视频和音频+视频组合数据等。换句话说，这是一种“全渠道全方位”的训练模型。

合成奥巴马：在音频中同步他的嘴唇运动

华盛顿大学做了一项严谨的研究，来生成前美国总统奥巴马的唇语动作。之所以会选择他作为研究对象，是因为这段在线录音的持续时间很长，数据数量巨大(17个小时的高清视频)。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第6张图片\"$

由于他们没办法得到更多的数据资料，因此研究者进一步提出了几个技巧性的东西来改善最后的结果。如果你感兴趣的话，可以来试试看。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第7张图片\"$

你可以看到研究的结果是很惊人的。在不久的将来，你甚至将不能相信那些总统的演讲录像了。

计算机视觉

OCR: Google街景地图

Google Brain Team在他们的博客和文章中报道了他们是如何在地图中引入新的OCR(光学字符识别)引擎，通过它来识别路牌和商店标志。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第8张图片\"$

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第9张图片\"$

在这项技术的开发过程中，他们编制了一个新的FSNS(法国街道名称标志)，其中包含许多复杂的样例。为了识别每一个标志，网络最多使用四张图片，用CNN来提取图片特征，再辅以空间注意力机制，最终将结果馈送到LSTM模型中。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第10张图片\"$

相同的方法适用于在标志牌上识别商店名称的任务(这可能会受到很多“噪声”数据的干扰，而模型本身需要聚焦到正确的位置上)。这种算法已适用于800亿张照片的识别。

视觉推理

视觉推理任务，要求神经网络使用照片来回答其中的问题。例如，“在图片中是否有与黄色金属圆柱体相同尺寸的橡胶材质？”这确实是个非常重要的问题，而直到最近这个问题才得以解决，其准确率只有68.5％。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第11张图片\"$

Deepmind团队在这个领域再次取得了突破：在CLEVR视觉推理数据集上，他们的模型实现了95.5％的超人类精确度。模型的网络架构十分有趣：

在文本问题上使用预先训练好的LSTM模型，我们将问题嵌入到模型中。

使用CNN模型(只有四层结构)对图片提取特征，我们得到图片的特征映射用来表征图片的特征。

接下来，我们在特征映射图上(如下所示图片的黄、蓝、红色区域)形成坐标切片的成对坐标组合，并将坐标值和文本信息嵌入到每个区域中。

通过另一个网络，我们将上述整个过程驱动三次，并将得到的最后结果汇总。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第12张图片\"$

最终呈现的是通过另一个前馈网络运行的结果，并给出了Softmax的结果。

Pix2Code

Uizard公司创建了一个神经网络的有趣应用：即根据界面设计者的屏幕截图来生成一个界面布局。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第13张图片\"$

这是一个非常有用的神经网络应用程序，他可以使开发者在开发软件时更加轻松。该项应用的研究者声称他们已经能够达到77%的应用准确率。

但是，这个问题目前还处于研究完善中，并没有真正应用。因此，目前在开源社区还没有相关的代码或者数据集。

SketchRNN：教一台机器学会画画

也许你看过Quick, Draw!这是出自Google公司之手，其目标是在20秒内绘制出各种对象的草图。该公司设计这个数据集的目的是，教会神经网络如何画画。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第14张图片\"$

最终，为了适应自编码器的需要，该模型接收到表征原始图像的潜在向量。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第15张图片\"$

由于解码器能够从这个潜在向量提取一副草图，你可以通过改变它来得到一副新的草图。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第16张图片\"$

甚至可以执行一个矢量算法来创建一个catpig。

生成对抗网络

生成对抗网络是当下深度学习中最热门的话题之一。大多数情况下，这个模型是用来处理图像数据，因此我们会用图像来解释这个模型。

提出这个模型的思想是在两个竞争的网络中，一个生成网络和一个判别网络。生成网络是用于创建一张新的图像，而判别网络试图去判定图像是真实的还是生成的。模型原理示意图如下所示：

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第17张图片\"$

在训练期间，生成网络接收随机向量(噪声)作为输入并生成图像，接着将其馈送到判别网络中作为其输入，由判别网络判定输入的真假性。判别网络也可以从数据集中给出真实的图像。由于很难找到两个网络的平衡点，因此训练生成对抗网络一大难点。大多数情况下，判别网络获胜时训练过程也就停止了。但是，这种模型的好处就在于我们可以解决一些难以设定损失函数的问题。例如，要提高图片的质量，我们可以将其提供给判别网络。

生成对抗网络训练的典型例子就是带卧室或人的图片，如下所示：

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第18张图片\"$

同样的算法也可以在潜在的空间起作用：例如，“一个戴眼镜的男人”减去“男人”再加上“女人”等于“戴眼镜的女人”。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第19张图片\"$

用生成对抗网络改变人脸的年龄

如果在训练过程控制潜在向量的传入参数，那么在生成潜在向量时，就可以更改这些参数值，以便管理图片中这些必要的图像信息，这种方式称为条件生成对抗网络模型。正如文章的作者提到的：“面对有条件的生成对抗网络模型，人脸的年龄是可以被改变的。”在已知人脸年龄的情况下，在IMDB数据集上训练我们的模型，我们可以用这种方式改变人脸的年龄。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第20张图片\"$

专业照片

Google为生成对抗网络创建了一个有趣的应用程序，就是照片的选择和美化。生成对抗网络模型在一个专业的照片数据集上训练：生成网络试图改善质量较差的照片(包括专业镜头和特殊滤镜的功能退化等)，而判别网络用于区分“改善后”的照片和真正的专业照片。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第21张图片\"$

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第22张图片\"$

一个训练有数的算法，能够通过Google街景的全景搜索功能来搜索得到一些专业和半专业质量的照片(根据摄影师的评级标准而定)。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第23张图片\"$

从文本描述中合成图像

生成对抗网络最令人印象深刻的一个例子是使用文本的描述信息来生成图像。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第24张图片\"$

这项研究的作者说到，不仅将文本信息嵌入到生成网络(条件生成对抗网络)的输入中去，而且还要将其嵌入到判别网络中去，以便验证文本信息与图像的对应性。为了确保判别网络自身功能的发挥，除了训练过程，研究者还为实际图片添加了一些不正确的文本信息。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第25张图片\"$

Pix2Pix

在2016年最受人瞩目的文章当属Berkeley AI Research(BAIR)提出的“用带有条件的生成对抗网络来实现图像到图像的转换”。研究人员解决了从图像到图像生成的问题，例如，需要使用卫星图像来创建地图，或使用草图来创建逼真的对象纹理，都可以使用该研究的成果。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第26张图片\"$

条件生成对抗网络的另一个成功应用例子，是根据情景生成整个画面。这在图像分割领域得到广泛的应用，Unet被用作生成网络的体系结构，并且使用一个新的PatchGAN分类器作为判别网络，用以对抗模糊图像的干扰(图像被分割成N个补丁，并且伪造/真实的预测将分别适用于他们当中的每一个部分)。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第27张图片\"$

作者发布了他们模型的在线演示，你也可以在这里找到模型的源代码。https://github.com/phillipi/pix2pix

CycleGAN

为了应用Pix2Pix技术，你需要一个包含了不同领域目标对象的数据集。例如，用卡片来组成这样的数据集不成问题，但是如果你想做一些更复杂的事情，如“变形”对象或重塑对象的话，原则上是找不到这样的目标对象的。因此，Pix2Pix的作者决定进一步研究他们的想法，并提出CycleGAN，在图像的不同区域之间进行不成对目标的转换，而不再需要依赖于特定的目标对。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第28张图片\"$

但是这转变是不稳定的，这通常也是产生失败的原因。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第29张图片\"$

你可以在这里获得它的源代码。https://github.com/junyanz/CycleGAN

肿瘤学中分子的发展

机器学习正在进入医学领域。除了识别超声波，MRI和诊断，还可以用于寻找新的药物来对抗癌症。简单地说，在对抗自编码器的帮助下，我们可以学习分子的潜在形式，然后以此来搜索新的分子形式。结果发现了69个分子，其中一半是被用来对抗癌症，而剩下的都具有很大的潜在性。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第30张图片\"$

对抗性攻击

关于对抗性攻击的话题，正在被积极地探索研究。那么什么是对抗性攻击呢？例如，在ImageNet数据库上训练标准网络，当为分类图片添加一些特定的噪声时，标准网络将变得不稳定。在下面的例子我们将看到，对于一张人眼看过去几乎没有变化的图片，而模型却还产生异常的结果，预测出一个完全不同的类别。

例如，使用快速梯度符号法(FGSM)，可以得到稳定的模型：可以访问模型的参数，可以对所需的类进行一个或多个渐变的步骤并以此更改原始的图片。

Kaggle中有一个与此有关的任务：就是鼓励参与者创造普遍的攻击/防御，这些攻击/防御最终都是相互对立的，以此来确定最好的模型。

我们为什么要研究这些攻击呢？首先，如果我们想要保护我们的产品，我们可以向验证码添加噪声，以防止垃圾邮件的自动识别。其次，算法越来越多地涉及到我们的生活中，如人脸识别系统和自动驾驶系统，在这种情况下，攻击者就可以利用算法的缺点展开攻击，威胁到我们的生活。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第31张图片\"$

例如，特殊的眼镜可以让你欺骗人脸识别系统，系统将把自己当成另一个人。

所以，在训练模型的时候我们要考虑到可能的攻击情况。类似以下的这种的操作符也不能被它们正确的识别：

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第32张图片\"$

这是比赛组织者写的一篇文章。https://www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack/discussion/35840

编写好了的用于攻击的代码库：

cleverhanshttps://github.com/tensorflow/cleverhans和foolboxhttps://github.com/bethgelab/foolbox。

强化学习

强化学习是机器学习中最有趣也是最值得发展的方法之一。这种方法的本质是通过给定的经验，在特定的环境中，学习训练代理并给予奖励的一种学习方式，就像人类的终生学习一样。

强化学习在游戏，机器人和系统管理等领域已被广泛地使用。当然，大家都听说过AlphaGo在围棋比赛中完胜围棋专业选手。目前，研究人员正使用强化学习方式来训练机器人，因为机器人本身的设计就是为了改进策略而不断发挥自身作用的。

以强化学习方式训练不受控制的辅助任务

在过去的几年中，DeepMind的研究者使用深度强化网络(DQN)来学习街机游戏，并已达到超人类的游戏表现。目前，他们正在训练算法去学习玩一些更复杂的游戏，如毁灭战士(Doom)。

强化学习的研究，大部分的注意力都集中在加速学习方面，因为代理与环境之间的交互经验需要在目前的GPU上进行很长时间的训练。

在DeepMind的官方博客中，介绍了一种引入额外损失(辅助任务)的方式来加速训练过程，如预测帧变化(像素控制)，以便代理能够更好地理解行为的后果，这将大大加快学习的速度。

https://youtu.be/Uz-zGYrYEjA

学习机器人

OpenAI的研究人员一直致力于研究代理在虚拟环境中的训练过程，相比于现实生活，这样的实验显得更加安全。其中一项研究表明，一次学习是可能是实现的。一个人在虚拟现实中能够展示如何执行某项任务的能力，而一个演示就足以让算法进行学习，并在真实条件下实现。如果可以的话，这对于人类来说简直是太容易了。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第33张图片\"$

学习人的喜好

这是OpenAI和DeepMind共同的一个工作主题。底线是一个代理和一个任务，算法提供两种可能的解决方案，并指出哪一种更好。通过迭代地训练该过程，得到来自代理的反馈信息，并以此来学习如何解决该问题。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第34张图片\"$

即使这样，人类必须要认真思考要让机器去学习的东西。例如，评估者确定要让算法去接受某个对象，但是实际上他只是模拟了这个动作而已。

在复杂环境中运动

这是DeepMind的另一项研究。为了教会机器人一些复杂的行为(走路，跳跃等)，甚至做一些类似人类做的事情，你必须要大量地考虑损失函数的选择，这将是鼓励所期望行为发生的关键所在。然而，这个算法最好靠简单的奖励来学习复杂的行为。研究人员已经成功实现了这一目标：他们通过构建一个复杂的带障碍的环境，在移动的过程给予简单的奖励回报，教会一个代理(身体模拟器)去执行一些复杂的行为。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第35张图片\"$

你可以看看这些令人印象深刻的视频，不过，用超声道观看它将更加有趣。https://youtu.be/itACOKJHYmw

最后，我将给出OpenAI最近发布的学习强化学习算法的链接，相比于标准的深度强化网络，现在你可以使用一些更先进的方法来解决问题。https://github.com/openai/baselines

其他

冷却数据中心

2017年7月，Google公司报告中提到，利用DeepMind在机器学习领域的研究成果来降低数据中心的能源成本。根据数据中心上千个传感器的数据信息，Google开发人员训练了一个集成的神经网络来预测PUE(电源使用效率)和更高效的数据中心管理。这是机器学习实际应用中一项令人深刻的成果。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第36张图片\"$

一个模型完成所有任务

正如你所知道的那样，训练好的模型很难从一个任务转移到另一个任务，因为每个任务都必须经过特定的模型训练过程。Google Brain提出的“用一个模型来学习所有的东西”，向模型的普遍适用性研究迈出了一小步。

研究人员已经训练了一个模型，来执行不同领域(包括文本，语音和图像等)的八个任务。例如，来自不同语言的翻译，文本的解析以及图像和声音的识别等任务。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第37张图片\"$

主要的研究成果如下：

得到几乎完美的模型 (作者没有微调超参数设置)。

不同领域间的知识迁移，即在数据量大的任务上，性能几乎相同，对于小问题的性能表现更好 (如解析任务)。

不同人物所需的模块间不会产生相互的干扰，有时甚至可以互相帮助，如门控混合专家的模块在ImageNet上，对任务的模型性能有改善作用。

另外，这个强大的模型已经呈现在tensor2tensor中。

一小时内学习ImageNet数据库

在他们的帖子中，Facebook的工作人员告诉我们，他们的工程师只需要一个小时就能够在ImageNet数据库上训练完ResNet-50模型，这需要使用256个GPU集群(Tesla P100)。他们使用Gloo和Caffe2深度学习框架进行分布式训练。为了是整个过程更有效率，对于学习策略的调整是很有必要的(8192个元素)：采用梯度平均，模型预训练以及特殊学习率等策略。

结果表明，从8个GPU扩展到256个GPU训练时，可以达到90%的效率。也就是说，现在Facebook的研究人员可以比没有这个集群的研究者更快地进行实验。

新闻

自动驾驶汽车

自动驾驶汽车领域的研究正在深入发展，而自驾车也正在测试中。从最近的事件中，我们可以看到来自英特尔的MobiEye被收购，Uber和Google的技术被前员工偷窃的丑闻以及使用自动驾驶仪所导致的第一起交通死亡事件等。

我注意到：Google Waymo正推出一个测试版的自驾程序。Google是自动驾驶领域的先驱，并且他们的技术已经非常成熟，因为Google的无人驾驶车已经行驶了300多万英里。

最近发生的大事是自动驾驶汽车已经被允许在美国各州上路。

卫生保健

现代机器学习技术已经开始引入医学领域。例如，Google与医疗中心合作并帮助医生进行诊断。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第38张图片\"$

为此，DeepMind还成立了一个独立的单元，用于从事医学领域的深度学习技术研究。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第39张图片\"$

今年，DeepMind在数据科学碗项目的基础上举办了一场竞赛，根据详细的图像数据来预测肺癌，该赛事的奖金高达一百万美元。

投资

目前，与之前BigData一样，机器学习领域也得到了大量的投资。中国在人工智能领域的投资已有1500亿美元，处于全球领先水平。百度研究公司雇佣了1300人从事人工智能的研究工作，而Facebook的FAIR研究院才有80位研究人员。此外，在KDD会议结束的尾端，阿里巴巴的员工谈论到他们的参数服务器KungPeng，运行了1000亿个样本，具有万亿级的参数量，这已经成为日常工作里的一个基本运作。

$\"深度学习在文本、语音和视觉等方向的进展--强化学习_第40张图片\"$

你可以得到自己的结论，学习机器学习永远都不会太晚。无论如何，随着时间的推移，所有的开发人员都将使用机器学习技术和数据库。不久的将来，这会成为一项常备技能。

原文链接：https://blog.statsbot.co/deep-learning-achievements-4c563e034257

$\"640?wx_fmt=png\"$

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新

评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开

发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临

较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

转载于:https://www.cnblogs.com/alan-blog-TsingHua/p/9727160.html

深度学习在文本、语音和视觉等方向的进展--强化学习

相关推荐