手机版

张钹院士：满足这五个条件你的工作就将被AI取代(3)

发布时间：2021-11-15 来源：网络整理

小中大

字号：

　　这里介绍一点我们现在做的工作，加入常识以后，对话的性能会不会有所改善。我们的基本做法是建立一个常识图谱，用这个图谱帮助理解提出的‘问题’，同时利用常识图谱帮助产生合适的答案。

　　下面就涉及到具体怎么做了，我不详细说了，我就说结果，结果是有了常识以后，性能有了显著的改善，对话的质量提高了。这篇文章已经发表，有兴趣可以去阅读。

　　另外是准符号模型，深度学习、神经网络主要用来模拟感性行为，感性行为是一般很难采用符号模型，因为感性（感觉）没法精确描述。比如‘马’，怎么告诉计算机什么叫做马？你说马有四条腿，什么叫做腿？你说细长的叫做腿，什么叫细？什么叫做长？没法告诉机器，因此不能用符号模型。目前用的办法就是我们现在说的神经网络或者准符号模型，也就是用人类同样的办法，学习、训练。我不告诉机器什么叫做马，只是给不同的马的图片给它看，进行训练。训练完以后，然后再用没见过的马的图片给它看，说对了，就是识别正确了，说不对就是识别不正确，如果 90% 是对的，就说明它的识别率是 90%。后来从浅层的神经网络又发展到多层的神经网络，从浅层发展到多层有两个本质性的变化，一个本质性的变化就是输入，深层网络一般不用人工选择的特征，用原始数据就行。所以深度学习的应用门槛降低了，你不要有专业知识，把原始数据输进去就行了。第二个是它的性能提高很多，所以现在深度学习用得很多，原因就在这个地方。

　　通过数据驱动建立的系统能不能算是有智能呢？必须打一个很大的问号，就是说你做出来的人脸识别系统甚至识别率会比人还高，但是我们还不能说它有智能，为什么呢？这种通过数据驱动做出来的系统，它的性能跟人类差别非常大，鲁棒性很差，很容易受干扰，会发生重大的错误，需要大量的训练样本。我们刚才已经说过，给定一个图像库我们可以做到机器的识别率比人还要高，也就是说它可以识别各种各样的物体，但是这样的系统，我如果用这个噪声输给它，我可以让它识别成为知更鸟，我用另外的噪声输给它，可以让它识别成为猎豹。换句话讲，这样的系统只是一个机械的分类器，根本不是感知系统。也就是说它尽管把各种各样动物分得很清楚，但是它不认识这个动物，它尽管可以把猎豹跟知更鸟分开，但是它本质上不认识知更鸟和猎豹，它只到达了感觉的水平，并没有达到感知的水平，它只是‘感’，没有上升到‘知’。我们的结论是，只依靠深度学习很难到达真正的智能。这是很严峻的结论，因为如果有这样的问题，在决策系统里头是不能用这样的系统，因为它会犯大错。我在很多场合讲过，人类的最大的优点是‘小错不断、大错不犯’，机器最大的缺点是‘小错不犯，一犯就犯大错’。这在决策系统里头是不允许的，这就显示人跟机器的截然不同，人非常聪明，所以他做什么事都很灵活，这就使得他很容易犯各种各样的小错。但是他很理性，很难发生大错。计算机很笨，但是很认真，小错误绝对不会犯，但是它一犯就是天大的错误。刚才把那个把噪声看成知更鸟，这不是大错吗？你把敌人的大炮看成一匹马，不是大错吗？但是人类不会发生这种错误，人类只会把骡看成驴，但是计算机的识别系统会把驴看成一块石头。原因在哪儿？原因还是 AI 的理解能力问题。

　　我们看这个自动驾驶，过去讲得很多，而且讲得很乐观，我们看看问题在什么地方。我们现在是这样做，我们通过数据驱动的学习方法，学习不同场景下的图象分割，并判别是车辆还是行人、道路等，然后建立三维模型，在三维模型上规划行驶路径。现在用硬件已经可以做到实时，请问大家，这样能不能解决问题？如果路况比较简单，行人、车辆很少，勉强可以用。复杂的路况就用不了。什么原因？非常简单，好多人总结出这个经验，行人或者司机都会有意无意破坏交通规则，包括外国人也一样，中国人更严重一点。这就使得数据驱动方法失效，比如说我们可以用数据驱动方法来了解各种各样行人的行为，我们可以通过大量进行训练，都训练完以后，如果出现新的情况呢？计算机能理解这是人从底下钻过来，很危险吗？所以你不可能把所有情况都训练到。自动驾驶不可能对付突发事件，如果这个突发事件它没见过，它就解决不了。