广告
科学新闻
来自研究机构

自动驾驶汽车,机器人:识别人工智能的“盲点”

日期:
1月25日,2019
来源:
麻省理工学院
总结:
一个新的模型可以识别自治系统从训练实例中“学习”的实例,这些实例与现实世界中实际发生的情况不匹配。工程师可以利用这个模型来提高人工智能系统的安全性,比如无人驾驶汽车和自主机器人。
分享:
完整的故事

麻省理工学院(MIT)和微软(Microsoft)的研究人员建立了一个模型,确定了自动驾驶汽车从训练实例中“学习”的实例,这些实例与道路上实际发生的情况不匹配,哪些可用于识别哪些已学习的操作可能导致现实世界中的错误。
新闻来源:麻省理工学院

麻省理工学院(MIT)和微软(Microsoft)研究人员开发的一种新模型,可以识别出自治系统从训练示例中“学习”的实例,这些实例与现实世界中实际发生的情况不匹配。工程师可以利用这个模型来提高人工智能系统的安全性,比如无人驾驶汽车和自主机器人。

无人驾驶汽车的人工智能系统,例如,广泛训练在虚拟模拟,以准备车辆几乎每一个事件在道路上。但有时汽车会在现实世界中犯一个意想不到的错误因为一个事件发生了,但不是,改变汽车的行为。

想想一辆未经训练的无人驾驶汽车,更重要的是没有必要的传感器,为了区分明显不同的情况,如大,白色轿车和红色救护车,路上闪烁的灯光。如果汽车在高速公路上行驶,一辆救护车的警笛响了,汽车可能不知道减速和靠边,因为它不认为救护车和白色的大车有什么不同。

在去年的自治代理和多代理系统会议以及即将召开的人工智能促进协会会议上发表的一对论文中,研究人员描述了一个模型,该模型利用人类的输入来发现这些训练的“盲点”。

和传统方法一样,研究人员对人工智能系统进行了模拟训练。但是,一个人密切监视系统在现实世界中的行为,当系统做出反馈时,或者即将,任何错误。然后研究人员将训练数据和人类反馈数据结合起来,并且使用机器学习技术来生成一个模型,该模型精确指出系统最可能需要更多关于如何正确操作的信息的情况。

研究人员用电子游戏验证了他们的方法,用一个模拟的人来纠正屏幕上角色的学习路径。但下一步是将该模型与传统的自动驾驶汽车和机器人的训练和测试方法结合起来。

第一作者Ramya Ramakrishnan说:“这个模型帮助自治系统更好地了解他们不知道的东西。”计算机科学与人工智能实验室的研究生。“很多时候,当这些系统被部署时,他们经过训练的模拟与现实环境不匹配,他们可能会犯错,比如发生事故。我们的想法是利用人类来弥合模拟和现实世界之间的鸿沟,以一种安全的方式,所以我们可以减少一些错误。

这两篇论文的共同作者是:Julie Shah,航空航天系副教授,CSAIL互动机器人小组组长;和Ece Kamar,Debadeepta戴伊,和埃里克·霍维茨都来自微软研究院。Besmira Nushi是即将发表的论文的另一位合著者。

采取反馈

一些传统的训练方法确实在真实的测试运行中提供了人的反馈,但只更新系统的动作。这些方法不能识别盲点,这对于在现实世界中更安全的执行是有用的。

研究人员的方法首先是将一个人工智能系统通过模拟训练,在这里,它将生成一个“策略”,该策略本质上是将每种情况映射到它在模拟中能够采取的最佳行动。然后,该系统将部署在现实世界中,在系统行为不可接受的区域,人类提供错误信号。

人类可以通过多种方式提供数据,例如通过“示范”和“纠正”。在示范中,现实世界中的人类行为,当系统观察和比较人类的行为和它在那种情况下会做什么。无人驾驶汽车,例如,如果汽车的计划行为与人的行为发生偏差,系统就会发出信号,这时,人就会手动控制汽车。与人类行为的匹配和不匹配提供了嘈杂的指示,表明系统可能在什么地方运行是可接受的或不可接受的。

或者,人类可以提供纠正,当系统在现实世界中运行时,由人类监控系统。当自动驾驶汽车沿着预定路线行驶时,驾驶员可以坐在驾驶座上。如果车的动作正确,人类什么也不做。如果汽车的动作不正确,然而,人类可能会带着轮子,这就发出了一个信号,表明系统在这种特定情况下并不是不可接受的。

一旦从人的反馈数据被编译,这个系统本质上有一系列的情况,对于每一个情况,多个标签表明其行为是可接受或不可接受的。一种情况可以接收许多不同的信号,因为系统认为很多情况是相同的。例如,一辆自动驾驶汽车可能多次与一辆大型汽车并排行驶而没有减速和停车。但是,只有一个例子,救护车,对系统来说是完全一样的,邮轮。自动驾驶汽车不停车,并接收到一个反馈信号,表明系统采取了不可接受的行动。

“在那一点上,系统收到了来自人类的多个相互矛盾的信号:一些信号旁边有一辆大轿车,一切都很好,其中一辆救护车也在同样的位置,但那不好。系统注意到它出了问题,但它不知道为什么,”Ramakrishnan说。“因为代理得到了所有这些矛盾的信号,下一步是收集信息,“在我收到这些混合信号的情况下,我犯错误的可能性有多大?”

智能聚合

最终目标是将这些不明确的情况标记为盲点。但这不仅仅是简单地计算每种情况下可接受和不可接受的行为。如果系统在救护车情况下10次中有9次执行了正确的操作,例如,简单的多数票将把这种情况定为安全的。

“但因为不可接受的行为远比可接受的行为罕见,该系统最终将学会安全预测所有情况,这是非常危险的,”Ramakrishnan说。

为此,研究人员使用了Dawid-Skene算法,一种通常用于众包处理标签噪声的机器学习方法。该算法将一系列情况作为输入,每个都有一组噪音“可接受”和“不可接受”标签。然后它将所有的数据聚合起来,并使用一些概率计算来识别预测盲点标签中的模式和预测安全情况的模式。利用这些信息,它为每个情况输出一个聚合的“安全”或“盲点”标签,并在该标签中输出其置信水平。值得注意的是,算法可以在这样的情况下学习,例如,90%的时间都是可以接受的,目前的形势仍然很不明朗,值得采取“盲点”政策。

最后,该算法生成一种“热图”,其中系统初始训练的每种情况都被分配为系统盲点的低到高概率。

“当系统部署到现实世界中,它可以使用这个学习模型来更加谨慎和明智地行动。如果所学习的模型预测一个状态为盲点的概率很高,系统可以向人查询可接受的操作,允许更安全的执行,”Ramakrishnan说。

故事来源:

材料所提供的麻省理工学院。原作者Rob Matheson。注意:内容可以根据样式和长度进行编辑。


引用这一页

麻省理工学院。“自动驾驶汽车,机器人:识别人工智能的“盲点”。《科学日报》。betway必威安卓betway必威安卓《科学日报》,2019年1月25日。
麻省理工学院。(2019)1月25日)。自动驾驶汽车,机器人:识别人工智能的“盲点”。 betway必威安卓。3月5日检索,2019年从www.sciebetway必威安卓ncedaily.com/releases/2019/01/190125094230.htm
麻省理工学院。“自动驾驶汽车,机器人:识别人工智能的“盲点”。《科学日报》。betway必威安卓www.betway必威安卓sciencedaily.com/releases/2019/01/190125094230.htm(3月5日访问)2019)。

相关故事

来自互联网

下面是你可能感兴趣的相关文章。betway必威安卓《科学日报》在 TrendMD网络从第三方广告商那里获得收入,显示的地方。