广告
科学新闻
来自研究机构

自动驾驶汽车,机器人:识别人工智能“盲点”

戴特:
1月25日,二千零一十九
来源:
麻省理工学院
总结:
一个新的模型确定了一些实例,在这些实例中,自治系统已经从与现实世界中实际发生的情况不匹配的培训实例中“学习”了知识。工程师可以利用这个模型来提高人工智能系统的安全性,例如无人驾驶汽车和自动机器人。
分享:
全文

麻省理工学院和微软研究人员的一个模型确定了自动驾驶汽车从训练中“学习”的例子,这些例子与道路上实际发生的情况不符。它可以用来识别哪些学习到的行为可能导致现实世界的错误。
学分:麻省理工学院新闻

麻省理工学院和微软的研究人员开发了一个新的模型,该模型确定了一些实例,在这些实例中,自主系统已经从与现实世界中实际发生的情况不匹配的培训实例中“学习”到。工程师可以利用这个模型来提高人工智能系统的安全性,例如无人驾驶汽车和自动机器人。

为无人驾驶汽车提供动力的人工智能系统,例如,在虚拟仿真中接受了广泛的训练,为车辆在道路上的几乎每一个事件做好准备。但有时汽车在现实世界中会发生意外的错误,因为发生的事件应该是,但没有,改变汽车的行为。

假设一辆无人驾驶汽车没有经过培训,更重要的是没有必要的传感器,为了区分明显不同的场景,比如大的,白色轿车和红色救护车,路上闪灯。如果汽车在高速公路上行驶,救护车突然鸣笛,汽车可能不知道减速和靠边停车,因为它不认为救护车和一辆白色的大轿车不同。

在去年的自治代理和多代理系统会议以及即将召开的人工智能促进协会会议上发表的一对论文中,研究人员描述了一个模型,该模型利用人类的输入来发现这些训练的“盲点”。

和传统方法一样,研究人员将人工智能系统进行了模拟训练。但是,当系统在现实世界中运行时,人类会密切监视系统的运行,在系统建立时提供反馈,或者是要做的,任何错误。然后研究人员将训练数据与人类反馈数据相结合,并且使用机器学习技术来生成一个模型,该模型精确指出系统最可能需要更多关于如何正确操作的信息的情况。

研究人员用电子游戏验证了他们的方法,用模拟人修正屏幕上角色的学习路径。但是,下一步是将该模型与传统的训练和测试方法结合起来,用于自动驾驶汽车和具有人类反馈的机器人。

第一作者Ramya Ramakrishnan说:“该模型帮助自治系统更好地了解他们不知道的东西。”计算机科学和人工智能实验室的研究生。“很多次,部署这些系统时,他们经过训练的模拟与现实环境不符,他们可能会犯错误,比如发生事故。我们的想法是利用人类来弥合模拟和现实世界之间的鸿沟,以安全的方式,所以我们可以减少一些错误。”

这两篇论文的共同作者是:朱莉·沙赫,航空航天系副教授、CSAIL交互式机器人小组组长;Ece KamarDebadeepta Dey埃里克·霍维茨,全部来自Microsoft Research。BesmiraNushi是即将发表论文的另一位合著者。

接受反馈

一些传统的训练方法确实在真实的测试运行中提供了人的反馈,但只是为了更新系统的操作。这些方法不能识别盲点,这对于现实世界中更安全的执行是有用的。

研究人员的方法首先将人工智能系统通过模拟训练,在那里,它将产生一个“政策”,基本上将每种情况映射到它在模拟中可以采取的最佳行动。然后,系统将部署在现实世界中,在系统行为不可接受的区域,人类提供错误信号。

人类可以通过多种方式提供数据,例如通过“示范”和“纠正”。在示范中,人类在现实世界中的行为,当系统观察并比较人类的行为和它在那种情况下的行为时。对于无人驾驶汽车,例如,当系统产生信号时,如果计划的行为偏离了人类的行为,人类将手动控制汽车。与人类行为的匹配和不匹配提供了系统可能被接受或不被接受的地方的嘈杂指示。

或者,人类可以提供修正,随着人类在现实世界中对系统的监控。当自动驾驶汽车沿着计划的路线行驶时,人类可以坐在驾驶座上。如果车的动作正确,人类什么也不做。如果车子的动作不正确,然而,人类可能会带着轮子,它发出一个信号,表明系统在这种特定情况下没有不可接受的行为。

一旦人类的反馈数据被编译,系统基本上有一系列情况,对于每种情况,多个标签表明其行为是可接受或不可接受的。一种情况可以接收许多不同的信号,因为系统认为许多情况是相同的。例如,一辆自动驾驶的汽车可能已经在一辆大型汽车旁边巡航了很多次,但没有减速和停下来。但是,只有一个例子,救护车,对系统来说完全一样,巡航自动驾驶汽车不停车,并收到反馈信号,系统采取了不可接受的行动。

“当时,系统收到了来自人类的多个相互矛盾的信号:一些信号旁边有一辆大轿车,一切都很好,在同一个地方有一辆救护车,但那不好。系统注意到它出了问题,但它不知道为什么,”拉玛克里希南说。“因为特工收到了所有这些矛盾的信号,下一步是编译要询问的信息,“在我收到这些混合信号的情况下,我犯错误的可能性有多大?”

智能聚合

最终目标是将这些不明确的情况标记为盲点。但这不仅仅是简单地计算每种情况下可接受和不可接受的行为。如果系统在救护车情况下10次中执行了9次正确的操作,例如,简单的多数票将把这种情况定为安全的。

“但因为不可接受的行为远比可接受的行为罕见,系统最终将学会预测所有情况的安全性,这可能是非常危险的,”拉玛克里希南说。

为此目的,研究人员使用了dawid skene算法,一种通常用于众包处理标签噪声的机器学习方法。该算法将一系列情况作为输入,每个都有一组噪音“可接受”和“不可接受”标签。然后对所有数据进行汇总,并利用概率计算确定预测盲点标签中的模式,以及预测安全情况下的模式。利用这些信息,它为每个情况输出一个聚合的“安全”或“盲点”标签,并在该标签中输出其置信水平。尤其是,算法可以在可能的情况下学习,例如,90%的时间都可以接受,这种情况仍然模糊不清,足以构成“盲点”。

最后,该算法生成一种“热图”,系统原始训练中的每种情况都被分配为低到高的概率,成为系统的盲点。

“当系统部署到现实世界中时,它可以使用这个学习模型来更加谨慎和明智地行动。如果学习的模型预测一个状态是一个高概率的盲点,系统可以查询人的可接受行为,考虑到更安全的执行,”Ramakrishnan说。

故事来源:

材料提供的麻省理工学院.原稿由罗伯·马西森撰写。注意:内容可以根据样式和长度进行编辑。


引用此页以下内容:

麻省理工学院。“自动驾驶汽车,机器人:识别人工智能的“盲点”。《科学日报》。betway必威安卓betway必威安卓科学日报,2019年1月25日。 .
麻省理工学院。(2019年,1月25日)。自动驾驶汽车,机器人:识别人工智能“盲点”。 betway必威安卓.1月28日检索,2019来自www.sciebetway必威安卓ncedaily.com/releases/2019/01/190125094230.htm
麻省理工学院。“自动驾驶汽车,机器人:识别人工智能的“盲点”。《科学日报》。betway必威安卓www.betway必威安卓sciencedaily.com/releases/2019/01/190125094230.htm(1月28日访问)2019年)。

相关故事

从网络周围

以下是您可能感兴趣的相关文章。betway必威安卓《科学日报》与 趋势网络从第三方广告商那里获得收入,如有指示。