汽车导航 汽车导航
Ctrl+D收藏汽车导航
首页 > 汽车资讯 > 正文

MIT开发出新算法 可帮助AI系统规避对抗性输入

作者:

时间:1900/1/1 0:00:00

据国外媒体报道,美国麻省理工学院(MIT)的研究人员开发了一种新的深度学习算法,可以为接收到的测量数据和输入建立一种完善的“怀疑”机制,以帮助机器在真实和不完美的世界中导航。

文章的主要作者、麻省理工学院航空航天系博士后迈克尔·埃弗雷特(Michael Everett)表示:“尽管基于深度神经网络的系统在许多机器人任务中非常先进,但在安全关键领域仍然非常危险,因为深度神经网络系统的网络鲁棒性没有得到正式保证。一旦传感器输入受到小的干扰(比如噪音或者对抗性的例子),通常会改变基于网络的决策,比如自动驾驶汽车会变道。

鉴于上述危险,研究人员开发了许多算法,基于这些对抗性输入建立防御机制。部分对抗性输入也可以提供形式上的鲁棒性保证或证明。这项工作利用已证明的对策鲁棒性,然后开发一个可靠的在线鲁棒性算法的深度强化学习算法。

Discovery, Ford

(来源:麻省理工学院)

由于潜在的对抗和噪声,最坏的偏差可能出现在输入空间,因此所提出的防御措施将需要在鲁棒操作执行期的识别和选择期间计算状态操作值的保证下限。而且,即使验证者可能因为干扰而不知道真实状态和最佳操作,最终的策略仍然可以有解的质量保证。"

研究团队将强化学习算法与深度神经网络相结合,构建了一种新方法:CARRL,即深度强化学习的认证对抗鲁棒性。研究人员已经在不同的场景中测试了这种方法,例如碰撞模拟测试和视频游戏Pong。发现CARRL即使在不确定和对抗性输入的情况下,也比标准的机器学习技术表现更好,不仅成功避免了碰撞,而且在Pong游戏中多次获胜。

埃弗雷特还说:“当出现对抗性时,用户总是认为有人入侵了他们的电脑,但这可能是传感器性能不佳或测量工具错误,这种情况很常见。我们的新算法可以解决这个问题,并做出安全决策。任何需要极高安全性的地方都应该考虑这种算法。”

可能的现实:为了让AI系统抵抗对抗性输入,研究人员对监督学习使用了防御措施。通常,神经网络被训练成将标签或动作与给定的输入相关联。例如,一个接收了大量标记为猫、房子和热狗的图像的神经网络可以正确地将新图像标记为猫。

在一个强大的AI系统中,同样的监督学习技术可以用稍微修改的图像版本进行测试。如果网络把每一张图片都贴上“猫”的标签,不管有没有改动,很有可能图片确实是猫,那么网络对任何对抗性影响都有很强的鲁棒性。然而,不可能浏览所有的图像,并且很难处理高时间任务,例如避免碰撞。此外,如果网络不稳定,一些修改的猫图片会被标记为房屋或热狗,现有的方法无法识别图像标签或确定采取什么措施。

研究人员bjrn lütjens说:“为了在安全性要求高的场景中使用神经网络,我们必须知道如何在最坏的情况下做出实时决策。”

该团队希望基于强化学习。强化学习是机器学习的另一种形式,它不需要将标记的输入与输出相关联,而是旨在加强对某些输入的响应。这种方法通常用于训练计算机竞技游戏,如国际象棋和围棋。采用强化学习的前提是输入正确。Everett和他的同事们表示,这项研究首次为强化学习中的不确定性和对抗性输入带来了“可验证的鲁棒性”。

他们的方法CARRL使用现有的深度强化学习算法来训练深度Q网络或DKN(一种多层神经网络,最终将输入与Q值或奖励水平相关联)。该方法接受输入(例如,具有单个点的图像)并考虑对抗性影响或实际上可能在该点周围的区域。基础……在麻省理工学院研究生崔伟“Lily”Weng博士开发的技术上,这个点被DQN连接在区域内每一个可能的位置上,并发现相关的动作,从而导致最好和最坏的情况发生。

对抗的世界:在电子游戏Pong的测试中,两个玩家拿着球拍在屏幕两侧来回传递乒乓球。研究人员在游戏中加入了一个“对手”,并将球拉得比实际球高得多。他们发现,随着对手影响力的增加,CARRL比标准技术的胜率更高。

埃弗雷特说:“如果预设的测量值不完全可信,乒乓球可能在固定区域的任何地方,那么就用这种方法通知计算机把球拍放在区域的中间,这样就能保证乒乓球以最差的偏差被击中。”

该方法在碰撞测试中也是鲁棒的。在碰撞测试中,团队模拟了一个蓝色和橙色的代理,试图在没有碰撞的情况下交换位置。当团队扰乱橙色特工对蓝色特工位置的观察时,CARRL引导橙色特工绕过另一名特工。随着对手越来越强,泊位越来越宽,蓝色特工的位置变得更加不确定。

CARRL的保守变化使得orange代理假设另一个代理可能在它附近的任何地方,并且作为响应,它可能错过目的地。埃弗里特表示,这种极其保守的方法非常有用,研究人员可以将其作为限制来调整算法的鲁棒性。例如,算法可能会考虑小偏差或不确定性区域,这仍然会让代理获得更高的奖励并到达目的地。Everett还表示,除了克服传感器缺陷,CARRL可能是帮助机器人安全处理现实世界中不可预测的交互的开始。

埃弗里特说:“人类是对抗性的,比如站在机器人面前阻挡传感器或者与它们互动,但不一定是出于最好的意图。机器人如何思考人类可能尝试做的一切?如何避开它们?应该防御什么样的对抗模式?这是我们正在考虑的方法。”作为麻省理工学院的盟友,福特也为这项研究提供了一些支持。据国外媒体报道,麻省理工学院(MIT)的研究人员开发了一种新的深度学习算法,可以为接收到的测量数据和输入建立一种完善的“怀疑”机制,以帮助机器在真实和不完美的世界中导航。

文章的主要作者、麻省理工学院航空航天系博士后迈克尔·埃弗雷特(Michael Everett)表示:“尽管基于深度神经网络的系统在许多机器人任务中非常先进,但在安全关键领域仍然非常危险,因为深度神经网络系统的网络鲁棒性没有得到正式保证。一旦传感器输入受到小的干扰(比如噪音或者对抗性的例子),通常会改变基于网络的决策,比如自动驾驶汽车会变道。

鉴于上述危险,研究人员开发了许多算法,基于这些对抗性输入建立防御机制。部分对抗性输入也可以提供形式上的鲁棒性保证或证明。这项工作利用已证明的对策鲁棒性,然后开发一个可靠的在线鲁棒性算法的深度强化学习算法。

Discovery, Ford

(来源:麻省理工学院)

由于潜在的对抗和噪声,最坏的偏差可能出现在输入空间,因此所提出的防御措施将需要在鲁棒操作执行期的识别和选择期间计算状态操作值的保证下限。而且,即使验证者可能因为干扰而不知道真实状态和最佳操作,最终的策略仍然可以有解的质量保证。"

研究团队将强化学习算法与深度神经网络相结合,构建了一种新方法:CARRL,即深度强化学习的认证对抗鲁棒性。研究人员已经在不同的场景中测试了这种方法,例如碰撞模拟测试和视频游戏Pong。发现CARRL即使在不确定和对抗性输入的情况下,也比标准的机器学习技术表现更好,不仅成功避免了碰撞,而且在Pong游戏中多次获胜。

埃弗雷特还说:“当出现对立情绪时,用户总是认为有人入侵了他们的电脑,……但也可能是传感器性能差或者测量工具不对,这种情况很常见。我们的新算法可以解决这个问题,并做出安全决策。任何需要极高安全性的地方都应该考虑这种算法。"

可能的现实:为了让AI系统抵抗对抗性输入,研究人员对监督学习使用了防御措施。通常,神经网络被训练成将标签或动作与给定的输入相关联。例如,一个接收了大量标记为猫、房子和热狗的图像的神经网络可以正确地将新图像标记为猫。

在一个强大的AI系统中,同样的监督学习技术可以用稍微修改的图像版本进行测试。如果网络把每一张图片都贴上“猫”的标签,不管有没有改动,很有可能图片确实是猫,那么网络对任何对抗性影响都有很强的鲁棒性。然而,不可能浏览所有的图像,并且很难处理高时间任务,例如避免碰撞。此外,如果网络不稳定,一些修改的猫图片会被标记为房屋或热狗,现有的方法无法识别图像标签或确定采取什么措施。

研究人员bjrn lütjens说:“为了在安全性要求高的场景中使用神经网络,我们必须知道如何在最坏的情况下做出实时决策。”

该团队希望基于强化学习。强化学习是机器学习的另一种形式,它不需要将标记的输入与输出相关联,而是旨在加强对某些输入的响应。这种方法通常用于训练计算机竞技游戏,如国际象棋和围棋。采用强化学习的前提是输入正确。Everett和他的同事们表示,这项研究首次为强化学习中的不确定性和对抗性输入带来了“可验证的鲁棒性”。

他们的方法CARRL使用现有的深度强化学习算法来训练深度Q网络或DKN(一种多层神经网络,最终将输入与Q值或奖励水平相关联)。该方法接受输入(例如,具有单个点的图像)并考虑对抗性影响或实际上可能在该点周围的区域。基于麻省理工学院研究生崔伟“Lily”Weng博士开发的技术,通过DQN在该区域的每个可能的位置连接该点,并找到相关的动作,从而导致最好和最坏的情况发生。

对抗的世界:在电子游戏Pong的测试中,两个玩家拿着球拍在屏幕两侧来回传递乒乓球。研究人员在游戏中加入了一个“对手”,并将球拉得比实际球高得多。他们发现,随着对手影响力的增加,CARRL比标准技术的胜率更高。

埃弗雷特说:“如果预设的测量值不完全可信,乒乓球可能在固定区域的任何地方,那么就用这种方法通知计算机把球拍放在区域的中间,这样就能保证乒乓球以最差的偏差被击中。”

该方法在碰撞测试中也是鲁棒的。在碰撞测试中,团队模拟了一个蓝色和橙色的代理,试图在没有碰撞的情况下交换位置。当团队扰乱橙色特工对蓝色特工位置的观察时,CARRL引导橙色特工绕过另一名特工。随着对手越来越强,泊位越来越宽,蓝色特工的位置变得更加不确定。

CARRL的保守变化使得orange代理假设另一个代理可能在它附近的任何地方,并且作为响应,它可能错过目的地。埃弗里特表示,这种极其保守的方法非常有用,研究人员可以将其作为限制来调整算法的鲁棒性。例如,算法可能会考虑小偏差或不确定性区域,这仍然会让代理获得更高的奖励并到达目的地。Everett还表示,除了克服传感器缺陷,CARRL可能是帮助机器人安全处理现实世界中不可预测的交互的开始。

埃弗里特说:“人类是对抗性的,比如站在机器人面前阻挡传感器或者与它们互动,但不一定是出于最好的意图。机器人如何思考人类可能尝试做的一切?如何避开它们?应该防御什么样的对抗模式?这是我们正在考虑的方法。”作为麻省理工学院的盟友,福特也为这项研究提供了一些支持。

标签:发现福特

汽车资讯热门资讯
日产:将扩建桑德兰工厂可再生能源设施

近日,日产正式宣布,将针对其在英国的桑德兰工厂进行与可再生能源有关的扩建,其中主要包括一个拥有37000个太阳能电池板的发电站。

1900/1/1 0:00:00
电动化加速 宝马集团2021年财报发布会

3月17日下午,宝马集团召开2021年财报线上发布会,不仅正式首发了宝马i4、回顾了2020年财务表现,还勾勒未来发展方向和重点,无疑,电动化依然是重中之重。

1900/1/1 0:00:00
征途订单接近9000台,五菱能否再造一款现象级产品?

上汽通用五菱旗下首款皮卡车型五菱征途将于明日(3月18日)上市。五菱官方将其定位于“青春型皮卡”,意在瞄准创业中的年轻用户,主打实用性和性价比。

1900/1/1 0:00:00
造车步伐加快!富士康将建电动汽车工厂

富士康进军电动汽车领域的步伐正在加快。3月16日,富士康董事长刘扬伟在台北的一场吹风会上表示,明年可能将电动汽车投资增加30,将选择在墨西哥或威斯康星州进行电动汽车生产。

1900/1/1 0:00:00
智己汽车透露CSOP用户权益平台核心链路

3月17日,全球首创用户权益平台CSOP(CustomerShareOptionPlan)的智己汽车,首次向外界透露了其核心运营链路。

1900/1/1 0:00:00
MG Motors与印度IIT-Delhi达成合作 共同研究电动和自动驾驶汽车

盖世汽车讯据外媒报道,MGMotorIndia与印度理工学院德里分校(IITDelhi)的汽车研究与摩擦学中心(CART)达成合作,将共同研究电动和自动驾驶汽车。

1900/1/1 0:00:00