众所周知,计算机视觉系统有时会推断出与常识相悖的场景。例如,如果机器人正在处理餐桌的场景,它可能会完全忽略任何人类观察者都能看到的碗,认为盘子漂浮在桌子上方,或者错误地认为叉子正在穿透碗而不是靠着它。
有鉴于此,如果将计算机视觉系统转移到自动驾驶汽车上,风险会高得多——例如,该系统无法检测到紧急车辆和过马路的行人。
为了克服这些错误,麻省理工学院(MIT)的研究人员开发了一个框架,可以帮助机器像人类一样看待世界。他们新的分析场景的人工智能系统只从少数图像中学习感知现实世界的物体,并根据这些学习到的物体感知场景。
研究人员使用概率编程建立了这个框架,这是一种人工智能方法,允许系统将检测到的物体与输入数据进行交叉检查,以查看摄像头记录的图像是否可能与任何候选场景匹配。概率推理允许系统推断不匹配是否可能是由噪声或场景解释中的错误引起的,并且需要通过进一步的处理来校正。
这种常识性的保护措施使系统能够检测和纠正许多困扰“深度学习”方法的错误,这些方法也已用于计算机视觉。概率编程还可以推断场景中物体之间可能的接触关系,利用关于这些接触的常识推理来推断物体更准确的位置。
“如果你不知道接触关系,那么你可以说一个物体浮在桌子上方——这将是一个有效的解释。作为人类,我们显然知道这在物理上是不现实的,放在桌面上的物体更有可能是物体的姿态。因为我们的推理系统知道这些知识,所以可以推断出更准确的姿态。这是这项工作的一个关键见解,”这篇研究论文的第一作者Nishad Gothoskar说,他是概率计算项目电气工程和计算机科学(EECS)的博士生。
研究人员将上述系统命名为“通过概率规划的3D场景感知(3DP3)”系统。为了分析场景的图像,3DP3首先要了解场景中的物体。在只显示了物体的五个图像后,每个图像都是从不同的角度拍摄的,3DP3将学习物体的形状,并估计它在空间中所占的体积。
哥德斯卡说:“如果我从五个不同的角度给你看一个物体,你就能很好地表现它。你会知道它的颜色和形状,你可以在许多不同的场景中认出这个物体。”
“这比深度学习方法的数据少得多。例如,密集融合神经对象检测系统需要为每种对象类型提供数千个训练样本。相比之下,3DP3只需要每个对象的几张图像,并报告每个对象形状部分的不确定性。”他补充道。
3DP3系统将生成一个图形来表示场景,其中每个对象都是一个节点,连接节点的线表示哪些对象相互接触。这使得3DP3能够更准确地估计对象的排列。(深度学习方法依靠深度图像来估计物体的姿态,但是这些方法并不产生接触关系的图结构,所以它们的估计并不准确。)
研究人员指出,除了提高自动驾驶汽车的安全性,这项工作还可以提高计算机感知系统的性能,这些系统必须解释物体的复杂排列,例如负责清理凌乱厨房的机器人。
未来,研究人员希望进一步推广该系统,使其能够从单个图像或电影中的单个帧中理解对象,然后在不同场景中鲁棒地检测对象。他们还想探索使用3DP3来收集神经网络的训练数据。人类通常很难用3D几何图形手动标记图像,因此可以使用3DP3来生成更复杂的图像标签。众所周知,计算机视觉系统有时会推断出与常识相悖的场景。例如,如果机器人正在处理餐桌的场景,它可能会完全忽略任何人类观察者都能看到的碗,认为盘子漂浮在桌子上方,或者错误地认为叉子正在穿透碗而不是靠着它。
鉴于……如果将计算机视觉系统转移到自动驾驶汽车上,风险将会高得多——例如,该系统无法检测到紧急车辆和行人过马路。
为了克服这些错误,麻省理工学院(MIT)的研究人员开发了一个框架,可以帮助机器像人类一样看待世界。他们新的分析场景的人工智能系统只从少数图像中学习感知现实世界的物体,并根据这些学习到的物体感知场景。
研究人员使用概率编程建立了这个框架,这是一种人工智能方法,允许系统将检测到的物体与输入数据进行交叉检查,以查看摄像头记录的图像是否可能与任何候选场景匹配。概率推理允许系统推断不匹配是否可能是由噪声或场景解释中的错误引起的,并且需要通过进一步的处理来校正。
这种常识性的保护措施使系统能够检测和纠正许多困扰“深度学习”方法的错误,这些方法也已用于计算机视觉。概率编程还可以推断场景中物体之间可能的接触关系,利用关于这些接触的常识推理来推断物体更准确的位置。
“如果你不知道接触关系,那么你可以说一个物体浮在桌子上方——这将是一个有效的解释。作为人类,我们显然知道这在物理上是不现实的,放在桌面上的物体更有可能是物体的姿态。因为我们的推理系统知道这些知识,所以可以推断出更准确的姿态。这是这项工作的一个关键见解,”这篇研究论文的第一作者Nishad Gothoskar说,他是概率计算项目电气工程和计算机科学(EECS)的博士生。
研究人员将上述系统命名为“通过概率规划的3D场景感知(3DP3)”系统。为了分析场景的图像,3DP3首先要了解场景中的物体。在只显示了物体的五个图像后,每个图像都是从不同的角度拍摄的,3DP3将学习物体的形状,并估计它在空间中所占的体积。
哥德斯卡说:“如果我从五个不同的角度给你看一个物体,你就能很好地表现它。你会知道它的颜色和形状,你可以在许多不同的场景中认出这个物体。”
“这比深度学习方法的数据少得多。例如,密集融合神经对象检测系统需要为每种对象类型提供数千个训练样本。相比之下,3DP3只需要每个对象的几张图像,并报告每个对象形状部分的不确定性。”他补充道。
3DP3系统将生成一个图形来表示场景,其中每个对象都是一个节点,连接节点的线表示哪些对象相互接触。这使得3DP3能够更准确地估计对象的排列。(深度学习方法依靠深度图像来估计物体的姿态,但是这些方法并不产生接触关系的图结构,所以它们的估计并不准确。)
研究人员指出,除了提高自动驾驶汽车的安全性,这项工作还可以提高计算机感知系统的性能,这些系统必须解释物体的复杂排列,例如负责清理凌乱厨房的机器人。
未来,研究人员希望进一步推广该系统,使其能够从单个图像或电影中的单个帧中理解对象,然后在不同场景中鲁棒地检测对象。他们还想探索使用3DP3来收集神经网络的训练数据。人类通常很难用3D几何图形手动标记图像,因此可以使用3DP3来生成更复杂的图像标签。
标签:
近日,为进一步加强锂离子电池行业管理,推动行业转型升级和技术进步,工信部发布《锂离子电池行业规范条件2021年本》和《锂离子电池行业规范公告管理办法(2021年本)》。
1900/1/1 0:00:001、小米造车又一分支智米科技筹备造车据知情人士透露,小米控股的生态链公司智米科技,加入造车大军,值得关注的是,智米的造车业务将与小米汽车保持独立。
1900/1/1 0:00:00盖世汽车讯据外媒报道,意大利汽车品牌蓝旗亚Lancia的老板LucaNapolitano表示,该品牌将追求盈利能力而不是销量,
1900/1/1 0:00:00当前,国内汽车产业正处于转型升级的重要阶段。
1900/1/1 0:00:00盖世汽车讯12月13日,日本村田制作所(Murata)与欧洲汽车轮胎制造商米其林(Michelin)联合开发出内置于汽车轮胎的无线射频识别(RFID)模块。
1900/1/1 0:00:00据企查查信息显示,浙江吉利新能源商用车集团有限公司近期完成了高级管理人员备案变更,其中,李书福退出该公司董事长一职,杨健、安聪慧分别退出董事职务,新增范现军、王兴贵为董事,
1900/1/1 0:00:00