MIT科学家创建出STEGO算法可无需人工监督为像素分配标签

作者：

时间：1900/1/1 0:00:00

据国外媒体报道，来自麻省理工学院(MIT)、微软和康奈尔大学的计算机科学和人工智能实验室(CSAIL)的科学家创造了“STEGO”算法，该算法可以在没有任何人类标签的情况下，联合发现和分割物体甚至像素。

discovery

图片来源:麻省理工学院CSAIL

STEGO了解了“语义分割”——想象一下给图像中的每个像素分配标签的过程。语义分割在当今的计算机视觉系统中是一项重要的技能，因为图像可能会被对象打乱。更具挑战性的是，这些对象并不总是适合文本框。与植被、天空、土豆泥相比，算法往往更适合离散的“事物”，比如人、车。之前的系统可能只是把公园里玩耍的狗当成一只狗，但是通过给图像的每个像素分配一个标签，STEGO就可以把图像分解成它的主要组成部分:狗、天空、草地和它的主人。

为了减少时间消耗，在没有人类帮助的情况下找到对象，STEGO会寻找出现在整个数据集中的相似对象。然后，它会将这些相似的物体关联在一起，在它学习的所有图像中建立一致的世界观。

看看这个世界

能“看得见”的机器对于自动驾驶汽车、医疗诊断预测模型等各种新兴技术非常重要。因为STEGO可以无标签学习，可以检测不同领域的物体，甚至是人类还没有完全理解的物体。

麻省理工学院电子工程和计算机科学博士生、麻省理工学院CSAIL的研究附属机构、微软的软件工程师、STEGO相关论文的主要作者马克·汉密尔顿(Mark Hamilton)表示:“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像，如果没有专业知识，很难知道要寻找什么。在新兴领域，有时候连人类专家都不知道什么是合适的对象。在这些情况下，我们希望设计一种在科学边界上运行的方法，而不是期望人类先于机器弄清情况。”

视频来源:麻省理工学院CSAIL

隐写已经在一系列视觉领域进行了测试，包括一般图像、行车图像和航拍照片。在每一个领域，隐写都可以识别和分割与人类判断密切相关的对象。STEGO最多样化的基准是COCO-Stuff数据集，它由来自世界各地的不同图像组成，从室内场景到移动的人到树和牛。大多数情况下，最先进的系统也能捕捉到场景的低分辨率点，但精细的细节却不尽如人意:人是一个群体，摩托车被识别为人，甚至连所有的鹅都无法区分。在同样的场景下，STEGO的性能比之前的系统提高了一倍，可以找到动物、建筑、人、家具等多种概念。

STEGO不仅在COCO-Stuff基准测试中将之前系统的性能提升了一倍，在其他视觉领域也有类似的飞跃。当应用于无人驾驶汽车数据集时，STEGO比以前的系统具有更高的分辨率和粒度，可以成功分割道路、人和路标。在来自太空的图像上，该系统将地球表面的每平方英尺分解成道路、植被和建筑物。

连通像素

STEGO，代表“基于能量图优化的自监督变压器”，基于DINO算法，通过ImageNet数据库中的1400万幅图像来理解世界。STEGO通过一个学习过程来完善DINO的脊椎，这个过程模仿了我们自己将世界所有部分拼接在一起产生意义的方式。

例如，人们可能会想象两只狗在公园里散步。虽然是不同的狗，有不同的主人，但是在不同的公园里，STEGO依然可以分辨出每个场景中的物体是如何相互关联的(不依赖人类)。该研究所甚至探索了STEGO的大脑，想知道图像中的每个棕色毛茸茸的小东西是如何相似的，以及它与草等其他共享对象是如何相似的。通过跨图像连接对象，STEGO构建了一致的单词视图。

汉密尔顿说:“这些类型的算法可以在很大程度上以自动化的方式找到一致的分组，所以我们人类不必自己去做这些。理解复杂的视觉数据集(如生物图像)可能需要数年时间，但如果我们能够避免花费1000个小时对数据进行梳理和标记，我们就可以找到并发现我们可能会错过的新信息。我们希望这将有助于我们以更具经验性的方式理解视觉单词。”

< img alt = " discovery " src = "/ee img/{ H……tI }/img/20230303191200747140/2 . jpg "/>

图片来源:麻省理工学院CSAIL

展望未来

尽管有所改善，STEGO仍然面临着一定的挑战。首先，标签可以是任意的。例如，COCO-Stuff数据集的标签将香蕉和鸡翅这样的“食物”与玉米片和意大利面这样的“食物”区分开来，STEGO看不出太大的区别。在其他情况下，STEGO还会被奇怪的图像所迷惑，例如一个香蕉坐在电话听筒上，它的标签是“食物”，而不是“原料”。

未来，研究人员计划探索为STEGO提供更多的灵活性，而不仅仅是将像素标记为固定数量的类别，因为现实世界中的事物有时可能同时是多个事物(如“食物”、“植物”和“水果”)。研究人员希望这将为算法提供不确定性、权衡和更抽象的思维空间。

汉密尔顿说:“在制作理解潜在复杂数据集的通用工具时，我们希望这种类型的算法能够自动化从图像中寻找物体的科学过程。在不同的领域，人工标记的成本太高，或者人们根本不知道具体的结构，比如一些生物和天体物理领域。我们希望将来它可以应用于更广泛的数据集。由于我们不需要任何手动标签，我们现在可以开始更广泛地应用ML工具。”

discovery 2据国外媒体报道，来自麻省理工学院(MIT)、微软和康奈尔大学的计算机科学和人工智能实验室(CSAIL)的科学家们创造了“STEGO”算法，该算法可以在没有任何人类标签的情况下，联合发现和分割物体甚至像素。

discovery

图片来源:麻省理工学院CSAIL

看看这个世界

麻省理工学院电子工程和计算机科学博士生、麻省理工学院CSAIL的研究子公司、微软的软件工程师、STEGO相关论文的主要作者马克·汉密尔顿(Mark Hamilton)表示:“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像，如果没有专业知识，很难知道要寻找什么。在新兴领域，有时候连人类专家都不知道什么是合适的对象。在这些情况下，我们希望设计一种在科学边界上运行的方法，而不是期望人类先于机器弄清情况。”

视频来源:麻省理工学院CSAIL

STEGO不仅在COCO-Stuff基准测试中将之前系统的性能提升了一倍，在其他视觉领域也有类似的飞跃。当应用于无人驾驶汽车数据集时，STEGO比以前的系统具有更高的分辨率和粒度，可以成功地分割道路、人和r……d标志。在来自太空的图像上，该系统将地球表面的每平方英尺分解成道路、植被和建筑物。

连通像素

discovery