通往更好计算机视觉的更简单途径

发布时间：2022-11-25 17:29:26编辑：愉快的缘分来源：

在机器学习模型完成一项任务之前，例如识别医学图像中的癌症，必须对模型进行训练。训练图像分类模型通常涉及向模型展示收集到海量数据集中的数百万个示例图像。

通往更好计算机视觉的更简单途径

然而，使用真实图像数据可能会引起实际和道德方面的担忧：这些图像可能会违反版权法、侵犯人们的隐私或对特定种族或族裔群体产生偏见。为了避免这些陷阱，研究人员可以使用图像生成程序来创建用于模型训练的合成数据。但是这些技术是有限的，因为通常需要专业知识来手动设计可以创建有效训练数据的图像生成程序。

麻省理工学院、麻省理工学院-IBM沃森人工智能实验室和其他地方的研究人员采用了不同的方法。他们没有为特定的训练任务设计定制的图像生成程序，而是从互联网上收集了21,000个公开程序的数据集。然后他们使用大量基本图像生成程序来训练计算机视觉模型。

这些程序生成显示简单颜色和纹理的不同图像。研究人员没有策划或更改程序，每个程序仅包含几行代码。

他们使用这个大型程序数据集训练的模型比其他综合训练模型更准确地对图像进行分类。而且，虽然他们的模型表现不及那些用真实数据训练的模型，但研究人员表明，增加数据集中图像程序的数量也会提高模型性能，揭示了获得更高准确性的途径。

“事实证明，使用大量未经策划的程序实际上比使用一小部分需要人们操作的程序要好。数据很重要，但我们已经证明，没有真实数据你也可以走得很远，”ManelBaradad说，电气工程和计算机科学(EECS)研究生，在计算机科学和人工智能实验室(CSAIL)工作，并且是描述该技术的论文的主要作者。

共同作者包括CSAIL的EECS研究生TongzhouWang;麻省理工学院-IBM沃森人工智能实验室首席科学家兼经理RogerioFeris;AntonioTorralba，台达电子电气工程与计算机科学教授，CSAIL成员;资深作者PhillipIsola，EECS和CSAIL副教授;与摩根大通银行和Xyla,Inc.的其他人一起。这项研究将在神经信息处理系统会议上发表。

机器学习模型通常是经过预训练的，这意味着它们首先在一个数据集上进行训练，以帮助它们构建可用于处理不同任务的参数。用于分类X射线的模型可能会使用大量合成生成的图像数据集进行预训练，然后再使用更小的真实X射线数据集对其实际任务进行训练。

这些研究人员之前表明，他们可以使用一些图像生成程序来创建用于模型预训练的合成数据，但需要仔细设计这些程序，以便合成图像与真实图像的某些属性相匹配。这使得该技术难以扩大规模。

在这项新工作中，他们使用了一个庞大的未经整理的图像生成程序数据集。

他们首先从互联网上收集了21,000个图像生成程序。所有的程序都是用一种简单的编程语言编写的，只包含几段代码，因此它们可以快速生成图像。

“这些程序是由世界各地的开发人员设计的，目的是生成具有我们感兴趣的某些属性的图像。它们生成的图像看起来有点像抽象艺术，”Baradad解释道。

这些简单的程序可以运行得如此之快，以至于研究人员不需要提前生成图像来训练模型。研究人员发现他们可以同时生成图像和训练模型，从而简化了过程。

他们使用庞大的图像生成程序数据集为监督和非监督图像分类任务预训练计算机视觉模型。在监督学习中，图像数据被标记，而在无监督学习中，模型学习对没有标签的图像进行分类。

提高准确性

当他们将他们的预训练模型与使用合成数据进行预训练的最先进的计算机视觉模型进行比较时，他们的模型更加准确，这意味着他们更频繁地将图像归入正确的类别。虽然准确度水平仍低于在真实数据上训练的模型，但他们的技术将在真实数据上训练的模型与在合成数据上训练的模型之间的性能差距缩小了38%。

“重要的是，我们表明，对于您收集的程序数量，性能呈对数增长。我们不会使性能饱和，因此如果我们收集更多程序，该模型的性能会更好。因此，有一种方法可以扩展我们的方法，”马内尔说。

研究人员还使用每个单独的图像生成程序进行预训练，以努力发现影响模型准确性的因素。他们发现，当程序生成更多样化的图像集时，模型的性能会更好。他们还发现，场景充满整个画布的彩色图像往往最能提高模型性能。

现在他们已经证明了这种预训练方法的成功，研究人员希望将他们的技术扩展到其他类型的数据，例如包含文本和图像的多模态数据。他们还想继续探索提高图像分类性能的方法。