ACL2016-视觉方向研讨会-Combining Lexical and Spatial Knowledge to Predict Spatial Relations between Obje...

title：Combining Lexical and Spatial Knowledge to Predict Spatial Relations between Objects in Images

题目：结合词汇和空间知识来预测图像中对象之间的空间关系

摘要：

图像的显式表示对于与图像有关的语言应用很有用。我们设计了一个基于一阶型的表示方法，这个方法可以捕获图像中存在的对象及其空间关系。我们对空间关系分类问题采取了监督学习的方法，并且研究了空间和以及字典信息在预测上的性能表现。我们发现，当结合位置信息时候，字典信息对于预测空间信息是十分必须的。我们获得了一个0.8的F-score分数，相比较而言，最常见的基线为0.62。

介绍：

根据数字图像数据的不断增长，一个能够自动将数据链接到语言的方法是很有价值的。鉴于数字图像数据的数量不断增长，自动将数据链接到语言的方法非常有用。由于语言技术和计算机视觉各个领域的最新进展，结合这两个领域的研究变得越来越流行，包括自动生成字幕（Karpathy和Fei-Fei，2014； Elliott和Keller，2013； Elliott等， 2014年，Kulkarni等人，2011年，Vinyals等人，2014年，Yang等人，2011年）以及将文本翻译成视觉场景（Coyne等人，2010年）。

尚未广泛研究的一项任务是从图像中自动提取丰富的抽象表示（Neumann和Moller，2008； Malinowski和Fritz，2014）。 ¨图像的形式表示不只是命名存在的对象；它也可以通过包含对象之间的空间关系来说明视觉场景的某些结构。这些信息可以增强语言和视觉之间的界面。例如，想象一下，搜索显示“骑着自行车的人”的图像：图片必须同时包含一个人和一个自行车，但还不够。为了满足该查询，该人还必须以某种方式连接到自行车，他的脚放在踏板上，手放在方向盘上。

我们认为，考虑到空间关系的图像表示可以实现语言和视觉之间更复杂的交互，而不仅仅是基本对象共现。

本文的目的是使用一阶模型的扩展来表示真实情况的图像。为了获得这样的模型，我们需要（a）高质量，覆盖面广的对象定位和识别以及方法（b）准确确定对象特征并（c）检测对象之间的空间关系。

由于尚无大范围物体检测系统，因此我们手动执行步骤（a）和（b）。因此，在本文中，我们集中于步骤（c）：空间关系的检测。这很困难，因为可以通过多种方式在视觉场景中实现给定的关系。我们要回答的问题是经典逻辑的一阶模型是否适合表示图像，以及哪些特征适合检测图像中对象之间的空间关系。特别是，我们要研究词汇知识对确定空间关系的影响，而与对象识别的质量无关。

PS：比如骑车的，骑这个词汇在图像中的动作（空间关系）。

论文结构如下。我们将首先提供有关空间关系的更多背景知识（第2部分）以及有关将视觉与语言技术结合起来的相关工作（第3部分）。然后，我们将在第4节中介绍我们的数据集，该数据集包含一百个图像以及总共583个需要确定空间关系的定位对象。在第5节中，我们详细概述了分类方法，并介绍和讨论了结果。

2.背景-空间关系

在本文中，我们专注于预测图像中空间关系的任务，研究三种关系（部分part-of即A是否是B中的一部分，接触touching，支撑supports；请参见第4节）。我们将检测到的空间关系整合到从逻辑中借用的一阶模型中，从而提供了易于扩展的图像表示。一旦检测到，空间关系还可以用作预测对象之间（例如动作之间）更具体的谓词的有用基础。例如，“骑乘”以触摸为前提，而“携带”或“握住”为前提是被其他物体支撑或支撑的物体。两个物体的空间配置限制了它们之间可能的（并且合理的）空间关系。例如，两个对象只有在彼此足够靠近的情况下才可以触摸。

对象属性的知识进一步限制了可能的关系集。例如，如果要求确定图1中的两个对象是否处于部分关系中，则仅凭空间就很难做出决定，也就是说，不知道对象是什么（通过涂黑图片表示）。在这种情况下，空间配置本身无法提供足够的信息来自信地回答这个问题。

但是，有关对象本身的信息（超出其位置）可改善空间关系预测。考虑图2：当我们揭示对象的身份时，我们可以确定冰激凌和男孩没有部分关系，而猫和头却存在。这种关于空间关系的推论对人类来说是直截了当的，而对于计算机而言，这是一项艰巨的任务。但是，我们建议可以从诸如WordNet（Miller，1995）和大文本语料库之类的词汇资源中收集有用的机器可读的世界知识。

尽管许多研究人员专注于生成图像的文字描述（Karpathy和Fei-Fei，2014; Elliott和Keller，2013; Elliott等，2014; Kulkarni等，2011; Vinyals等，2014; Yang等，2011年），从图像导出一阶语义模型是迄今为止尚未尝试的任务。使用抽象模型而不是文本标签的优点是可以轻松进行推断。推理过程包括查询模型以及检查一致性和信息性。这极大地促进了图像数据库的维护，并启用了诸如问题回答和图像检索之类的应用程序（Elliott等，2014）。