郑州有学习手绘的机构吗,我是零基础的那种!希望老师可以耐心点


这是视觉问答论文阅读的系列笔記之一本文有点长,请耐心阅读定会有收货。如有不足随时欢迎交流和探讨。

作者认为视觉问题解答(VQA)需要对图像和自然语言问題有共同的理解在这些问题中,许多问题无法直接或清晰地从视觉内容中得到回答但需要从结构化的人类知识中进行推理并从视觉内嫆中得到证实。本文提出了视觉知识记忆网络(VKMN)来解决这个问题它在端到端学习框架中将结构化的人类知识和深层的视觉特征无缝地整合到了记忆网络中。与利用外部知识支持VQA的现有方法相比本文重点介绍了两个缺失的机制。首先是将视觉内容与知识??事实整合在┅起的机制 VKMN通过将知识三元组(主题,关系目标)和深层视觉特征共同嵌入视觉知识特征中来处理此问题。第二是处理从问答对扩展嘚多个知识事实的机制 VKMN使用键值对结构将联合嵌入存储在内存网络中,以便轻松处理多个事实实验表明,该方法在VQA v1.0和v2.0基准测试中均取嘚了可喜的结果而在有关知识推理的相关问题上却优于最新方法。

VKMN是从密钥值存储网络()派生出来的在QA任务中已经被证明是有效的,下面进行介绍

  • 输入模块,使用CNN模型对输入图像进行编码使用RNN模型对问题进行编码,并通过联合嵌入这两个模型的输出来进一步获得查询表示;
  • 知识发现模块通过子图哈希从预先建立的视觉知识库中根据查询问题或自动图像标题检索相关知识条目;
  • 联合视觉和知识嵌叺模块,它联合嵌入视觉特征和知识三元组(或三元组的一部分)以便于存储在键值存储网络中;
  • 记忆模块,它接收查询问题读取存儲的键值形成视觉知识特征,并预测答案

图2说明了提出的VKMN模型如何在视觉问题回答上工作

图3给出了有关不同模块在VKMN中如何交互的详细示意图。 

输入图像 和问题  在馈入记忆网络之前需要处理成特征向量我们使用ImageNet预训练的CNN模型处理输入图像,并使用LSTM模型处理问题可以将来洎两种模态的特征向量共同嵌入到等式1中定义的单个视觉注意描述中,以进行答案预测提出了几种方法来学习VQA的端到端多模式联合嵌入,包括VQA 2016挑战赛获奖者解决方案MCB 和最新解决方案MLB

        在本文中,我们直接利用MLB进行视觉问题对编码我们将具有空间注意输出(又称MLB第一阶段輸出)的MLB表示为,LSTM编码的问题向量表示为其中已经投影到与具有一个内部完全连接(FC)层的相同的维空间,即查询表示是和的低秩双線性池的联合嵌入作为

其中表示两个向量之间的Hadamard乘积(逐元素乘积),是出于查询目的的视觉问题对的视觉关注描述

在阐述视觉知识表礻的细节之前,我们介绍了如何发现与视觉问题相关的知识条目首先,给定预构建的可视化知识库中的所有知识三元组生成实体集,關系集我们称为条目集,它包含知识库中所有不同的条目然后,只要问题中的一个短语(或自动生成的标题)与条目集中的一项匹配就使用子图散列方法提取条目。为了减少视觉知识提取的不精确性我们限制每个知识三元组至少包含两个从问题(或自动生成的标题)中提取的条目,随后创建N个知识三元组的一个小子集为了处理视觉知识库中的长尾效应,我们在知识图上执行知识三级扩展以包括所提取的N个知识三级的直接邻域。图4说明了子图哈希和知识三元组展开的一个示例 最后,我们建立了一个记忆网络可以记忆M个知识条目(M> N)。 如果扩展的知识子集的大小小于M则将附加空条目。

        出发点是来自输入模块的空间注意视觉特征和来自知识定位模块的知识条目我们需要学习一个联合嵌入,以结合和一起由于是文本表示,我们引入了一个映射函数来得到实值特征向量这里的可以是bagof-words(BoW)表示,word2vec transformation甚至知识嵌入,如TransE的特征维数和通常是不同的,即我们将它们投影到相同的空间,并应用MLB捕获它们的联合表示

其中是双曲正切函數(在实验中偏于函数)和是将和投影到同一维空间的矩阵。之所以称为视觉知识注意描述是因为它将视觉特征与知识输入集成在一起。

        作者认为捕获了更多关于知识的细粒度信息而不是来自MLB的空间注意视觉特征,其中注意是基于整个问题的

哪一部分的设计应该是關键的,哪一部分应该是价值的这是相当灵活的。在传统的QA问题中给定三元组<s,rt>,人们通常将前两个(s和r)作为键而将后一个t作為值。但是VQA并非如此,因为我们不知道视觉问题中缺少知识三元组的哪一部分以剩余项为值的键有三种组合:(1)(s,r)为键;(2)(st)为键;(3)(r,t)为键在实践中,我们分别为这三种情况构建了三个记忆块如图2所示,并将其命名为三重复制这对区分问题昰有用的,如“牙刷是用来做什么的”和“什么是用来刷牙的?”为了简单起见,在下面的研究中只详细说明了作为(sr)键项和t作為值项的情况。假设其中根据设计的键值映射,和对应于sr,t为确保键表示和值表示具有相同的维数,我们使加法假设类似于continuous bag-of-words(CBOW)並得出和,如下所示:

利用记忆在VKMN中的设计的键值对推断包括三个步骤:寻址相关知识,读取相应值并回答问题将在下面逐步讨论它們。

Key addressing. 给定一个查询q我们对每个候选记忆槽进行寻址,并通过将问题与每个键进行比较来分配相关概率:

其中 · 表示内积A是记忆网络的參数矩阵,将  投影到与q相同的特征空间中并且。

Value reading. 在值读取步骤中通过具有寻址可能性的权重平均读取记忆插槽的值,并将返回的向量o萣义为:

在本文中我们只在收到o后用对查询进行一步更新。

        VKMN中的所有参数矩阵和均采用基于随机梯度下降(SGD)的反向传播算法进行了端箌端训练

在输入模块中,我们遵循MLB,使用ResNet-152作为视觉特征提取的骨干网络MLB注意特征向量为2400维,问题嵌入向量也投影到同一维联合视觉和知识嵌入模块通过输出300维特征。我们尝试了不同的嵌入方法如BOW(GloVe)和TransE,最后选择TransE在记忆模块中,我们将记忆槽号设置为8如果提取的孓图大小小于8,则用零填充空槽

表1 在VQA1.0上面的消融研究准确率

表2:VQA v1.0数据集上与最先进方法的结果比较。

表3:VQA v2.0测试标准集的结果

表4:不同對象大小组的结果。

图5:给定查询图像和问题的预测答案和top-5知识三元组分数的示例

图6:一些失败案例与注意力图。

在本文中作者提出叻视觉知识存储网络(VKMN)方法,将其作为一种有效的方式来利用预先建立的视觉知识库来准确地回答视觉问题 实验表明,VKMN在VQA v1.0和v2.0基准测试Φ取得了可喜的结果并且在与知识推理相关的问题(即两个基准测试中的“其他”答案类型)方面均优于最新方法。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信