有标准情况数的情况下例如 3.567加上千分之一怎么算

??此文章仅作为交流讨论之用文章中如果有我理解不到位的地方欢迎指出。文章中大部分内容来源于这篇文章因为本人的认知容易出现错误,建议大家阅读原文对內容有个直接的认识

??首先视觉问答是把图像和关于图像的自然语言问题作为输入,针对问题生成自然语言答案作为输出可以看到這实则是一个跨领域的任务,既包含了计算机视觉(CV)又包含了自然语言处理(NLP)。同时视觉问答因为问题的不同可以被划分到多个计算机视覺领域。比如:

    ??谈到了特点就可能会联想到图像描述(Image Caption),视觉问答与图像描述还是有区别的前者在于学习图像中的信息,针对问题進行回答后者则是针对图像信息生成描述的话。显然前者就偏向于针对特定的任务是面向问题的,而问题的空间则可能是非常巨大的并且针对一个图像的问题可能有很多个,而后者只需要针对图像的主干信息生成一些正确的描述不需要全面的了解图像。
    ??视觉问答的潜在应用又在哪里最直接的应用就是为盲人和视觉障碍人士提供帮助。此外还可能对于人机交互和信息检索有所帮助

??数据包括图像数据和问题数据,两者成对出现我们先了解问题是什么样的。大致有这么两种模式一种是开放式问题(Open-Ended),一种是选择题(Multiple-Choice)
??开放式问题一般没有固定答案。选择题则是针对特定的问题提供一些候选答案,系统只需要在多个答案中进行选择即可相当于把问答转換成了分类。选择的结果优于开放式问题的结果但是所有的方法都比人表现的差很多。

?? 最早的数据集也是最小的之一。328,000张图像91種目标类别,2M个标签实例平均每张图像5个描述标签,它包括基于NYU-DepthV2数据集的图像的6795个培训和5673个测试问答对
??如果仅使用其中37个类别就嘚到了DAQUAR-37,包括3825个训练和297个测试问答对
??最早的数据集,问题也比较多

  • 首先就是数据量小,数据量小则不足以构建复杂的模型
  • 经常茬像素上会产生损坏和混乱,低分辨率也是一个问题
  • 仅包含室内场景内容混乱,灯光昏暗即使人类也只能实现50.2%的准确率
  • 在该数据集上,单单使用问题不看图像比两者都用性能竟然还好
  • 问题的答案被约束在有限类型中特别是把开放问题转成单选问题
  • 数据集有强烈的不平衡偏向(bias)

the boy playing? 这时,连答案也都一同产生了感觉这个过程有点类似于bert的mask技术。
??数据量包括78,736个训练和38,948个测试问答对每个问题的答案都是一個词,因为比较好生成也因此,这么多问题只有435个无重复答案。同时一个词的答案评估也就更加容易一些。
??问题在于NLP算法生成嘚句子不能很好的应对词法和句法的变化,会导致尴尬的提问句子和许多语法错误

??数据来源于COCO的真实图像和合成的抽象卡通图像,比较侧重于COCO的真实图像真实场景的部分又叫COCO-VQA,合成部分叫SYNTH-VQA
??其中COCO-VQA相对其他数据集,数据量算是非常大的总共14,163个问答对,其中包括248,349 训练, 121,512 验证还有244,302个测试数据
?? SYNTH-VQA包含50000张卡通合成场景,100个不同目标30个不同动物模型,20个人类模型包含变形的四肢,八种不同的面部表情囊括不同的年龄,性别和种族每张图像三个问题,每个问题十个答案通过生成可以创建更多多样化和平衡的数据集。
??问题類型包括单选和开放式单选包含18个不同的选项。

  • 许多问题可以不需要使用图像然后准确回答仅看问题不看图像就能取得49.6%的准确率,如:树是什么颜色的问题就有70个
  • 许多问题力求解释性或者具有冗长的描述,同时体现了人类标注的不可靠回答是否的问题占比38%,而且其Φ59%的答案是yes最常见的答案yes,可能对给定问题是完全错误的
  • 主观问题容易造成分歧,且缺乏客观的答案

??另一个基于COCO的数据集原始問题收集是中文的,提供了英文翻译
??数据集允许答案是完整的句子,所以很难使用指标评价作者建议人类来评估,主要来判断答案是否由人提供以及评估答案的等级质量{0,1,2}。所以代价昂贵难以开发和部署。

??由108249张图像组成图像同时出现在YFCC100M和COCO中,平均一张图17个問题答案对总共1.7M问答对。相比于其他数据集问题多样性更丰富,1000个最常出现的答案仅仅覆盖了0.65的答案
??问题的多样性给指标评估帶来巨大挑战,答案倾向于选择更加简洁的回答来消除答案的多样性。
??尽管答案的长度具有长尾分布的特性但是相对于其他数据集较好,一个单词的答案占比57%, COCO-VQA是88%, COCO-QA是100%,DAQUAR是90%
??提问有两种形式,一是自由提问自由提问的时候标注者容易问图像全面信息的问题;另一种昰基于边框对图像区域提问,这是作者鼓励的方式
??问题类型可概括为六W问题,即WahtWhere,HowWhen,WhoWhy。没有回答是否的问题

??使用单选框架作为标准情况评估,评估过程中使用四个可能的答案干扰选项是通过让标注者不看图像回答问题得到的合理的答案。对于指出性问題选项则是围绕答案的四个合理的边界框。

有不同的排列类型,颜色变化形状,属性关系和位置的数据组成,这样创建了大量数據而不会其他数据集中的bias(偏向)问题。总共由244个独立的问题组成每个问题都会询问数据集中的64张图像,以实现偏向的消除和数据平衡
??所有的问题都是是否类型,许多问题需要对形状的布局和属性进行位置推理如针对下图中的问题。

    ??在其他数据集上运行良好的算法很难在SHAPES上表现很好可能是因为其他数据集中方法仅仅捕获了有限的信息。

??通常来说一个好的数据集应该足够大以捕捉真实世堺场景中问题和图像内容中的各种可能性,还应该有一个公平的评估方案评价指标大多和数据相关,这里大致整理一下常用的评价指标

??选择问题可以使用简单的准确率作为度量指标,比较好评价是对的是错的但是准确率很难使用在开放式问题上,如果要使用则需要预测答案完全匹配真实答案,这个通常是很难的
??但是使用准确率的有点在于,简单而且容易解释适用于少数独特的答案。缺點同样很明显那就是错误不能够进一步的区分,对于不同错误惩罚是相同的比如答案是秃鹰的时候,鹰和鸟就应该比斑马更接近正确答案而不该有相同的惩罚。答案的完全匹配也不适用答案是句子或者短语的情况同时会带来特殊答案的大量生成。

??上述提到不同嘚错误的需要有区分就有想法通过语义来度量这个区分性,有些答案与真实标注更加接近则应该具有较少的惩罚。依赖于WordNet提出语义树来对答案和基本事实中的词语构建相似性距离来度量预测结果与答案之间的差距。根据两个单词的语义找到最不常见的使用并根据需偠遍历语义树的距离找到该共同使用者,然后分配相似性分数取值范围在
??通常来说语义相似但是不相同的参数惩罚相对较小。例如bald eagle囷eagle的相似性是0.96而bald eagle和bird的相似性是0.88。但是即便非常不相关的词WUPS分配的相似性也不是很小,为了克服这一点提出了基于阈值的WUPS,低于阈值嘚分数将会以一个比例缩小比如阈值设置为0.9,低于阈值的分数将乘以0.1这种方法常用于DAQUAR和COCO-QA性能的标准情况度量。
??也因此这种指标具有易于评估简单的特点,同时对答案之间的未系哦啊差异变化和错误比较宽容即便如此这种指标还是会存在一些问题。比如依赖于语義相似性对于语义的差异刻画的不是很准确,黑色绿色和红色的相似性也都很高。而且只能在小词的条件下工作不适于句子和短语。并且只有在词汇之间具有WordNet含义时才起作用

??DAQUAR数据集,为每个问题平均收集5个标注然后指向以下两种度量。平均共识(average consensus):最终分数会通过加权倾向于标注者提供的更流行的答案有多个独立的Ground Truth答案,设置频率最高的是正确的最小共识(min consensus):答案需要至匹配一位标注者。
??而在VQA数据集中与准确率度量一起使用, AccuracyVQA?=min(3n?,1)意味着如果预测结果与3个人以上的标注的答案一致,这就是完全正确这样就能够较好嘚解决歧义问题。
??这个指标也会存在很多问题比如在COCO-VQA使用这种方式上实现的最高准确率是0.833,不可能完全准确而且有59%的why问题答案少於三个标注者,
??这种评价的优点在于可以处理相同答案的常见差异如果差异答案也很常见,也可能正确而且一旦收集了标注数据の后,比较容易评估
??但是缺点也比较明显,收集真实答案比较麻烦因为通常需要多个标注。而且不同的人之间缺乏共识允许一個问题具有多个正确答案,甚至有些答案是完全相反的语义(在…左边在…右边)。还有13%的yes/no数据同时存在两种情况并且两种情况都超过三個人,也就意味着都是对的这就是因为多数的答案没有在权重上起到作用。这些问题也使得评估结果更好在所有回答是否的问题上回答yes,分数是71%
??这种指标反而不适用于开放性问题。

??就是使用人类来判断评估答案是否正确在FM-IQA中提出两种评价方法,第一种指标昰判断答案是否由人产生的但是显然单独使用这个指标无法很好的指示系统的性能,而且评价容易被潜在先验操纵
??第二种通过3-point评汾正确性,把答案的级别分为三级然后对答案的性能进行评级0:完全错误,1:部分正确2:完全正确。
??手动评价的优点在于变化的答案容易被评价也能够很好的处理句子短语答案和句子答案。但是随之而来的缺点就是成本高需要耗费时间和资源,并且很难反复的訓练测试来提升算法的性能因为每一次训练和测试都是很大的人力开销。除此之外使用人力评估必须制定明确标准情况的指导方案,鉯便在判断之间产生良好的协议能够正确评估。
??认真去学习感觉这里的内容真的是非常多,我也写的累了感觉本文已经达到了別人太长不看的标准情况了,但是好像VQA的相关算法才是重点今天就是开个头,我也写的累了后面会被算法综述也补上。

}

我要回帖

更多关于 标准情况 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信