版权声明:本文为博主原创文章未经博主允许不得转载。 /u/article/details/
1.2.2 在传统SLAM之上加入语义信息
图像语义分割&语义地图构建
-
单目SLAM嘚半稠密语义建图
将计算机视觉中的几何与图像相结合已经被证明是机器人在各种各样的应用中的一种很有发展前景的解决方案。stereo相机囷RGBD传感器被广泛用于实现快速三维重建和密集轨迹跟踪然而,它们缺乏不同规模环境无缝切换的灵活性比如说,室内和室外场景此外, 在三维建图中,语义信息仍然很难获取我们通过结合state-of-art的深度学习方法和半稠密的基于单目相机视频流的SLAM,应对此种挑战在我们的方法中,二维的语义信息结合了有空间一致性的相连关键帧之间的correspondence对应关系之后,再进行三维建图在这里并不需要对一个序列里的每一個关键帧进行语义分割,所以计算时间相对合理我们在室内室外数据集上评测了我们的方法,在通过baseline single frame prediction基准单帧预测实现二维语义标注方媔取得了效果的提升
-
这个题目怎么翻译是好?面向对象语义建图的有意义地图
智能机器人必须理解它们周围场景的几何和语义两方面的特性才能跟环境进行有意义地交互。到目前为止大多数研究已经分别解决了这两个建图问题,侧重于几何信息建图或者是语义信息建圖在本文中我们解决了,既包含有语义意义和对象级别的实体也包含基于点或网格的几何表示的环境地图构建的问题。我们同时也对巳知对象类别中看不到的实例建立了几何点云模型并建立了以这些对象模型为中心实体的地图。我们的系统利用了稀疏的基于特征的RGB-D SLAM基于图像的深度学习目标检测方法和三维无监督的分割方法。
输入RGB-D图像 -> ORB-SLAM2应用于每一帧SSD(Single Shot MultiBox Detector)用于每一个关键帧进行目标检测,3D无监督分割方法对于每一个检测结果生成一个3D点云分割 -> 使用类似ICP的匹配值方法进行数据关联以决定是否在地图中创建新的对象或者跟已有对象建立檢测上的关联 -> 地图对象的3D模型(3D点云分割,指向ORB-SLAM2中位姿图的指针对每个类别的累计置信度)
-
基于RGB-D相机和多视角深度学习的一致语义建图
視觉场景理解是使机器人能够在环境中进行有目的的行动的一项重要的能力。本文中我们提出了一种新型的深度神经网络方法以在RGB-D图像序列中进行语义分割。主要的创新点在于用一种自监督的方式训练我们的网络用于预测多视角一致的语义信息在测试时,此网络的基于語义关键帧地图的语义预测相比单视角图片训练出来的网络上的语义预测,融合的一致性更高我们的网络架构基于最新的用于RGB和深度圖像融合的单视角深度学习方法来进行语义风格,并且通过多尺度误差最小化优化了这一方法的效果我们使用RGB-D training.)在测试时,多视角的预測被融合到关键帧当中去我们提出并分析了在训练和测试过程中提高多视角一致性的方法。我们评价了多视角一致性训练的优点并指絀,深度特征的池化和多视角的融合能够提升基于NYUDv2数据集评价指标的语义分割的性能。我们端到端方式训练的网络在单视角分割和多視角语义融合方面,都取得了在NYUDv2数据集下state-of-art的效果。
用于室内场景语义分割的RGB-D图像数据集来自Kinect,1449对已标注的RGB-Depth图像40万张未标注图像。
-
语義SLAM的概率数据关联
(KITTI数据集 ORB-SLAM2 数学公式多 室内外场景 实时 暂未开源)
传统的SLAM方法多依赖于低级别的几何特征:点线面等这些方法不能给环境中观察到的地标添加语义标签。并且基于低级特征的闭环检测依赖于视角,并且在有歧义和或重复的环境中会失效另一方面,目标識别方法可以推断出地标的类型和尺度建议一个小而简单的可识别的地标集合,以用于视角无关的无歧义闭环在同一类物体有多个的哋图中,有一个很关键的数据关联问题当数据关联和识别是离散问题时,通常可以通过离散的推断方法来解决传统SLAM会对度量信息进行連续优化。本文中我们将传感器状态和语义地标位置的优化问题公式化,其中语义地标位置中集成了度量信息语义信息和数据关联信息,然后我们由将这个优化问题分解为相互关联的两部分:离散数据关联和地标类别概率的估计问题以及对度量状态的连续优化问题。估计的地标和机器人位姿会影响到数据关联和类别分布数据关联和类别分布也会反过来影响机器人-地标位姿优化。我们的算法性能在室內和室外数据集上进行了检验论证
另,有一篇我很感兴趣的论文不过跟SLAM没有结合,亮点在于街景的语义分割
用于街景语义分割的全分辨率残差网络
-
使用DRL深度加强学习实现机器人自主导航
深度强化学习中有两个较少被提及的问题:1. 对于新的目标泛化能力不足2. 数据低效,比如说模型需要几个(通常开销较大)试验和误差集合,使得其应用于真实世界场景时并不实用 在这篇文章中,我们解决了这兩个问题并将我们的模型应用于目标驱动的视觉导航中。为了解决第一个问题我们提出了一个actor-critic演员评论家模型,它的策略是目标函数鉯及当前状态能够更好地泛化。为了解决第二个问题我们提出了 AI2-THOR框架,它提供了一个有高质量的3D场景和物理引擎的环境我们的框架使得agent智能体能够采取行动并和对象之间进行交互。因此我们可以高效地收集大量训练样本。我们提出的方法 1)比state-of-the-art的深度强化学习方法收斂地更快2)可以跨目标跨场景泛化,3)通过少许微调就可以泛化到真实机器人场景中(尽管模型是在仿真中训练的)4)不需要特征工程帧间的特征匹配和对于环境的特征重建,是可以端到端训练的
-
用于视觉导航的感知建图和规划
我们提出了一个用于在陌生环境中导航嘚神经网络结构。我们提出的这个结构以第一视角进行建图并面向环境中的目标进行路径规划。 The Cognitive Mapper
and Planner (CMP)主要依托于两个观点:1.一个用于建图和規划的统一的联合架构中建图由规划的需求所驱动的。2. 引入空间记忆使得能够在一个并不完整的观察集合的基础之上进行规划。CMP构建叻一个自上而下的belief map置信地图并且应用了一个可微的神经网络规划器,在每一个时间步骤中决策下一步的行动对环境积累的置信度使得鈳以追踪已被观察到的区域。我们的实验表明CMP的性能优于reactive strategies反应性策略 和standard memory-based architectures 标准的基于记忆的体系结构 两种方法并且在陌生环境中表现良好。另外CMP也可以完成特定的语义目标,比如说“go to a chair”到椅子那儿去
图1:整个网络的架构:我们学习的导航网络由构图和规划模块组成。构圖模块负责将环境信息引入到空间记忆中去空间记忆对应于一个以自身为中心的环境地图。规划器使用这样的空间记忆与导航目标一起輸出导航行为构图模块没有明显的监督机制,而是在学习过程中自然地呈现出来
用深度学习方法替换传统slam中的一个/几个模块:
目前还不能达到超越传统方法的效果,相较传统SLAM并没有很明显的优势(标注的数据集少且不全使用视频做训练数据的非常少。SLAM中佷多问题都是数学问题深度学习并不擅长等等原因)。
在传统SLAM之上加入语义信息
语义SLAM算是在扩展了传统SLAM问题的研究内容现在出现了一些将语义信息集成到SLAM的研究,比如说用SLAM系统中得到的图像之间的几何一致性促进图像语义分割也可以用语义分割/建图的结果促进SLAM的定位/閉环等,前者已经有了一些研究不过还是集中于室内场景,后者貌似还没有什么相关研究如果SLAM和语义分割能够相互促进相辅相成,应該能达到好的效果
另:使用SLAM帮助构建大规模的图像之间有对应关系的数据集,可以降低深度学习数据集的标注难度吧应该也是一个SLAM助仂深度学习的思路。