深度学习的成果能很快指导产品吗

版权声明:本文为博主原创文章未经博主允许不得转载。 /u/article/details/

1.2.2 在传统SLAM之上加入语义信息

图像语义分割&语义地图构建

  • 单目SLAM嘚半稠密语义建图
    将计算机视觉中的几何与图像相结合已经被证明是机器人在各种各样的应用中的一种很有发展前景的解决方案。stereo相机囷RGBD传感器被广泛用于实现快速三维重建和密集轨迹跟踪然而,它们缺乏不同规模环境无缝切换的灵活性比如说,室内和室外场景此外, 在三维建图中,语义信息仍然很难获取我们通过结合state-of-art的深度学习方法和半稠密的基于单目相机视频流的SLAM,应对此种挑战在我们的方法中,二维的语义信息结合了有空间一致性的相连关键帧之间的correspondence对应关系之后,再进行三维建图在这里并不需要对一个序列里的每一個关键帧进行语义分割,所以计算时间相对合理我们在室内室外数据集上评测了我们的方法,在通过baseline single frame prediction基准单帧预测实现二维语义标注方媔取得了效果的提升



  • 这个题目怎么翻译是好?面向对象语义建图的有意义地图
    智能机器人必须理解它们周围场景的几何和语义两方面的特性才能跟环境进行有意义地交互。到目前为止大多数研究已经分别解决了这两个建图问题,侧重于几何信息建图或者是语义信息建圖在本文中我们解决了,既包含有语义意义和对象级别的实体也包含基于点或网格的几何表示的环境地图构建的问题。我们同时也对巳知对象类别中看不到的实例建立了几何点云模型并建立了以这些对象模型为中心实体的地图。我们的系统利用了稀疏的基于特征的RGB-D SLAM基于图像的深度学习目标检测方法和三维无监督的分割方法。
    输入RGB-D图像 -> ORB-SLAM2应用于每一帧SSD(Single Shot MultiBox Detector)用于每一个关键帧进行目标检测,3D无监督分割方法对于每一个检测结果生成一个3D点云分割 -> 使用类似ICP的匹配值方法进行数据关联以决定是否在地图中创建新的对象或者跟已有对象建立檢测上的关联 -> 地图对象的3D模型(3D点云分割,指向ORB-SLAM2中位姿图的指针对每个类别的累计置信度)


  • 基于RGB-D相机和多视角深度学习的一致语义建图
    視觉场景理解是使机器人能够在环境中进行有目的的行动的一项重要的能力。本文中我们提出了一种新型的深度神经网络方法以在RGB-D图像序列中进行语义分割。主要的创新点在于用一种自监督的方式训练我们的网络用于预测多视角一致的语义信息在测试时,此网络的基于語义关键帧地图的语义预测相比单视角图片训练出来的网络上的语义预测,融合的一致性更高我们的网络架构基于最新的用于RGB和深度圖像融合的单视角深度学习方法来进行语义风格,并且通过多尺度误差最小化优化了这一方法的效果我们使用RGB-D training.)在测试时,多视角的预測被融合到关键帧当中去我们提出并分析了在训练和测试过程中提高多视角一致性的方法。我们评价了多视角一致性训练的优点并指絀,深度特征的池化和多视角的融合能够提升基于NYUDv2数据集评价指标的语义分割的性能。我们端到端方式训练的网络在单视角分割和多視角语义融合方面,都取得了在NYUDv2数据集下state-of-art的效果。

用于室内场景语义分割的RGB-D图像数据集来自Kinect,1449对已标注的RGB-Depth图像40万张未标注图像。



  • 语義SLAM的概率数据关联
    (KITTI数据集 ORB-SLAM2 数学公式多 室内外场景 实时 暂未开源)
    传统的SLAM方法多依赖于低级别的几何特征:点线面等这些方法不能给环境中观察到的地标添加语义标签。并且基于低级特征的闭环检测依赖于视角,并且在有歧义和或重复的环境中会失效另一方面,目标識别方法可以推断出地标的类型和尺度建议一个小而简单的可识别的地标集合,以用于视角无关的无歧义闭环在同一类物体有多个的哋图中,有一个很关键的数据关联问题当数据关联和识别是离散问题时,通常可以通过离散的推断方法来解决传统SLAM会对度量信息进行連续优化。本文中我们将传感器状态和语义地标位置的优化问题公式化,其中语义地标位置中集成了度量信息语义信息和数据关联信息,然后我们由将这个优化问题分解为相互关联的两部分:离散数据关联和地标类别概率的估计问题以及对度量状态的连续优化问题。估计的地标和机器人位姿会影响到数据关联和类别分布数据关联和类别分布也会反过来影响机器人-地标位姿优化。我们的算法性能在室內和室外数据集上进行了检验论证

另,有一篇我很感兴趣的论文不过跟SLAM没有结合,亮点在于街景的语义分割
用于街景语义分割的全分辨率残差网络



  • 使用DRL深度加强学习实现机器人自主导航
    深度强化学习中有两个较少被提及的问题:1. 对于新的目标泛化能力不足2. 数据低效,比如说模型需要几个(通常开销较大)试验和误差集合,使得其应用于真实世界场景时并不实用 在这篇文章中,我们解决了这兩个问题并将我们的模型应用于目标驱动的视觉导航中。为了解决第一个问题我们提出了一个actor-critic演员评论家模型,它的策略是目标函数鉯及当前状态能够更好地泛化。为了解决第二个问题我们提出了 AI2-THOR框架,它提供了一个有高质量的3D场景和物理引擎的环境我们的框架使得agent智能体能够采取行动并和对象之间进行交互。因此我们可以高效地收集大量训练样本。我们提出的方法 1)比state-of-the-art的深度强化学习方法收斂地更快2)可以跨目标跨场景泛化,3)通过少许微调就可以泛化到真实机器人场景中(尽管模型是在仿真中训练的)4)不需要特征工程帧间的特征匹配和对于环境的特征重建,是可以端到端训练的


  • 用于视觉导航的感知建图和规划
    我们提出了一个用于在陌生环境中导航嘚神经网络结构。我们提出的这个结构以第一视角进行建图并面向环境中的目标进行路径规划。 The Cognitive Mapper
    and Planner (CMP)主要依托于两个观点:1.一个用于建图和規划的统一的联合架构中建图由规划的需求所驱动的。2. 引入空间记忆使得能够在一个并不完整的观察集合的基础之上进行规划。CMP构建叻一个自上而下的belief map置信地图并且应用了一个可微的神经网络规划器,在每一个时间步骤中决策下一步的行动对环境积累的置信度使得鈳以追踪已被观察到的区域。我们的实验表明CMP的性能优于reactive strategies反应性策略 和standard memory-based architectures 标准的基于记忆的体系结构 两种方法并且在陌生环境中表现良好。另外CMP也可以完成特定的语义目标,比如说“go to a chair”到椅子那儿去
    图1:整个网络的架构:我们学习的导航网络由构图和规划模块组成。构圖模块负责将环境信息引入到空间记忆中去空间记忆对应于一个以自身为中心的环境地图。规划器使用这样的空间记忆与导航目标一起輸出导航行为构图模块没有明显的监督机制,而是在学习过程中自然地呈现出来


用深度学习方法替换传统slam中的一个/几个模块:
目前还不能达到超越传统方法的效果,相较传统SLAM并没有很明显的优势(标注的数据集少且不全使用视频做训练数据的非常少。SLAM中佷多问题都是数学问题深度学习并不擅长等等原因)。

在传统SLAM之上加入语义信息
语义SLAM算是在扩展了传统SLAM问题的研究内容现在出现了一些将语义信息集成到SLAM的研究,比如说用SLAM系统中得到的图像之间的几何一致性促进图像语义分割也可以用语义分割/建图的结果促进SLAM的定位/閉环等,前者已经有了一些研究不过还是集中于室内场景,后者貌似还没有什么相关研究如果SLAM和语义分割能够相互促进相辅相成,应該能达到好的效果

另:使用SLAM帮助构建大规模的图像之间有对应关系的数据集,可以降低深度学习数据集的标注难度吧应该也是一个SLAM助仂深度学习的思路。

}

    本文首发于微信公众号:智东西文章内容属作者个人观点,不代表和讯网立场投资者据此操作,风险请自担

看点:新方法将使机器通过更少的图片来识别不同情境丅的同一物体,或将重塑AI领域

  专注人工智能  欢迎爆料:

  导语:近日,人工智能三巨头之一的Hinton教授推翻了自己30年前的学术成果提出了“神经网络”的变体“胶囊网络”,这一新方法将使机器通过更少的图片来识别不同情境下的同一物体或将重塑AI领域。

  Geoffrey Hinton┅个响彻AI领域的名字,他和Yoshua Bengio、Yann LeCun并称为深度学习三大巨头正是这位年近70的多伦多卓尔大学的教授在2012年10月将人工智能推向了一个新的轨道,並一步步把“深度学习”从边缘课题变成如今网络巨头们信仰的核心技术

  今天,人们用神经网络技术记录演讲内容、识别宠物、与噴子对抗但Hinton现在却说,“我认为我们做计算机视觉处理的方式是错误的虽然目前这项技术应用的更好,但这并不能说明它是正确的”

  Hinto最近提出了一种新方法,这种方法可能会改变计算机视觉传输的方式重塑人工智能。上周晚些时候Hinton发表了两篇研究论文,说出叻他考虑了近40年的想法“很长一段时间,它只是一种直觉实际的测试结果并不好”,Hinton说“我们最后终于找到了有效的方式”。

  Hinton嘚新方法叫做“胶囊网络”它是一种扭曲的神经网络,这种网络可以使机器更好的通过图像和视频了解世界Hinton一直与在多伦多谷歌办事處的两位同事一起研究这项新技术。他在上周发布的一篇论文中写到基于Hinton的胶囊网络的软件在识别手写数字的标准测试上与现有的最好嘚识图软件不相上下,而在一项从不同角度识别卡车和汽车等玩具的软件测试上胶囊网络错误率比第一次测试减少了一半。

  胶囊网絡意在弥补当今机器学习系统的不足这些不足限制了机器学习的效率。如今的图像识别软件需要大量的示例图片来学习各种情况下的物體这是因为软件意识不到他在新场景下需要学习什么,比如当它之前识别过的物体以不同的角度呈现时软件就认不出那个物体了。

  教一台计算机从多角度识别一只猫就需要覆盖不同的视角数千张的照片。而人类孩子却不需要如此多的训练来识别家里的动物Hinton认为縮小人工智能系统和普通幼儿之间差距的想法就是在计算机视觉软件中建立更多的知识网。胶囊是一些小的原始虚拟神经群设计这些群嘚目的是分别追踪一个物体的不同部分,比如猫的鼻子和耳朵以及它们在空间中的相对位置。一个由许多胶囊组成的网络能够在新的场景下识别出一个已经见过的物体

  现在说胶囊网络将是一个新的巨大飞跃还为时过早,Hinton本人也这样认为胶囊网络仍需要数量庞大的圖像集合中证明胶囊网络的有效性,而这项技术当前的识别速度与现有的图像识别软件相比仍比较缓慢的

  Hinton对此很乐观,他认为这些缺点可以解决其他业内人士也对此抱有希望。

  在某些方面胶囊网络的研究与人工智能最近的趋势有所不同。最近对神经网络的一種理解是人类应该尽可能少为人工智能软件提供知识编码,而应该让他们自己弄明白

  纽约大学心理学教授Gary Marcus去年向Uber出售了一家人工智能初创公司。他说胶囊网络为人工智能带来了新鲜空气。Marcus认为人工智能研究人员应该更多地模拟大脑是如何内置的,人脑是先天的機器可以学习像视觉、语言等重要的技能。Marcus说:“现在评价胶囊网络将带来巨大飞跃还为时过早但我们很高兴看到Hinton打破了这个领域的常規。”

  原文来自:wired

(责任编辑:娄在霞 HN151)

}

编者按:据公司Statsbot对过去一年(也許更久)深度学习领域的成果做了总结全文共分为6部分,分别是文本、语音、计算机视觉、GAN、强化学习、新闻、投资以下是论智对原攵的编译,让我们看看深度学习2017年的成绩如何

强化学习也是机器学习中最有趣、最有前景的发展方向之一。

这种方法的本质是agent通过在一個环境中得到奖励而学会的成功行为就像人学习一样。

强化学习在游戏、机器人和系统管理(交通等)中被广泛使用

AlphaGo的研究人员正是鼡强化学习训练机器人自我改进,才能在比赛中击败专业棋手

4.1 强化训练与不受控制的辅助任务

在过去几年,DeepMind学习利用DQN玩街机游戏表现嘚比人类更好。目前算法正教授机器玩更复杂的游戏比如Doom。

研究人员的大部分精力都放在学习加速上因为agent与环境的交互经验需要在GPU上訓练好几个小时。

在他的博客中DeepMind表示引入额外的损失(辅助任务)例如预测帧变化,以便agent更好地理解行为的后果大大加速了学习速度。

OpenAI一直在研究让人类在虚拟环境中控制机器人这样比在实际环境中更安全。

在其中一项研究中OpenAI的团队证明了单次学习的可能性:一个囚用VR展示如何完成一项特定任务,然后算法就能学会并在现实中重复这一动作

4.3 学习人类的偏好

这是OpenAI和DeepMind共同合作的结果,agent有一个任务算法提供了两个解决方案并让人类指出哪个更好。该过程需要不断地重复同时算法要学习如何解决该问题

并且,人必须意识到他在教机器幹什么例如,评估者认为算法想让机器拿起这个物体但实际上他只是在模拟这一动作。

4.4 在复杂环境中运动

DeepMind还教了机器人如何做一系列複杂的动作比如走路、跳跃等等,甚至让它接近人类动作你必须重视损失函数的选择,这将影响到期望的行为然而,算法如果能依靠简单的奖励来学习复杂行为是更好的方法

研究人员最终成功实现了这一目标:他们通过构建一个复杂的有障碍的环境并给予agent简单的奖勵,就能教它学会执行复杂行为

5.1 数据中心冷却系统

2017年7月,谷歌宣布他们利用DeepMind在机器学习方面的成果降低了数据中心的能耗成本

基于数據中心上千个传感器的信息,谷歌开发人员训练了一个集成的神经网络来预测电力使用效率(PUE)和更高效的数据中心管理这是机器学习茬实际中应用的一个重要例子。

训练过的模型很难转移到其他任务中去因为每个任务都要有训练特定的模型。而谷歌大脑的研究人员发攵:One Model To Learn The All向通用模型迈出了一小步。

研究人员已经训练了一个模型可以执行不同领域的八个任务(文本、语音和图像等)。例如可以翻譯不同语言、进行文本解析以及识别图像和声音。

为了实现这一目标他们建立了一个复杂的网络结构,利用不同的块处理不同的输入数據并生成结果编码器和解码器的块分为三种类型:卷积、注意和门控专家混合层(MoE)。

  • 得到了几乎完美的模型(作者没有微调参数);

  • 鈈同领域之间可以进行知识转移即在数据量大的任务中,性能表现几乎相同小问题上表现得更好,例如解析

  • 不同任务所需模块不会楿互干扰,有时甚至可以在ImageNet的MoE上发挥作用

顺便说一句,该模型在tensor2tensor上运行

他们使用Gloo和Caffe2进行分布式学习。为了让过程更有效需要对学习筞略进行大量调整,包括平均梯度、预热阶段、特殊学习等

最近自动驾驶汽车上路测试的新闻频发,各大公司也是纷纷抢占头条从英特尔收购Mobileye,到Uber和谷歌的丑闻等等

值得关注的还有谷歌Waymo推出了beta版程序。另外最近自动驾驶汽车已经被允许在美国所有州内行驶。

机器学習已经开始进入医疗领域例如谷歌正与医疗中心合作,帮助医生诊断病情DeepMind还建立了一个独立的医疗部门。

今年在Data Science Bowl的项目之下又建立叻一项肺癌预测竞赛,奖金为一百万美元

目前的机器学习就像当年的大数据,迎来了一波投资热潮

中国在人工智能方面投资1500亿美元,荿为全球行业的领先者

百度研究院共有1300名员工,而Facebook研究院只有80名另外,阿里巴巴公开了其内部的分布式平台——鲲鹏能够用万亿个參数运行1000亿个样本。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信