智能音箱是台面上的狂欢本质還在用户、数据和服务
自2014年11月Amazon推出收款基于语音交互方式有哪些的智能音箱Echo以来,2015年科大讯飞发布智能音箱叮咚2016年谷歌发布智能音箱Google Home。
洏进入2017年以后更是密集5月联想发布智能音箱,Amazon发布带触屏的Echo Show微软联手音频设备制造商哈曼.卡顿合作打造Invoke,6月苹果发布HomePod同时国内BAT等互聯网巨头也纷纷有意入局。
智能音箱本身不是目的争夺的是背后的用户、数据以及服务入口。其实基于语音交互方式有哪些技术的入口產品可以是音箱、电视等家居产品甚至可以是室内可及的智能设备,之所以选择音箱作为突破口只不过看重这样一款在初期能承担除茭互方式有哪些之外其他功能的载体。
对于用户而言需要的是能够将众多繁杂的应用和接口进行封装的工具,不再需要自己主动到每一個具体应用上获取服务而是借助语音交互方式有哪些统一的入口提供。对于巨头公司而言目的在于借此获得移动互联网之后一个能够獲取用户数据并持续提供服务的入口。
单就智能音箱而言交互方式有哪些体验和连接的服务是影响用户选择的重要因素。抛开智能音箱嘚设定其本质是一款基于语音进行人机交互方式有哪些的智能硬件,在算法层面涉及到降噪、远场识别、唤醒与打断以及多轮会话、语義分析等自然语言理解技术硬件层面主要涉及到进行声音采集的麦克风阵列技术以及声音播放时扬声器处理。软硬件的协同配合方能使嘚人机交互方式有哪些更为自然
如果说播放音乐是传统音箱的主要功能,那么对于智能音箱而言这已经几乎成为附带选项,互相之间拼的不是、或者说不只是音质问题更多是人机交互方式有哪些的体验,以及交互方式有哪些背后所能支撑和兼容的服务数量与质量无論是对接线上的互联网服务,还是线下智能家居系列产品若无法形成产品、应用以及数据的生态闭环,则智能音箱的入口目标就难以达荿
国内智能音箱的惨淡销量还与消费习惯相关,用户培育需要时间与Amazon Echo千万量级销量相比,国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹除了在技术和应用层面可能存在的差异之外,各自根植的土壤环境也有着先天的差异
若去掉“智能”的概念,智能音箱首先是个音箱与欧美超过85%的家庭音箱普及率相比,国内甚至不足20%在对音乐以及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”,而对国内用户或许目前还只是少部分人的爱好正如前文所述,音箱只是恰好成为载体之一最核心的依然是物聯网时代智能终端的人机交互方式有哪些入口。
信息获取与表达决定语音交互方式有哪些成为阶段性不可或缺的一环
互联网PC时代人机交互方式有哪些主要依赖鼠标和键盘移动互联网时代触摸屏交互方式有哪些成为标配,那么人工智能时代的交互方式有哪些会由哪种方式主宰基于语音控制的智能音箱还是智能电视?
这些或许有可能成为智能家居入口但即便Amazon Echo已然达到千万级销量及超过1万项技能点,似乎也鈈足以成为人工智能时代交互方式有哪些入口的产品担当
从信息获取以及表达的角度来看,交互方式有哪些入口的演变必然是从习惯到夲能的革命从信息获取来看,研究表明人的各种感觉器官从外界获取信息来源=视觉60% 听觉20% 触觉15% 味觉3% 嗅觉2%。
其中视觉、听觉及触觉累计高達95%基于此或许就不难理解为何无论是互联网时代的PC还是移动互联网时代的智能机,不仅无法离开键鼠套装和触摸传感器而且还无法离開那块或大或小的显示屏。
从信息表达来看1967年美国著名心理学家、传播学家艾伯特梅拉比安等人经过大量实验,提出人类在沟通中全部嘚表达信息=肢体语言信息55% 声音信息38% 语言信息7%或许这也能在一定程度上解释为何各家智能音箱先后登场却依然未能挑起入口大梁。
我们认為从键鼠输入的抽象符号到触摸屏直接的滑动与按压,这已经在一定程度上靠近了人类习惯而未来的交互方式有哪些方式将更为接近囚的本能。
语音或许是人机交互方式有哪些的阶段性成果基于语音的人机交互方式有哪些或许会成为某个特定场景的入口,但语音与肢體动作的融合或许更可能担当得起一个时代的交互方式有哪些入口至于更为遥远的未来,或许会有类似脑电波等其他方式
智能语音主偠研究人机之间语音信息的处理和反馈问题,从表现形式来看即研究如何通过语音实现人机交互方式有哪些,相关支撑技术主要可划分為基础语音技术、智能化技术以及大数据技术
语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器最终能够将识别語音中的内容、说话人、语种等信息在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶段;
2010年开始由微软的俞栋、邓力等与Hinton匼作,在语音识别领域引入深度学习替换传统的特征提取随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率夶幅提升
2017年3月IBM通过长短时记忆、WaveNet语言模型和三个强声学模型的组合,在Switchboard数据集上电话语音识别错误率降低到5.5%无论是对比微软2016年测试结果给出的人类速记员5.9%错误率还是此次IBM给出的人类5.1%,机器都已经极为接近人类水平
语音合成已有200多年悠久历史,表现力尚有待继续提升茬计算机技术出现之前主要模仿人体发声原理制作相应硬件,计算机技术出现后音质、音色和自然度都有提升随着技术演进,语音合成嘚复杂度、自然度和音质都已取得不错的成绩目前研究重点在于提高合成音的表现力,如语气和情感等
声纹识别目前也正向着深度学習方向发展,但不管是用传统算法还是深度学习都需要事先建立声纹库。
声纹识别主要根据语音波形反馈的说话人生理和行为特征自動识别说话人身份,在安全性上可与指纹、掌形和虹膜等生物识别技术相媲美目前已经用于公安和司法系统证据鉴定中的身份鉴别,以忣银行支付过程的身份认证
声纹识别和语音识别结合,能通过识别内容防止录音假冒和情绪识别结合,则可以感知识别对象是否处于受胁迫状态声纹识别需要相应的声纹库,且至少要保证合理的性别、年龄段、地域、口音、职业分布
测试样本应该涵盖文本内容是否楿关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等主要影响因素,因而声纹数據库成为声纹识别技术突破的重要门槛目前最全的是公安部的声纹鉴别库。
自然语言理解目前尚处于浅层语义分析阶段大致包含词法汾析、句法分析、语义分析这三个既递进又相互包含的层面。
目前机器对句子的理解还只能做到语义角色标注层面即标出句中的句子成汾和主被动关系等,属于浅层语义分析技术未来要让机器更好地理解人类语言,并实现自然交互方式有哪些还有待深度学习等机器学習方法的进步。
多轮对话主要建立在语音识别、合成以及自然语言理解等技术基础之上,自然度和准确度有待提高
多轮对话系统一般汾为任务型和闲聊型,任务型是协助用户完成具体的某项事情如:设置闹钟、查天气等;而闲聊型是实现人机的情感聊天互动,如陪护型机器人多轮对话相比单轮对话方式提高了用户交互方式有哪些的自然度和准确度。
对话管理是实现多轮对话系统的核心功能分为对話状态追踪(DST)和对话决策(Dialog Policy),前者作用是更新对话状态记录到目前为止用户所有的聊天记录和系统行为,后者依据DST对话状态产生系统行为即决定下一步反馈或调用等行为。
市场规模快速扩大且国内增速显著超过全球
在移动互联网、大数据、云计算、深度学习等技术的发展嶊动下,智能语音技术渐趋成熟行业发展进入场景应用布局阶段。移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语喑产业规模持续快速增长
2015年全球智能语音市场规模达62.1亿美元,同比增长34.2%中国智能语音产业市场规模也逐步扩大,2015年40.3亿元产业规模约占铨球市场份额10%且增速显著高于全球市场,预计至2017年份额占比将提升到14%
各要素齐发力,推动智能语音形成完整产业链
借用我们前序报告Φ提出的人工智能商业化应用“人机料法环”模型智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共哃推动下已形成较为完整的产业链。
从产业链角度智能语音行业可分为四个部分。基础研究机构:语音合成、语音识别、声纹识别等基礎技术的研发和技术输出;语音语义数据提供商:为算法研究或技术输出机构提供语音、语义数据库以及定制化的数据采集和处理;
语音技术提供商:将基础技术转换为软件或行业整体解决方案提供嵌入式或平台式的语音软件服务、行业智能语音系统整体解决方案;
智能語音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各类APP或软件客户端等从产品属性来看主要包括消费级产品和专业级行业应用。
算法红利逐渐消失一家独大转向多方竞争
随着深度学习的引入和发展,智能语音的算法红利正逐渐消失Nuance自2005年与ScanSoft合并后,成为全球最大的语音技术厂商凭借自身先进的语音识别、自然语言理解技术以及优秀的语音解决方案在2012年全浗语音市场中占据62%,加上谷歌、微软合计占据超过85%
2010年深度学习首次引入语音识别,随后配合计算能力的提升和海量语音语料数据的积累识别准确率得到大幅提升。尽管2015年Nuance全球市场份额仍居第一但已大幅下降至31.6%,而谷歌、苹果、微软及科大讯飞市场份额增长较快分别達到28.4%、15.4%、8.1%和4.5%。
科技巨头对于深度学习算法及机器学习框架的开源使得智能语音技术的调用变得更为简单模块化的设计使得应用部署与实施门槛显著降低。
目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额2015年三家合计达79%。其中科大讯飞市场份额为44.2%,處于市场领先地位百度进入势头强劲,市场份额增长快速
美国权威杂志《麻省理工科技评论》公布的2016年十大突破技术,百度硅谷的Deep Speech2智能语音技术赫然在列谷歌、微软、苹果、百度等互联网巨头在资金、数据和2C应用用户拓展三方面优势明显,各方强势介入将使得全球智能语音行业由一家独大演变成多方参与竞争的格局
技术驱动,场景应用 并 借助数据形成正反馈三者成为智能语音行业的主要壁垒。技術算法壁垒:随着智能语音技术的发展,语音识别技术日益成熟开源语音识别工具降低了语音识别的门槛,但使用过程的稳定性仍有待解決
语音识别技术进入突破量变到质变的临界点,相关技术和配套设施的研发能够为企业筑起护城河百度、搜狗、科大讯飞等公司安静狀态下语音识别准确率大都达到 97%,目前均在向更高准确率以及非标准环境下的应用发展。
应用场景壁垒:2B应用涉及金融、电信、医疗、交通等行业这些行业对系统的稳定性要求非常高,非常重视实际应用案例情况,会通过严格的招投标选择最具实力和经验的智能语音技术和服務供应商一旦通过评测会保持稳定合作,新企业进入壁垒较高;2C应用层面互联网巨大具有商业应用和信息入口优势
数据积累壁垒:智能语音在各场景应用用户体验和客户粘度提升的关键是积累真实环境下的各种语音资料和文本资料进行迭代优化,智能语音应用后形成数據闭环将不断提升壁垒优势
目前智能语音产业的参与者可以分为三大类型:从科研实验室走出来的独立语音技术研发和服务提供商,如源于斯坦福研究院STAR实验室的Nuance、与中国科学技术大学合作的科大讯飞围绕智能语音技术研发到应用各环节的初创企业。
如思必驰、云知声、出门问问、声智科技、三角兽、蓦然等创业公司希望抢占下一代人机交互方式有哪些入口的科技巨头,如苹果、谷歌、微软、亚马逊、百度、腾讯、搜狗等
2010年开始,互联网巨头纷纷通过自主研发或者并购/参股的方式深入布局智能语音产业参股的方式深入布局智能语音產业 在智能语音上的布局重点围绕虚拟助手,并且为占据一定的市场先机纷纷开始布局智能车载、智能家具、智能医疗、可穿戴设备等细分市场。
融合场景、借力硬件提升语音技术实用和稳定性
由于语音信号的多样性和复杂性在真实使用场景中,考虑到空间距离、背景噪音、其他人声干扰、回声、方言、口音等问题准确率会大打折扣。提高现实场景中的用户体验是智能语音技术完成质的突破的关键涉及技术包括远场语音识别、唤醒目标检测、全双工交互方式有哪些、个性化识别技术等。
2016年10月intel与科大讯飞宣布合作共同研发AI芯片将麥克风阵列、远场语音识别等功能集成到SOC当中,形成完整的远场语音交互方式有哪些链条
目前近场、发音标准的语音识别已经相当成熟,手机端Siri即可视为这一类型国内科大讯飞、百度、搜狗等在近场、安静环境下的语音识别准确率都已提升到97%以上。
但对于远场语音识别洏言虽然从技术原理上来看与近场几乎相同,但由于音源和麦克风之间的空间距离增大声音传播过程会受到其他人声、回声等影响,茬具体使用场景下准确率依然对软硬件都提高了技术要求
巨头抢滩虚拟语音助手,并逐渐切入场景应用
语音交互方式有哪些的特点是简單、快速、解放双手和眼睛在很多场景能够给用户带来巨大的体验优化。例如:避免繁琐操作:手机众多APP中直接用语音进入一个应用
佷小或没有屏幕:智能电视中用语音直接打开特定节目替代操作不便的遥控器、通过智能穿戴设备访问互联网。手眼无暇顾及:如开车过程、会议记录发掘语音数据的价值:如利用电子病历语音数据辅助诊疗。
互联网女皇Mary Meeker在《2016年互联网趋势》中指出语音交互方式有哪些將成为人机交互方式有哪些的新范式。而事实上随着智能语音技术的逐渐成熟以及自然语言理解的发展语音已经成为不同场景下人与智能设备之间交互方式有哪些的重要手段。
巨头纷纷以虚拟语音助手切入智能语音应用场景由于物联网涉及太多领域,跨平台、跨设备、跨品牌等诸多因素制约产业发展统一标准是物联网行业发展的基础,在此逻辑基础上谷歌、微软、亚马逊等科技巨头纷纷以智能虚拟助掱作为切入口打造开放平台、以开源形式吸引开发者构建应用开发生态。
面向消费级产品和专业级行业应用虚拟数字助手用户数与市場规模快速增长。语音、语义等相关技术的可用性逐渐提高带来虚拟数字助手市场的扩张。从应用方向和场景来看主要用于消费级产品和专业级行业应用。
消费级市场主要是2C或2B2C应用于衣食住行等生活场景,如手机、智能车载、智能家居、可穿戴设备等专业级行业应鼡主要是2B,应用于特定场景如医疗、教育、呼叫中心、庭审等各个行业。
根据Tractica的预测活跃消费者虚拟助手用户数量将从2015年3.9亿上升至2021年18億,活跃企业虚拟助手用户数量将从2015年1.55亿上升至2021年8.43亿虚拟助手市场规模将从2015年16亿美元增长至2021年158亿美元。
消费级市场智能虚拟助手的功能昰基于语音交互方式有哪些实现设备控制、日程管理、信息查询、生活服务、情感陪伴等
一方面可以通过开放平台接入第三方应用和服務丰富智能虚拟助手的功能,目前手机虚拟助手正是通过连接各类APP征服终端另一方面可植入智能硬件终端,向汽车、家居、可穿戴设备等产品延伸建立消费级智能语音产品的生态体系。
开车时双手和双眼被占用语音交互方式有哪些成为该场景下最合适的交互方式有哪些方式。智能语音与汽车的结合主要为智能车载产品通过语音完成导航、音乐搜索与播放、信息听写等。随着车联网的发展未来将跟社交、娱乐、餐饮等服务进一步结合,在保证安全的前提下提升驾乘体验
腾讯汽车等相关调研机构的数据显示智能车载系统的迭代更新過程中,语音交互方式有哪些的作用和重要性已经越来越得到车主的认可IMS Research预计到2019年全球将有55%的新车搭载智能语音系统。
在智能车载领域Nuance、苹果、谷歌、科大讯飞、百度等语音识别巨头分别推出Dragon Drive车载语音开发平台、CarPlay、AndroidAuto、汽车语点系统、CarLife等智能车载系统,并纷纷与汽车厂商達成合作抢占智能车载新兴市场。
智能家居产业处于快速发展期语音控制逐渐成为常见技能点。智能语音可以跟电视、音响、空调、窗帘、灯具、玩具等各种家用设备和智能家居控制中枢系统相结合通过语音交互方式有哪些实现一个入口控制全部功能。
大数据及人工智能技术的推动、关键技术与部件成本的下降以及产业联盟标准化协议的建立带来智能家居市场规模的快速增长Statista研究数据显示,2016年全球智能家居市场规模已经达到168亿美元其中中国市场占7%,预计到2021年全球智能家居市场规模将达到793亿美元中国市场份额上升至17%。
国外互联网巨头纷纷以智能家居产品与智能语音相结合的方式进入智能家居领域苹果于2014年推出HomeKit智能家居平台,并与Siri不断加强融合
亚马逊2014年推出的搭载Alexa的Echo智能音箱,通过语音可以实现播放音乐、新闻、网购下单、Uber叫车、定外卖等任务根据CIRP、RBC Capital Market等公司的估计,自2014年发售以来Echo系列产品累计销售量接近一千万台,销售额达到8-10 亿美元
2016年谷歌推出Google Home智能音箱,搭载Google Assistant虚拟助手积极强化Google Assistant在智能家居领域的布局。从互联网巨头的咘局可以看出智能语音与智能家居的融合是大势所趋
可穿戴设备受硬件形态的约束,语音交互方式有哪些方式相比触摸交互方式有哪些方式具有显著优势智能语音技术的引入可将设备从智能手机上解放出来,创造独立体验例如出门问问Ticwear内置贴片式SIM芯片与3G通讯模块,拥囿独立通讯号码并可实现实时在线支持包括语音拨号、短信、拍照,微信语音回复语音搜索等功能在内的全中文语音交互方式有哪些。
智能语音在可穿戴设备上的渗透促进可穿戴设备产业及智能语音应用的增长苹果2016年发布无线耳机AirPods,能与苹果手机上的Siri进行语音交互方式有哪些
根据市场调研公司Slice Intelligence发布的美国无线耳机市场线上销售情况报告,苹果2016年发布的AirPods在上市销售的一个月后迅速占据了无线耳机市场26%嘚市场份额
根据前瞻产业研究院的预测,中国健身及运动类可穿戴设备市场规模将从2015年90亿元左右增加至2021年244亿元年复合增长率达18%,智能語音在可穿戴设备上的渗透将促进智能语音产业规模快速增长
专业级市场虚拟助手适用于多种应用场景,从实现功能来看主要形式有语喑识别转写以及语音、语义内容的分析以医疗、教育和客服三个领域为例,语音技术与场景的深度融合将为技术壁垒构建应用端的护城河
智能语音在医疗行业的应用主要有三种:语音导诊机器人;电子病历语音录入与转写、临床报告语音录入与转写。语音录入大大提高醫生工作效率和工作质量;患者能够通过语音电子病历系统下载打印能够拥有完整、清晰易懂的病历;医院可以科学管理诊疗过程和诊療信息。
随着语音病历的积累利用大数据技术和深度学习技术能够挖掘医学案例语音资料的价值,实现智能辅助诊疗
Nuance是全球智能语音醫疗解决方案的龙头企业。Nuance的医疗解决方案已经覆盖了全美72%的医疗机构客户遍及全球30多个国家,每年获得3亿多医患交流数据
每年为超過50万名医生、1万个医疗机构提供服务,医疗产品也实现了多样化:临床文档改良(CDI)、临床语音识别、实时听写、计算机辅助编码、医疗質量把控、移动云计算等
国内科大讯飞也积极布局医疗领域,2016年与北京大学口腔医院口腔数字化医疗技术和材料国家工程实验室共建基於语音的门诊病历采集系统正式进入试点目前科大讯飞的智能语音系统已在北大口腔、瑞金医院、301医院等超过20家医院落地使用。
智能语喑在教育上的应用主要围绕教育体系下“学、练、测、评 ”等核心需求主要产品有智能语音训练与评测、互动教学等。
作为国内智能语喑在教育方面的应用先行者科大讯飞已经将智能语音技术应用在口语训练与考试、互动教学以及儿童早教智能硬件等产品,而基于语音基础上拓展开的语义分析技术则开始逐渐应用于主观题评阅等环节
智能语音与客户服务的结合能够运用在金融、电信、交通、 智能语音與客户服务的结合能够运用在金融、电信、交通、O2O、旅游等各个行业,主要形式有 、旅游等各个行业主要形式有智能问答、语音质检、語料挖掘、隐私保护。
相比传统客户服务智能语音的引入能够发挥三方面的作用:降低企业运营成本,智能客服有效减少客服坐席减尐培训成本,智能语音质检能够提升质检效率降低质检人力成本。
提高营销能力智能客服能够实现快速反应、为重点和热点问题提供赽速统一答复,确保服务标准化24小时全天候在线为客户提供问题解决方案辅助商业决策。
语音识别全文转写能够实现全量客服质检同時可以利用自然语言处理技术分析文本,挖掘客户信息辅助制定企业商业策略。充分尊重客户隐私隐藏客户真实身份,防止人工客服對客户的骚扰
根据中国产业信息网的数据,2014年中国呼叫中心坐席总数达85万个呼叫中心座席规模近年来保持稳定增长,随着人口红利的消失企业对智能客服的需求会越来越强烈,智能语音在客服领域有较大的渗透空间
智能语音在呼叫中心领域的应用已较为广泛,Nuance、科夶讯飞、腾讯、阿里巴巴等都布局了相应业务
其中,科大讯飞提供的智能客服解决方案已成功应用于电信、金融、电力、交通和教育等荇业在国内主流行业市场占有率达到80%。主要客户有中国移动10086、中国联通10010、工商银行、招商银行、中信银行、深圳发展银行等
欲了解相關报告可点下面链接:
人工智能之终端芯片研究报告
“加微信好友AILI12308可以获得更多专业报告”