所谓智能语音产业主要指通过语音合成技术和语音识别技术,为用户提供各种服务的产业。一般来说,用户只需要用说话的方式给服务终端发送命令,就能实现相应的服务。这一产业从上世纪六十年代就已经出现,但并不为普通消费者所熟知,消费者对其认知度也比较低。近年来,随着各大科技公司先后推出Siri等智能语音服务,这一服务以及相关产业也开始被普通消费者和投资界所关注。
“您好,我的朋友,到吃药的时间了!”当某个声音在你耳边出现的时候,你可能不会想到,这也许仅是预设好的一段程序。
语音交互是家庭智能机器人中的重要部分。这台机器人可以和你进行语音交流。当你高兴地夸奖它时,他会呵呵地笑出声来,当你和它聊天时,它会根据你的话题说出相关的内容。当然,如果你家里有老人和孩子,它还将扮演一位保姆的角色。为老人提供心理慰藉,与孩子唱歌玩耍,它都是一个最佳的帮手。
只需喊一声“Hi,TV”,电视就可以开启语音控制系统,比如你说“最近天气预报”,然后电视屏幕上就会闪现出最近一周的本地天气情况。随着智能电视功能的日渐丰富和强大,仅依靠一个简单的电视遥控器已经满足不了智能电视的操控需求。
引入语音识别和语音合成技术的智能语音电视不仅能听懂用户说话并作出反应,而且还能“说出话”来。用户凭借语音指令可以轻松完成换台、电视节目查询、网络浏览/搜索、文字输入等操作,而电视能做的,就是根据用户的需求读出搜索到的内容。
未来,在每个家庭网络上所有通过电力运转的设备,都可以被人们的语音控制,比如可以控制室内的灯光、温度等。
在驾驶环境下,用户与车的交流,可以通过对话来实现,说出“想回家”,汽车会根据你家的位置设定好最佳路线,并开始导航。说出“加油站”,几公里范围内的加油站将逐一由车载语音系统播报出来。
在车载环境下,用户的注意力主要集中在于驾驶,人与车的交互必须在不影响驾驶的前提条件下进行,语音识别技术提供了安全便捷的交互方式,用户只需动口,就可以满足在行车过程中的相关需求。
语音操控作为人机沟通的重要手段,拍照、打电话、录像,你只需说出你的需求,它就将在你眼前展现出你想要的结果。
智能眼镜、智能手环、智能手表,这些互联网时代的智能化设备,最大限度地利用了语音控制技术,它将让未来的生活变得不可思议。
“听话”的浏览器离我们并不遥远。或许要不了多久,我们就能抛开鼠标和触摸板,通过声控浏览器完成浏览网页、发送邮件等。比如,你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。
传统的密码恢复机制是回答一些预设的安全问题,如“你的出生地在哪里”等,但这类问题有些时候容易被黑客破解,用户也可能记不起预设的问题和答案,特别是企业员工,就常常因为忘记密码而求助于IT部门。
为此,一家外国公司推出了一项名为FastReset(快速设置)的新服务。该服务可先让员工通过手机或电话注册自己的声纹,一旦员工忘记密码需要重置,只需对着登录界面念一段短语(比方说“芝麻开门”)即可完成。
很多小朋友都有这样的梦想:拥有一个会说话的玩具,就像喜剧电影《泰迪熊》里面的TED一样。
在ToyTalk的官方网站上,这个梦想有了变成现实的可能:小女孩完成家庭作业后,把平板立起来,打开ToyTalk应用,把泰迪熊玩具放在平板摄像头前方,小女孩就能和在平板里“活过来”的泰迪熊对话了!
语音交互对于智能家居最直接的意义在于把智能家居变得真正的智能起来,不管品牌与技术多么的先进,人机交互界面多么的友善,都没有语音交互控制来的简便直接。科技让生活更智能,语音让交互更便捷、快捷。所以,如果智能家居能与语音交互融于一体,那么智能家居产业也许会迎来一次划时代的突破。
用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,只能在相对安静、近距离的环境下使用。
加之中国的语系、方言、口音相当多,再加上中文的多语义性,导致语音识别率能力不高。同时,在语义识别上,也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,与机器进行语音交流,让机器明白你说什么。语音识别是一门交叉学科,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
语音识别技术相当于给计算机系统装上“耳朵”,使其具备“能听”的功能,该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。语音控制功能的实现,与用户的使用习惯高度关联,目前的语音控制功能实现方式可分为近场语音识别和远场语音识别二个大类。
在对音箱等设备进行语音控制时,往往该设备处于播放歌曲的状态。由于麦克风安装在音箱上,麦克风和说话人之间的距离要远大于麦克风和扬声器之间的距离,在这样的情况下,采用内外兼顾的方法进行解决。内部使用特殊的回声消除算法从内部减小噪音对麦克风的影响。另外对于震动带来的非线性干扰,传统的线性回声消除方法失效了,因此可以使用非线性回声消除算法提高内部噪声消除的效果。在外部结构设计方面,使用精心设计的麦克风阵列减震结构,使多个麦克风和它所连接的电路板之间的震动减小到最小,从而最大程度的控制高声强导致的音箱本体震动对拾音的干扰。
近场语音识别需要用户点击启动,并且用户与终端设备的距离比较近,如手机或其他终端设备,可直接借助这些终端设备直接实现控制功能。
远场语音识别,以麦克风阵列远距离拾取的语音数据作为输入数据,通过语音识别的算法将语音信号转写成文字的技术。虽然和近场语音识别技术在原理上是相同的,但是由于音源和麦克风之间的空间距离增大,在声波传播过程中会出现信号强度的衰减和各种噪音干扰,因此需要特殊的语音数据拾取和预处理技术;不同的拾取设备和预处理技术常常会使用于语音识别的声波信号特征发生改变,因此针对不同的远场语音拾取技术,需要对语音识别引擎进行定制化适配和优化。
当语音信号在传播过程中有所衰减,影响采集信号的强度和分辨率,使用的灵敏度非常高的指向性麦克风,同时将麦克风的参数调整到适合远场语音数据的模式,可以最大限度采集清晰的远场语音信号。语音指令声波在传输过程中受到周围噪音的污染,降低声波信号的信噪比,使用定向波速成形技术,抑制方向外的噪音,从而减少噪音对语音信号的干扰。在一个房间里,麦克风拾取的声波不仅仅直接来自于音源,还有音源发出后经过墙壁反射的迟到的声波,形成声音的残留,造成混响。利用多个麦克风采集的数据,通过多通道回声消除算法,将这些不同时间达到的声音数据分离开来,从而消除了混响对声音数据的影响。
在远距离用语音进行操控的时候,声音可能来自不同方向的不同人。因此首先要确定哪些是发指令的声音,哪些不是。使用的麦克风阵列波速成形算法,将360度空间垂直划分成若干区域,每个麦克风负责检测一个指定的区域。当某个空间区域里面检测到有唤醒词出现时,对应于该空间区域的麦克风拾音功能就被增强,其他区域的麦克风拾音就被抑制。从而实现对声音进行有方向有角度的拾取,避免了周围电视机里的说话声音、其他人交谈对语音指令的影响。
语音唤醒,是指通过含有特定唤醒词的语音输入来“触发”语音识别系统以实现后续的语音交互。由于功耗等方面的限制,智能设备很难24小时都保持在激活状态;因此,如果要在家里自由地控制智能家居设备,还需要有即时“唤醒”功能,也就是给智能设备加入“语音唤醒”技术。通过该技术,任何人在任何环境、任何时间,无论是近场还是远场,面向设备直接说出预设的唤醒词,就能激活产品的识别引擎,从而真正实现全程无触控的语音交互。
通过上面的介绍,相信大家对智能家居语音控制技术有了一定的了解,对智能家居语音控制技术的背景和功能有了深刻认识。生活在当代的我们,除了追求物质上的温饱、衣服上的温暖同时,还更加追求于精神上的方便、轻松、舒适。因此我们要不断与时俱进,掌握新的智能技术。相信在不久的将来这种智能家居会成为你生活中的好伙伴,好帮手!