“嘿,Siri”是怎么实现的?苹果公司专门发了篇文章来介绍 (嘿Siri是啥意思)
整理分享“嘿,Siri”是怎么实现的?苹果公司专门发了篇文章来介绍 (嘿Siri是啥意思),希望有所帮助,仅作参考,欢迎阅读内容。
内容相关其他词:嘿Siri是啥意思,嘿Siri是只能一个人唤醒吗,嘿Siri是什么时候有的,嘿siri是谁都可以喊出来吗,嘿Siri是什么歌,嘿siri是什么牌子的手机,嘿siri是什么牌子的手机,嘿siri是什么意思,内容如对您有帮助,希望把内容链接给更多的朋友!
“嘿,Siri。你是怎么做到聪明的?”、“我只是凡事都尽力而为” 这并不是一句玩笑话,对于Siri来说,它的确每天在尽力提供着服务。 两天前,苹果在公司机器学习博客上发布了最新的一篇文章,详细解释了“嘿,Siri”这个随时唤醒智能助手的功能是如何实现的。 年6月,苹果带来了苹果iOS8*,新增了“嘿,Siri”功能,可以免按键来唤醒语音助手Siri。一句简单的「嘿Siri」就可以激活,让Siri为你设定闹钟,查看日历。 在最新的文章中,苹果详细地介绍了如何让硬件芯片、底层软件还有网络服务相结合,在最新的iPhone,iPad,还有AppleWatch上实现“嘿,Siri”这个功能。 为了让用户可以随时唤醒Siri,苹果在运动协处理器中集成了非常小的语音识别装置,这个装置一直保持运行,并等待用户说出“嘿Siri”。当识别到这两个单词后,Siri会将后面的语音处理为命令或查询。 iPhone或AppleWatch上的麦克风会以每秒1.6万次的速度将你的声音转化为一连串的瞬时波形样本。每次将大约0.2秒的音频输入到声学模型,神经网络会将这些声学模型转换为概率分布,并运用时间集成来计算这个声音是「嘿Siri」的可信度。 苹果已经设定了信度分数的几个敏感阈值,如果分数足够高,Siri就被激活,并开始处理用户的命令或查询。 但并不是说可信度的分值低于阈值的话,Siri就彻底不理你。 如果分数超过了最低阈值,但没有达到激活的阈值,譬如你的声音有口音或者不清楚,这时设备会进入「敏感模式」,并连续几分钟。这样当用户再次重复「嘿Siri」时,可以更快地激活。 虽然变得更敏感,但是为了为了减少误识别或者意外激活Siri的情况,我们在进行初始化「嘿Siri」的时候,会被要求连续说五次「嘿Siri」。 这样在初始化完成后,用户的声音会转化成波形并送达到Siri的服务器里。在运用过程中,苹果会记录不一样环境中远近激活“嘿Siri”的情况,比如在厨房中、车中和卧室中等不一样距离的情况。 与此同时,苹果还制定了一些与语音相关的规范,发音接近Siri的「Syria」(叙利亚)和「serious」(严肃的)等词语将被放在上下文中进行识别。 连续等候唤醒会不会增加耗电情况和占用内存,影响定位器正常运用?苹果也做出了解释。 为了避免主处理器一直处于检测触发词的状态,iPhone中的AOP(一种小且低能耗的处理器)会运用其一小部分处理能力来运行一个探测器和一个小版本的声学模型。当信度分数超过最低阈值时,AOP会「提醒」主处理器进行下一步*作。 而电池更小的AppleWatch在整合Siri时需要考虑的挑战更多。为了不影响手表的电池续航表现,AppleWatch的「嘿Siri」*只有在手表启动时才会运行,它可以检测到手腕抬起的手势。只有用户做出这样的手势,Siri才可能被激活。 当然“嘿,Siri”的实现还有一些复杂的算法介绍,如果有兴趣,可以在这里看到详细的内容。 年4月,Google推出了看上去非常科幻的GoogleProjectGlass透视。它可以把信息显示在*右上角的小屏幕上。用户可以对着透视的麦克风说“OK,Glass”,一个菜单就会自动出现。 这是语音唤醒功能第一次的公开展示。 年,收购了摩托罗拉的Google推出了MotoX,这款安卓*一个亮点就是可以小时全程等候唤醒,提供GoogleNow服务。 Google打造了2颗低功耗SoC芯片来实现这个功能,专门等待着用户随时输入语音命令。 当时Google为了功耗考虑,并没有采用语言模型、数据分析等方式,运用最简单直接的分类方式在用户输入语音流中寻找“OKGoogle”这几个字。 随着智能助手在各种软硬件结合上带来的功能提升,语音识别技术也在快速发展,准确性已经不是语音助手追求的目标,更加流畅和拟人成为现在研究的重点。 新版的Siri在苹果iOS获得提升。Siri的语音依旧是用语音合成技术来做,但在人工智能算法、语音内容上做了改进。 根据Siri团队的说法,苹果公司从数百位候选人中筛出了一位“新的、有语音天赋的女性”,让她读-小时的书、笑话、导航和问答等文本内容,并录制下来。Siri团队希望新的语音内容可以帮助改善Siri语音的流畅度。 微软在今年8月推出了第五代微软小冰,启用全新的“生成模型”来生成对话。在这个模式下,小冰说的每一句话都有可能是完全生成的。在表达方面,没有人工干预的情况下小冰还可以准确识别“生长”和“伸长”中多音字的正确读法。