人工智能语音识别-目前的公司,技术,和趋势

艾茵·德·耶稣
《阿凡达》

Ayn在Emerj担任人工智能分析师,涵盖各行业的人工智能用例和趋势。她曾在埃森哲担任多个职位。

AI用于语音识别 - 当前公司,技术,以及它的头部1

语音识别是可以识别口语的技术,然后可以转换为文本。语音识别的子集是语音识别,这是一种根据声音识别一个人的技术。

Facebook,亚马逊微软,谷歌和苹果-这五家公司世界顶级科技公司- 已通过谷歌主页,亚马逊回声和Siri等服务为各种设备提供此功能。

随着大量的语音识别产品上市,我们决定研究语音识别的业务含义。通过研究这些公司的语音识别技术,我们试图为读者解答以下问题:

  • 语音识别是如何推动这些公司的商业价值的?
  • 他们为什么要投资语音识别?
  • 这项技术可以在几年内看起来像什么?

我们从科技巨头开发语音识别技术的背景入手。接下来是脸书、亚马逊、微软、谷歌和苹果的语音识别技术。

发展语音识别技术的潜在原因

科技公司正在识别语音识别技术的兴趣,并正在努力制作语音识别标准对大多数产品。这些公司的目标之一可能是让语音助手围绕上下文和内容更准确地说话和回答。

研究显示,具有语音识别能力的虚拟助理的使用预计将在明年继续增加,从2017年的6050万美国人增至2018年的6240万。到2019年,预计将有6660万美国人使用语音或语音识别技术。

为了建立强大的语音识别体验,它背后的人工智能必须更好地处理挑战如口音和背景噪音。今天,发展自然语言处理神经网络技术已经改进了语音和语音技术,以至于今天据说与人类相提并论.例如,在微软语音技术的错误率已被记录在5.1%由公司,谷歌报告将其汇率降至4.9%。

研究公司的研究和市场报告说语音识别市场将于2023年的价值180亿美元。随着语音识别技术变得更大,更好,研究估计它可以纳入从手机到冰箱到汽车的一切。一瞥在年度上看到的CES 2017在拉斯维加斯展示,其中具有声音的新设备已启动或宣布。

为了深入了解语音识别领域的领导者如何进行比较,我们制作了一份清单,重点列出了每一个领导者及其特点。

虽然所有应用程序都具有非常相似的特性和集成机会,但我们基于我们的研究点作为每个主要焦点区域的研究组成了它们。我们将在这件作品中注明的两个焦点区域是:

  • 智能扬声器和智能家居:重点是亚马逊,谷歌和微软
  • 移动设备应用程序:强调苹果的Siri和Facebook的语音识别集成。

智能扬声器和智能家居

亚马逊Echo和Alexa

直到近期,亚马逊的语音动力虚拟助手Alexa仅适用于亚马逊制造的商业产品。但是,亚马逊Web服务,已经制作了语音助手可提供给其他公司.亚马逊与英特尔合作发起一个Alexa语音服务设备软件开发套件这可能允许第三方公司将Alexa功能嵌入其设备。这个合作伙伴关系是亚马逊的“Alexa无处不在“ 战略该公司表示,此举旨在让Alexa背后的技术无处不在,为各种智能和可穿戴设备的制造商提供服务。

CES 2018在拉斯维加斯,索尼,Tivo和海信揭开了综合Alexa的智能家居技能,使客户能够通过语音控制电视。家用电器制造商如惠而浦,三角洲,LG和海尔也增加了Alexa的语音识别技能,以帮助人们从电视和微波炉到空调单位和水龙头的所有方面。根据这一点亚马逊Alexa网站上,超过2500个品牌的13000多个智能家居设备可以用Alexa控制。

包括其他公司添加的功能,Alexa现在也随附进来30000技能.苹果有Siri,谷歌在智能手机和扬声器中内置了未命名的虚拟助手,而亚马逊将Alexa集成到了名为Echo的智能扬声器中。弗雷斯特预测,亚马逊不会透露最终的销售额2200万回声单元到2017年底。Forrester表示,达到这一销量,将使Echo成为美国销量最大的语音助手。

要为初学者启用Alexa技能,用户可以导航到Alexa应用程序的技能部分,以查看可用功能的目录。一旦用户选择了技能,点击“启用技能”。用户还可以通过语音启用技能。

作为一个虚拟助手,亚马逊声称亚马逊提供Alexa的业务可以帮助专业人员管理他们的计划,跟踪任务,并设置提醒。集成到诸如会议控制台等设备时,该应用程序能够通过扬声器的声音控制会议室设置。Alexa的设备还可以充当较小的会议室中的音频会议设备,或在较大的房间中的控制设备。

罗技建造Alexa进入其和谐远程单元,以控制家庭娱乐系统和智能家居设备。这远程设备被激活当顾客说“Alexa,打开电视”或“Alexa,播放DVD”等简单指令时。然后Alexa将请求发送给Harmony, Harmony通过红外线、蓝牙或IP将请求转发给家庭设备。

据亚马逊称,原型团队由罗技(Logitech)的一位高级软件架构师组成,他花了两个小时将Alexa集成到Harmony中。一旦原型准备好了,罗技的各个团队就开始准备启动技术。据罗技公司称,亚马逊报告称,从原型机到生产级技能的构建只花了不到两周的时间。在本案例研究中没有提供其他细节或数字。

整合alexa的其他产品包括armarm.com,Ecobee和Haiku Home。

在更基本的水平上,亚马逊也提供录制,一种自动语音识别(ASR)服务,使开发人员能够在他们的应用程序中添加语音到文本的功能。一旦语音功能集成到应用程序中,最终用户就可以分析音频文件,并收到转录的语音的文本文件。

Hassan Sawaf是亚马逊网络服务人工智能总监,他领导了与人类语言技术相关的服务和技术计划的建设机器学习.他在德国亚琛大学博士学位赢得了计算机科学的博士学位,专注于言语和语言处理。

谷歌家庭和助理

Google Assistant是Google的语音激活的虚拟助手,其技能包括通过Google Pay发送和请求付款,或者对其像素2 XL电话进行故障排除的任务。

助手可在Android或iOS手机,智能手表,Pixelbook笔记本电脑,Android智能电视/显示器和Android自动启用汽车等设备上提供助理。用户还可以在图书馆等地方时键入助手的命令。

对于儿童和家庭,谷歌助理提供50个与语音相关的游戏.例如,孩子可以命令助手和他们一起玩空间琐事。

谷歌和目标也有合作,让购物者可以通过Assistant购买产品。

携带Assistant的谷歌智能音箱的频谱包括首页.谷歌声称,这款音箱可以与索尼、飞利浦、LG和东芝等150多个品牌的5000多款智能家居设备兼容,包括咖啡机、灯和恒温器等。

2018年第一季度据报道,谷歌销售了320万家的家庭和家庭迷你设备,优于250万的Alexa-Powered Echo设备。两家公司都没有发布官方数据。

为了使助手更泛滥,谷歌开通了软件开发套件行动,它允许开发人员将声音构建到自己的支持人工智能的产品中。

下面的3分钟视频显示开发人员如何使用Google助手界面创建自定义设备操作,并允许用户使用其语音与设备进行交互。

谷歌最近还推出了投资项目助理该公司投资于致力于推进语音和辅助技术(无论是硬件还是软件)的初创公司,并专注于旅游、游戏或酒店业。

根据该计划,谷歌将在技术、业务发展和产品领先方面提供支持。这些初创公司还将首先使用Assistant的新功能和程序;谷歌产品的积分,包括谷歌Cloud;以及潜在的合作营销机会,根据谷歌。

有一家公司加入了这个项目Botsociety,使用Google Assistant,Facebook Messenger和Slack设计聊天应用程序。

Botsciety在其网站上没有案例研究,而是来自Microsoft,Hubspot,Finn.ai,Convrg和Black Ops的推荐,该公司将作为其客户的客户索赔。

蛇嘴梗也声称为AXA,埃森哲和普氏透视。

除了吐鲈,其他创业公司在这个项目中有加油时刻埃德温还有脉冲实验室

另一个谷歌演讲产品是AI驱动的云语音到文本工具使开发人员能够将音频转换为文本深度学习神经网络算法。该工具支持120种语言,支持语音命令和控制、从呼叫中心转录音频、处理实时流媒体或预先录制的音频。

下面的3分钟视频显示开发人员如何创建语音命令。第一步是在JavaScript对象表示法中记录音频并在语音中创建文本应用程序编程接口(API)的请求(JSON) 格式。然后,开发人员将JSON请求发送到语音API并等待响应。

Ashwin Ram是谷歌AI的技术总监。在谷歌之前,他曾在佐治亚理工学院举行的计算机学院曾担任辅助教授六年。他还担任Amazon的Alexa Ai高级经理两年。阿什温举行了耶鲁大学计算机科学博士学位。

COMELTY CORTANA

微软还首次发布了自己的声控虚拟助手命名Cortana2017年10月。

Cortana家用扬声器和移动设备应用程序提供用户提醒;保持笔记和列表;据Microsoft称,可以帮助管理日历。它可从Apple Store和Google Play下载,可以在个人电脑,智能扬声器和手机上运行。

在一个叫做调用Cortana的程序可以帮助用户语音控制音乐、排列播放列表、调高或调低音量;以及停止或启动轨道。然而,它不支持Spotify之外的主流音乐流媒体服务。微软表示,这款智能音箱还能回答各种问题;拨打和接收Skype电话;并查看最新的新闻和天气。

在个人电脑上,微软声称Cortana可以通过Office 365、Outlook.com和Gmail账户管理用户的电子邮件。微软称,Cortana的客户或技术合作伙伴包括达美乐(Domino’s)、Spotify、Capital One、飞利浦(Philips)和FitBit。

作为一个技能示例,用户可以使用Cortana连接Domino 's Pizza来下订单,重新订购他们最近的Domino订单,并使用Domino 's Tracker跟踪他们的订单。用户可以通过登录Domino的配置文件或注册Domino的配置文件来授权该技能。

首都人表示,其用户还可以从Cortana扬声器管理他们的帐户。要使用此功能,Capital One客户必须通过单击“连接”来连接其帐户首都一个应用程序界面在Cortana的网页或移动平台上。一旦他们接受条款和条件,他们会被提示输入您的第一资本的用户名和密码。

正如下面55分钟的视频所解释的,开发人员希望创造新的Cortana技能对于企业来说,必须首先设置开发环境,如云资源、计算机上的开发工具、Android或iOS移动设备或Harman Kardon Invoke speaker,以及Cortana应用程序本身。

一个伙伴关系Cortana和Alexa.正在进行中,允许亚马逊的智能扬声器在Cortana的帮助下访问Microsoft的Office套件。相反,微软表示,用户可以访问Alexa的巨大技能和智能,并且能够在亚马逊购物。项目发布日期尚未公布。

下面的4分钟视频演示了Cortana和Alexa在一个设备中的集成。要在两种技术之间导航,扬声器必须讲述虚拟助手的名称并发出技能。可以要求Alexa激活Cortana,反之亦然。

微软语音识别技术的核心是语音文字转换接口,将音频流归还文本。这是创建Cortana,Office等Microsoft产品的相同技术。微软表示,该服务识别出言论结束,并提供格式选项,包括大写和标点符号,以及语言翻译。

人工智能和微软研究执行副总裁Harry Shum,导致公司的Cortana和Bing的总体AI战略和举措。他在Carnegie Mellon大学计算机科学学院获得了机器人学的博士学位。

移动设备应用程序

Siri由Apple.

当苹果公司第一次把Siri集成到2011年的iPhone 4,虚拟助理连接到一系列Web服务,并提供语音驱动功能,例如通过Taximagic订购出租车,从Stubhub中拉起音乐会详细信息,从腐烂的西红柿寻找电影评论,或者通过来自Yelp的餐厅数据进行筛选。

今天,Siri的能力包括翻译、播放歌曲、预订车辆和在银行账户间转账。苹果公司表示,由于其机器学习能力,它可以用新的命令编程。

虽然Siri在Google Assistant和Amazon Alexa领先于奥克斯,但仍有对其准确性的担忧在回答命令或问题时,与市场上的其他技术相比。

在一个2分钟的视频中,CNET.com测试了针对Google Assistant和Amazon的Alexa的Siri。在一点时,Alexa更准确且专门用于命令。在我们的研究中,我们还发现了更长的视频评论,显示SIRI落后于对所有三种语音技术提出的问题的准确回应。

2018年6月,Apple发布了Siri的变更,推出了新的专用快捷键用户可以下载的应用程序。通过这些变化,Apple声称用户可以通过语音命令,文本或点击命令Siri执行更多操作。它目前在iPhone,iPad,Apple Watch和HomePod上提供。该操作包括连接和激活第三方应用程序功能,例如Tile应用程序来查找密钥,或从Kayak应用程序获取旅行信息。

Apple表示,用户还可以使用快捷方式来远程激活或控制恒温器和风扇等智能家庭小工具,或保存播客或无线电台。根据Apple的说法,用户也可以向家庭向家庭成员通知家庭成员,并根据苹果公司进行旅行措施。

下面这段2分钟的视频演示了用户如何用Siri创建播放列表快捷方式。

根据视频,Siri要求用户配置播放列表快捷方式的参数。这可能涉及要求Siri融入最近播放的音乐或流派。该应用程序还询问用户进一步自定义其他设置,例如将在主屏幕上显示的图标。用户开始创建此快捷方式通过给Siri进行口头命令,例如“让我成为播放列表”。

据称,Siri快捷键能够读取用户的上下文数据,比如日历事件和GPS位置,从而提供新的快捷键。例如,有一条捷径。如果用户在某个特定日期安排了看电影的时间,Siri可以被要求进入“请勿打扰”模式。用户的时间和定位器数据确定用户确实在剧院内。另一个例子是一个报告的快捷方式,它可以根据日历事件和设备位置通知另一个联系人用户正在运行。

第三方开发人员可以通过中创建和集成快捷方式进入自己的应用程序诗丽吉王后.有些人已经创建了一个网站,他们创建的捷径可以是共享与其他用户。

其他公司已经使用过Siri为自己的事业。其中一个是Claralabs.Clara是Siri虚拟助理技术的改版。

ClaraLabs管理层意识到,他们花了9个多小时,平均发了135封电子邮件来安排和重新安排他们和招聘人员之间的27次会议,总共18次员工日程安排。据苹果公司称,他们曾向苹果公司寻求帮助,打造其虚拟助手,该助手可以通过简单的语音命令安排招聘人员的面试,以及与公司利益相关者的会议。

在一个ClaraLabs博客据ClaraLabs的收入主管布里安娜·伯吉斯称,克拉拉帮助她的公司安排了与14家公司的27次会议,这几乎省去了9个小时的写和发送日程安排邮件的时间。

其他使用Siri的企业包括Kasisto和DigitalGenius。

John Giannandrea是Apple的机器学习和AI战略的主旨,在那里他领导核心ML和SIRI技术的进步。在此之前,他在谷歌高级副总统八年,他领导了机器智能,研究和搜索团队。他赢得了苏格兰斯特拉斯卡莱德大学的计算机科学学士学位,他被授予了博士学位荣誉的成因。

Facebook语音识别项目

虽然Facebook已经扩大并提高了其面部识别能力,但它也购买了wit.ai.这是一家提供自然语言开发工具的公司。

在收购的时候,Wit。艾未未成立16个月。自从收购之后,Wit。人工智能声称其语音识别技术已经被160000个开发者并集成到移动应用程序,机器人,可穿戴设备和智能家用电器,如恒温器,冰箱和照明。

下面的视频展示了Wit。人工智能语音识别集成到Nao机器人中,协同使用筹码允许开发人员创建动画、行为和对话框的程序。根据视频,Wit。人工智能使Nao机器人能够通过语音指令执行诸如行走、握手和安排日程等任务。

公司在a中索赔博客该平台将保持开放,这可能表明Facebook热衷于广泛采用。

今天的Facebook有这个能力自动字幕视频广告通过语音识别。下面的视频解释说,在视频广告中添加字幕可以让Facebook用户在向下滚动新闻feed时看到广告的主题。Facebook的广告商可以通过进入Power Editor,并根据指示选择“自动生成”来添加字幕。

Facebook还收购了眼睛2014年,该公司以20亿美元的价格收购了这家虚拟现实头盔制造商。2017年3月,Oculus宣布成功集成语音和语音识别使用户能够轻松地在虚拟现实中导航。该应用在Rift和Gear VR头盔上都有英文版本,可以让佩戴者在Oculus Home上进行语音搜索,以导航游戏、应用和体验。

下面的视频显示了Oculus耳机用户如何讲语音命令,从“嘿Oculus”开始,并说明“查找”,“取消”,“启动”等简单指示。

2013年,Facebook聘请纽约大学的扬·勒昆(Yann LeCun)领导Facebook人工智能研究小组。欧洲杯网投网址在纽约大学,LeCun研究和教授机器学习、人工智能、数据科学、计算机视觉、机器人技术、计算神经科学和从数据中提取知识长达15年。

最后的想法

55亿美元语音识别行业已预测以2016年至2024年的11%的速度增长。

这项技术以转录应用的形式,在其他一些较小和不太知名的公司中得到了很好的应用。目前在医疗保健,医疗专业人员使用演讲来发送文本转录应用程序,如多贝为病人创建电子医疗记录。

执法合法的行业、公司等细微差别提供准确和快速的文件记录的转录应用程序是一个关键的需求,转录也用于记录事件报告。在媒体中,记者使用转录应用程序,例如记录作为辅助更准确的新闻报告的努力记录和转录信息的工具。在教育领域,Sonix帮助研究人员转录他们的定性访谈。

谷歌、亚马逊、微软、苹果和Facebook这五家提供语音和语音识别功能的领先科技公司中,类似的功能主要围绕日程安排、提醒、管理播放列表、与零售商联系、管理电子邮件、订购食物和在线搜索。

这些都是在移动,个人电脑上提供的,并且在他们自己的品牌家用扬声器中提供。亚马逊的Alexa正在Echo上,Apple的Siri在HomePod上,Google Assistant在Google Home上,微软的Cortana正在调用。只有通过Oculus虚拟现实耳机和视频广告上的字幕提供语音识别能力,才能从此趋势分歧。

虽然苹果是这一领域的小型拖车,但Siri已被证明比亚马逊的Alexa和Google Assistant更聪明,与其他人相比有限。在一般知识方面,a研究由近5000个问题组成的谷歌Assistant是四个应用程序中最聪明的。

但是在技能方面,一个单独的报告展示Alexa在1719年的25,785年,谷歌助手和235年的Cortana展示了最多的技能。Siri不包括在本报告中。这些公司可以归因于这些应用程序的业务版本的越来越多的技能。软件开发套件(SDK)已为开发人员提供,使启动和小企业能够为客户构建定制技能。

以下是我们如何相信这些公司在业界竞争的情况下基于我们的研究:

  • 谷歌设立了助理投资计划来为初创公司提供资金,目的是推进言语和语音识别技术。
  • Facebook聘请了一位人工智能行业专家,并收购了几家语音识别初创公司。
  • 微软与亚马逊合作,可能加强了Cortana的生存的机会。

标题图片来源:Szifon

保持领先于AI曲线

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

订阅《人工智能优势》通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
零售作弊表中的AI

在我们8页的小抄中发现零售和电子商务行业的关键人工智能应用和相关数据科学术语。

谢谢你!你的AI在零售小抄被发送到你的收件箱。