法律和法律的语音识别和转录的AI

丹尼尔Faggella
头像

Daniel Faggella是Emerj研究的首脑。丹尼尔呼吁由联合国,世界银行,国际刑警组织和龙头企业,丹尼尔是AI对商业和政府领导者竞争战略影响的全球追捧。

法律和法律中的语音识别和转录

你是否曾因为Alexa或Siri总是不能理解你的口头请求而感到沮丧?如果是这样的话,那么你就已经明白我们的客人所面临的问题了。他是Verbit.ai的联合创始人兼首席执行官汤姆·利文。

Verbit是一家专注于人工智能转录的公司,特别是针对法律和法律空间。他们使用的组合机器学习和人类专家在不同的噪音环境中转录音频,在不同的噪音环境中,用不同的解释,给予人们更准确的结果,并希望有助于处理规模。

在这一集里,Livine解释了五种不同的因素,它们有助于正确的转录和让人工智能在这一过程中提供帮助。此外,Tom还谈到了一些关键因素,在为商业带来价值方面,转录将发挥作用。

订阅我们的人工智能产业播客使用您最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
Stitcher-Podcast.

客人:汤姆·蒂夫恩,联合创始人和首席执行官 -verbit.ai.

专业知识:企业家精神/技术启动生命周期

简要认识:Livne拥有耶鲁大学工商管理硕士学位

采访亮点

(03:00)让我们了解今天转录的可能性?

TL:想想这个播客。我们正在录制这一集,让我们假设我们想要获得专业成绩单。当我参考专业成绩单时,我的意思是100%的准确性。它今天完成的方式,它是完全手动,对吧?人们正在从头开始听,键入它,它会产生有限的规模和低毛利率。

另一方面,语音识别技术只能达到70 - 80%如果我们在法庭上只提供自动记录,这是不够的。因此,我们在Verbit解决这个问题的方法是采用机器-人混合的方法。

所以我们有自己的语音识别技术,是我们自己研发的。我们的技术有模式注册。我们有一个由九个博士组成的团队在研究它。我们有来自全球各地的自由转录员的网络和平台,他们接收机器的自动输出,并对其进行修正,使其达到100%。

所以关于什么是可能的,我提到了该技​​术不存在。和它的原因,我会解释原因。几乎没有影响语音准确性的参数,这就是机器的原因。并且。在我的角度来看,即使在现在10年内,我们也无法达到100%的机器。

因此,影响语音识别准确性的参数是语言模型。想想看,如果你去看法律抄写或医学抄写,有很多特定的行话和特定的词与这个用例相关。对于机器来说,这真的很难做到,也很难得到人名,也很难得到特定的术语,所以这影响了精确度。

第二件事是声学模型。所以如果你在一个开放的空间讲话,或者你通过电话讲话,或者你在法庭上讲话,等等,所有这些不同的声学模型也会影响演讲的准确性。

第三个问题,你们可以听出来我的以色列口音很糟糕,所以口音通常会影响语音转换文本的准确性。所以你需要调整它来训练机器适应特定的口音。然后是第四种:背景噪音。人的重叠,所有的背景噪音,都在损害机器输出的质量。

第五个是说话的节奏。你说得非常非常快或者你说得很慢,这也会影响准确性。

最后一个是措辞。如果有人说话,年轻人,孩子或老人,这也是影响讲话准确性的特定措辞。所以如果你在不同的用例中组合所有的参数,这是非常非常困难的,几乎不可能正确地得到所有这些。除非您有这个特定用例的特定数据,否则将针对这个特定的客户组合所有这些参数,这将使您获得90%以上的准确率。

我们在Verbit的工作不是要取代人类,而是要帮助人类更好地工作,让他们的生活更轻松。

(08:30)这些是在这里有挑战性的因素。我想知道这些中哪一个是最难以忍火的。

TL:我认为每一个非常艰难的在他们自己的独特的方式,但是如果你问我我认为所有声学模型和背景噪音,能够识别不同的扬声器,等等,这是很难的,要适应不同的声学环境和……录音的质量控制。

能够适应相应的算法,这是非常具有挑战性的,和所有的神经网络训练的能力,仍然是很难理解有时当你把这台机器有坏记录和坏声…我认为这是最艰难的一个。

(10:30)换句话说,即使算法训练的人类直觉仍然有特殊性的人,仍然存在遗留的地方......采取差的音频并填补空白,仍然是你认为人类的东西边缘?

TL:我确实这么认为,因为他们有能力一遍又一遍地听,并获得输入来理解所说的内容。

所以我猜一个法庭…永远不会满意的机器,只是因为他们是法律规定的100%(精度),这是需要大量的时间和信仰上的飞跃,直到他们能够相信这台机器能够得到完美的输出为他们提交…你有谷歌,你提到了百度,他们正在构建非常通用的东西。它应该适合每个人,因为我们采取了更多的垂直方式,这让我们可以为任何客户量身定制,并使我们获得更好的结果。

因为在一天结束时......什么是语音识别技术?语音识别正试图确定已经说过的,并且存在非常复杂的统计模型,以节制排名,在向您展示最佳猜测的最佳猜测中所熟悉的概率。你有很多参数,以便以最佳方式猜出那里的最佳方式。这实际上是因为你认为有血迹作为那里的语境。当您在通用引擎中,语音识别引擎时,您只需将输入,即音频,输出将是基于同一算法的文本,每个算法都用于语音识别。

如果您考虑有关博语......您需要使用这种上下文层,为您提供[信息如]所讨论的人,您有这种重音,这是他正在谈论的,法律空间,在这个声学环境中的行话。因此,使用所有这些参数,以便在执行此操作之前在从语音到文本转换中提供更好的准确性。这是帮助我们的东西,因为我们不是常规的,我们正试图非常量身定制。

(14:30)当你想到我们现在可以从现在开始的五年来做些什么,你现在不能通过转录,你最希望在改进方面取得实际牵引力的地方?

TL:所以我们正在考虑它的方式是术语,只要转录就会很多。我们认为转录刚刚聪明,我的意思是什么?想想...电话的用例?当您有公开交易公司......在季度的季度结束时与分析师谈论公司结果。

想象一下有一个自动的转录,然后你已经有了节奏数据你可以创建可操作的链接和意图,你知道比如说苹果在谈论iPhone X,所以你可以在你的抄写中识别出这就是你所说的,你可以点击,直接去网站上购买iPhone x,你可以做一个比较,把你自动转录的所有数字,做成图表,可视化,并与过去的结果进行比较因为你已经有过去结果的转录了。并从数据中获得更多的见解。

因为我们允许人们从他们的语言资产中获得更多的价值,所以所有这些口头交流和信息的交换,我们想让我们的客户获得更多的价值。

(17:30)你能谈谈转录的业务价值吗?

TL:想想一旦你有一个证人的检查,那么你可以看到他过去的证词是否违背自己?也许他躺在[所以我们可以尝试分析他的声音,以实现一些文本。您可以提取许多事情,因此语音和转录是第一层。你可以在很多事情上做很多东西。我们认为转录市场非常非常大。一旦我们能够提高准确性,我们就能允许更多的人在口头资产中获得更多价值。

订阅我们的人工智能产业播客使用您最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
Stitcher-Podcast.

标题图片来源:环球邮报

保持领先于AI曲线

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

订阅《人工智能优势》通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅镜像
保持领先于机器学习曲线

加入超过2万名专注于人工智能的商业领袖,并接收我们每周发布的最新人工智能研究和趋势。

感谢您订阅EMERJ“AI Advantage”时事通讯,请检查您的电子邮件收件箱进行确认。