用于视频搜索和视频教育的机器学习-工作原理

安德耶酥酒店
阿凡达

Ayn在Emerj担任人工智能分析师,涵盖各行业的人工智能用例和趋势。她曾在埃森哲担任多个职位。

人工智能用于视频搜索和未来的YouTube

事件摘要:哎,特别是自然语言处理,使人们更容易以更深入、更有效的方式和更大规模地理解文本作为媒介。有了视频,情况就完全不同了。人工智能已经被用来提供帮助从事视频媒体的行业.然而,在视频中搜索内容更具挑战性,因为视频不仅仅是声音和声音,它还是屏幕上移动和静止图像的集合。人工智能如何克服这一挑战?

在本期节目中工业中的人工智能在播客中,我们采访了VideoKen的首席执行官兼联合创始人Manish Gupta博士,以及班加罗尔国际信息技术研究所的Infosys讲座教授,讨论随着机器学习越来越融入视频搜索过程,视频搜索的未来。古普塔博士谈到了视频是如何变得更易于搜索的,并讨论了他自己对未来的预测。他还预测,随着人们继续搜索更具体的视频内容,机器学习将允许Youtube做些什么。

我们的内容领先,拉格哈夫巴拉德瓦,欢迎加入我们的访谈。

订阅我们的人工智能产业播客使用您最喜爱的播客服务:

itunes播客
响亮的播客
谷歌播客
斯蒂克播客

嘉宾:Manish Gupta博士,联合创始人兼首席执行官,维奥肯

专业知识:高性能计算、编译器、分布式系统、虚拟机优化

简要认识当前位置古普塔博士还是班加罗尔国际信息技术研究所Infosys基金会的客座教授。此前,他曾担任施乐印度研究中心的副总裁和董事。他在IBM担任领导职务,包括IBM印度研究总监和IBM印度/南亚首席技术专家。作为IBM T.J.沃森研究中心的高级经理,古普塔博士领导团队为Blue Gene/L超级计算机开发软件。

他在伊利诺伊大学厄本那香槟分校获得计算机科学博士学位。他与他人合著了75篇论文,在谷歌学者杂志上发表了6000多篇与高性能计算、编译器和虚拟机优化相关的引文。古普塔博士还获得了19项美国专利。

采访中强调了

(3:13)在商业环境中,人工智能在视频数据中扮演着怎样的角色?

马尼什·古普塔:视频功能强大,但往往不透明,不像文本,你可以快速可视化。你通常得从头到尾看一遍才能明白内容。但是人们没有耐心看一段30分钟的信息视频。

VideoKen是查看一类视频,如讲座、信息视频、演示和培训。我们的出发点是将诸如目录表和术语表等特性自动构建成视频。我们利用人工智能技术分析视频内容。在视频中成千上万的单词中,哪一个是最重要的?

(6:30)有图像分析吗?

MG:对特别是对于目录,我们感觉信息视频中的视觉数据,特别是讲座非常丰富,比我们从音频中获得的数据丰富得多。我们的应用程序识别视频的哪些特征包含视觉上丰富的文本。这在人工智能中是可能的,这是一个分类问题,该技术试图识别产品特征。它是否有丰富的文本信息?一旦确定,您将必须识别突出的文本。

以幻灯片形式的讲座为例。主题的更改通常发生在幻灯片边界处。那部分信息非常丰富。应用程序从这一部分中提取重要的单词。更丰富的内容也来自这些标题。

(9:00)专注于为视频开发AI,需要找到信息视频的共性,比如讲座和幻灯片。你如何训练这种视频的算法?

MG:我们在起点,就像一本教科书。但你可以对演讲的不同部分进行分析,发现其中涉及的概念。我们可以从音频中得到一些观点。不同的老师有不同的转换话题的方法。

(09:55)你必须找到一套新的模式来训练新的教学模式的算法。

MG:(在主题或幻灯片之间)通常存在较大的差距或沉默。但你不能预先设定所有这些细微差别或变化。他们必须从数据中学习。

(10:28)在创建目录或术语表时,是否有一个过程来检查算法提取信息的能力,或者如何对其进行培训以使其做得更好?

MG:我们创建了一个编辑工具,让最终用户能够修改。制作视频是劳动密集型的。但是,由于能够编辑或更改一些条目,编辑应用程序创建的目录所需的工作量得到了简化。

(12:15)当企业用户编辑目录或术语表时,这将作为系统的反馈。它的目标似乎是从用户的角度来推动机器学习,而不是从自然语言处理专家团队的角度。

例如,我正在寻找2015年苔原地区油气钻探的发展情况。我只想看看有钻孔痕迹的部分。目标是找到查询这些特定部件的方法。这是目标吗?

:我们正在努力简化搜索过程。不仅在视频中搜索,而且在视频中搜索。你不想让一个人看一整小时的视频。

(15:00)Youtube的平台融合了音乐、娱乐和教育。寻找商业话题不是他们的专长。你的利基是那些需要以高效的方式教育员工的组织。

MG:这是起点。我们认识到,没有一家公司正式使用这种资源。大多数公司都有课堂教学或购买内容用于员工培训。VideoKen的一个优势是利用Youtube上免费视频中已经包含的丰富信息。仅Youtube上就有300万个教育视频。但公司无法找到高质量的视频,因为这是一种痛苦。公司如何区分高质量和低质量的视频?从那里,他们可以根据上下文选择适当的内容。

大多数公司都有客户活动,内容发布在Youtube上。人们很可能只会观看视频的早期部分。我们的应用程序让用户做的是处理这些视频,使它们更易消费,更具影响力。

这些视频的应用远远超出了学习。我们可以拍摄客户的视频,并使用我们的应用程序对其进行索引。

(17:55)在未来两三年内,视频分析可能成为可能。你认为这会发生什么?

下一步是加深对视频的理解。其中一个挑战是识别名词和动词。所以作品是名词(名字,物体,人,地点)识别和动词(活动)识别。这适用于创建标题。

订阅我们的人工智能产业播客使用您最喜爱的播客服务:

itunes播客
响亮的播客
谷歌播客
斯蒂克播客

标题图像信用:验光首席执行官

保持AI曲线的领先地位

发现在未来业务中区分赢家和输家的关键AI趋势和应用程序。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
保持在机器学习曲线的前面

加入超过2万名专注于人工智能的商业领袖,并接收我们每周发布的最新人工智能研究和趋势。

感谢您订阅Emerj“AI Advantage”时事通讯,请查看您的电子邮件收件箱以获得确认。