众包内容审核——它是如何工作的,有什么可能

丹尼尔Faggella
头像

Daniel Faggella是Emerj研究的首脑。丹尼尔呼吁由联合国,世界银行,国际刑警组织和龙头企业,丹尼尔是AI对商业和政府领导者竞争战略影响的全球追捧。

亚马逊虚假评论

随着网络增长,我们花了更多时间在线,适度变得更大,更大的挑战。内容影响买家,渴望获得这些客户的信任的企业可能会赢得任何胜利。

评论、个人资料、账户、照片和评论——所有这些类别的内容都需要监管,以便它们不会被误导的广告信息或彻底的垃圾邮件淹没。

机器学习对尺度适度至关重要 - 但通常有助于训练这些算法的人性化。我采访了Charly Walther,VP的产品和增长Gengo.ai,以了解更多关于构成许多内容审核算法基础的众包流程,并确定何时以及如何需要人类努力帮助机器更好地过滤垃圾邮件或不当内容。

为什么和当需要人类的适度时

过滤不恰当的图片可能会导致糟糕的用户体验,甚至会引起被冒犯的用户的强烈反应。Facebook已经看到了它的适度问题,导致该公司雇佣了大量的人力来帮助过滤内容——这是一项机器工作往往不适合做什么

适度规模通常包括以下因素:

  • 经过培训的机器学习算法,由用户数据或外部数据通知。该算法旨在确定适当或不当内容。
  • 一组人工审查员,他们帮助手动批准或不批准内容,这有助于训练算法在未来做出更好的内容审核决策。

用沃尔特的话说:

“你想要一个人类的循环流量 - 你可能有一些可以检测到存在问题的机器学习系统,但你可能不想删除没有人为干预的东西。”

Walther告诉我们,从广义上讲,内容适度可以有两种方式:

  • 事后过滤:一些平台或网站可能会决定,“有问题的”内容应该被实时推送给用户,然后再由人来审核。
    • 例如:脸谱网可能允许用户发布看起来可疑的图片,只有在发现这些图片违反了公司的政策时才会将其删除。做出这个决定可能是为了防止用户被立即过滤的评论(例如这是一个生动的越南战争的例子该网站最初过滤了裸照,但在用户抗议后允许上线)。
    • 沃尔特告诉我们,一些公司更喜欢这种方法,因为用他的话来说,这种方法允许他们“把手伸进火里”,在一个真正的人的认可上盖章,以表示对节制的关注和关注(而不是一个冷漠、非人情味、完全由算法决定的决定)。
  • 首先过滤:其他平台或网站可能会决定,“有问题的”内容应该对用户隐藏起来,只有在经过人工审查员批准后才会推送。
    • 例如:像纽约时报网站这样的大型媒体存在可能会在允许它们在公司网站上发布之前手动过滤所有的评论。

有时,内容泛化算法将能够辨别出一种确定性的梯度。

经过充分训练的机器学习算法可能能够完全“过滤掉”它认为99%肯定包含不恰当的裸体(在图像过滤的情况下)或垃圾链接(在评论审核的情况下)的图像。

相同的算法可能将较低的所有(或某些)内容放在人类评论者的“审查桶”中。例如,机器认为具有60%的裸露(在图像适度的情况下)或35%的几率包括垃圾链路(在评论审核的情况下)可能与人类评审者一起传递。

对这些“灰色地带”决策的修正有望提高机器下次自行做出正确决策的能力。

帐户/资料

假的twitter账户
虚假账户和个人资料的创建是为了政治影响力,骗局,垃圾邮件推广,以及更多-图片来源:commondreams.org

从社交媒体网络到在线论坛,再到AirBnb等平台,假或不适当的帐户是公司必须处理的问题。这可能包括f阿尔斯账户假装是“真人”,用于别有用心的目的:

  • 虚假的社交媒体账户,用来通过伪造社会证明人为地“点赞”和“分享”广告商的信息
  • 虚假的社交媒体账户,用来推动特定的政治观点或议程,而不披露议程背后的政党
  • 这些账户被秘密地用来推广露点的或不想要的宣传内容

机器学习系统可能会犯两种错误。”“误报”是指系统认为内容不合适,而实际上内容是合适的情况(即不正确地过滤掉内容)“误报”是指系统适用的情况,实际上是不适用的情况(即错误地允许不良内容通过过滤器)。

用沃尔特的话说:

“平台上可以有一个按钮,上面写着‘将该内容标记为不合适’,这样用户就可以检测出误报,帮助训练算法。”你需要人工审查假阳性,审查过滤后没有上线的内容——这是用户无法帮助的内容。”

这是虚假积极预防的那种情况,众群经常发挥作用。

上市

虚假或不恰当的清单可能包括:

  • 违反网站条款和条件的AirBnb账户(比如,有人试图在自家后院或皮卡后搭帐篷)
  • 房间租赁网站上的虚假信息,目的是引诱用户为一些不真实的东西付费
  • 虚假的Craigslist列表,声称提供一个设备,但实际上是从易受骗的用户那里骗取预付款学术报告2016年发表在《金融密码与数据安全》上的一篇文章估计,1.5%的Craigslist帖子是假的)
  • 在社交汽车租赁网站(如Turo.com)上的一辆车可能会被列为明显违反安全标准(例如,汽车没有挡风玻璃或安全带)
  • 房地产列表(在Trulia或Zillow等网站上)上有虚假图片或虚假地址

有些列表可能只是一个玩笑,有些则是有意进行欺诈,还有一些可能是无意中以违反服务条款的方式发布的。这些清单的共同之处在于,它们降低了网站或平台的用户体验。

任何足够大的平台都很难跟踪其网站上的所有列表。人类的判断和过滤可以用来发现越来越多的微妙模式,以跟上欺诈者或政策滥用者,并训练机器学习系统,让更少的垃圾邮件在网站上运行。

评论

纽约杂志文章引用Fakespot创始人的话说,超过40%的亚马逊评论是有问题的(就不是经过验证的购买而言,或者就措辞或重复性而言)。虽然这一数字可能被夸大,但很明显,某些产品类别充斥着虚假评论和粗略的账目——尤其是消费电子产品。

亚马逊虚假评论
亚马逊和其他电子商务网站负担了数百万公力的假审查 - 来源:MakeUMOOF

几乎可以说的是允许评论的任何大型网站。从电子商务商店,产品市场或服务市场(如yelp或houzz)。

虚假评论有多种形式,包括:

  • 旨在降低竞争对手销售额或鼓励从其他品牌、产品或服务购买产品的差评
  • 正面评价旨在提供社会认同,并鼓励其他毫无戒心的顾客购买
  • 混合评论(比如,3或4星),旨在融入更大的假五星级评论,目的是提高审查的可能性,这是诚实和真实的整体

所有这些评论都有一个共同点——它们都是以真正的消费者和用户的身份发布的——但事实上,它们是由品牌执行的,旨在影响消费者的行为。

虽然识别虚假评论有经验法则(CNET在这个主题有一个有用的文章),几乎不可能训练一种算法来检测任何和所有虚假评论。

提供评论的大型平台企业和电子商务企业通常已经使用基于机器学习的系统来过滤评论,他们渴望看到这些系统随着时间的推移而改进。据报道,亚马逊的一位发言人说DigiDay:

“我们使用机器学习算法,为更新、更有用的评论赋予更大的权重,应用严格的标准来获得亚马逊验证购买徽章的资格,并强制执行大量美元参与的要求,以及其他防止和检测不真实评论的机制。”

显然,这还不够。比如说,我们不能责怪亚马逊——任何规模足够大的平台业务都注定会遇到同样的问题。改进检测虚假评论的机器学习模型将涉及到这些模型背后的工程师们的高级预见性,但它也将涉及到其他一些东西:来自能够直觉地区分虚假评论和真实评论的人类的输入。

以下是一些众包工作如何帮助完善机器学习模型的例子:

  • 评论垃圾邮件发送者可能会采用一套新的模板进行正面或负面评论。手动分析评论的人可能能够快速发现这种模式,并通知算法这些新模板和格式是可疑的,或者可能需要修改。
  • 机器学习模型可能会判定一些评论完全是垃圾邮件,但其他评论可能只是被标记为“有问题的”。这些有问题的评论可能会被发送给人类审查员,由他们决定是否批准或删除评论,从而为机器学习模型的下一个决定增加更多的内容和背景。

审查很重要。一西北大学开展电子商务研究报告称,近95%的买家将在购买前查看评论(如果可用),而且共享评审率可以提高转换率超过200%。

评论

垃圾评论
垃圾邮件评论通常具有可能由人类检测的重复和可预测的格式,并由机器过滤。图像来源:船船

评论垃圾邮件是所有尺寸的网站的烦恼不得不处理. 评论垃圾“机器人”不断地在互联网上爬行,试图堵塞毫无戒心的网站的反向链接。有时这样做是为了破坏该网站上的用户体验,但更多情况下,这样做是为了向目标网站(通常是某种仿制品珠宝或手提包)提供反向链接或流量。

阻止可疑IP地址和自动过滤评论中包含的特定URL可能是消除无用垃圾邮件评论的一种方法,但这通常是不够的。

可能会立即过滤的内容可能包括:

  • 不敬的言语
  • 直接侮辱
  • 种族歧视或任何形式的引用
  • 垃圾邮件、促销或不相关的链接

与其他种类的节制,假的评论往往有某些共通的特性(IP地址,格式的消息,蹩脚的英语,等等),让他们迅速过滤,但新的垃圾邮件和虚假评论的方法正在开发的用户每天适量机器学习算法在不断追赶的游戏。

与评论一样,众包评论审核有可能为过滤算法提供有价值的训练数据,以便更好地捕捉未来的垃圾信息或虚假评论尝试。这个培训过程是持续的——与用户正在进行的和新的欺骗系统的努力携手并进。

关于过滤侮辱和“仇恨言论”的问题并不容易解决,我们采访了一位独立的人工智能专家,解释了正确训练过滤内容算法所需的一些初始过程。

查尔斯·马丁博士是硅谷机器学习咨询公司Calculation Consulting的创始人。Charles之前曾在Demand Media和eBay等公司从事基于机器学习的内容调节项目。

Charles提到,如果一个大型媒体平台(比如《赫芬顿邮报》或《纽约时报》)想要训练一种算法来消除仇恨言论,他们需要做的第一件事就是把术语和界限定义得更具体。

统一消除仇恨言论,需要的不仅仅是人们对这些评论的反应和回应,还需要建立在围绕什么是“脏话”、什么是“侮辱”达成一致的一系列界限之上。如果没有提前确定这些标准,就不可能可靠地训练算法。

查尔斯还说,它可能是潜在的这些AI系统(可能是对算法的过度录制算法的引用),并且了解设计和训练算法的过程是值得注意的,以确保系统按预期工作。

照片

像书面内容一样,图像也需要节制——但通常比书面文本更难“过滤”。机器视觉是一门相对较新的科学,图像的解释需要大量的人力。

图像调节可能包括:

  • 从酒店或目的地列表网站过滤假或误导照片
  • 从Facebook等公共社交媒体平台上过滤不合适的图片或裸体
  • 根据正在提供的产品的公然虚假或误导性图像,在eBay或Craigslist上取下列表

瓦尔特说:“沃尔特说:”虽然机器学习系统可能能够在公然的不恰当或误导性的图像上接受误导性的图像。“这是关于找到边缘案例。这是关于找到1%的机器学习无法接通的情况,以便系统可以改善。“

关于Gengo.ai

ai为培训机器学习模型提供高质量、多语言、众包数据服务。该公司在全球拥有数万名众包员工,为Expedia、Facebook、亚马逊等科技巨头提供服务。

本文由Gengo赞助。并与我们的透明度一致编写、编辑和出版Emerj赞助的内容指南.在我们的网站上了解更多关于达到我们专注于人工智能的执行用户的信息Emerj广告页面

标题图片来源:电子邮件

保持AI曲线的领先地位

发现区分未来商业赢家和输家的关键人工智能趋势和应用。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅镜像
保持在机器学习曲线的前面

加入超过2万名专注于人工智能的商业领袖,并接收我们每周发布的最新人工智能研究和趋势。

感谢您订阅Emerj“AI优势”时事通讯,请查看您的电子邮箱确认。