算法不太擅长识别成人内容

经过:格雷格·鱼

佐治亚·奥基夫(Georgia O'Keeffe“width=
不难想象一个机器人标记艺术家佐治亚·奥基夫(Georgia O'Keeffe)的标志性画作“黑色,蓝色和黄色的灰色线条”(在Tate Modern上是成人内容)。Rob Stothard/Getty Images

Tumblr平台已决定不再允许成人内容。该禁令于2018年12月17日生效,为了执行该禁令,Tumblr似乎部署了一个机器人奇异不好的工作,将无辜的内容标记为本质上的色情内容,并促使用户和技术专家们想知道为什么机器人如此糟糕。答案的一部分是与人工智能是一项极其艰巨的任务。

确定我们发现哪些内容或令人反感的内容涉及的许多微妙之处必须在石头上写下来,而我们的往绩并不是很棒。实际上,首先,我们很难将某些东西识别为色情内容。已故的美国最高法院大法官波特·斯图尔特(Potter Stewart当我看到它时,我知道。”

广告

这种情绪在实践中被证明与意义一样模糊。这是一个例子:一个有勃起的男人的照片必须是淫荡的,对吗?但是,如果这是对priapism的医学插图,那是一种痛苦的疾病,会导致长时间的勃起,并且出现在医疗用地上呢?如果对外阴的任何代表是淫秽的,这是否意味着艺术家佐治亚·奥基夫(Georgia O'Keeffe)的作品,他的鲜花绘画经常被认为是女性解剖结构的视觉隐喻,需要在艺术史的文章中标记吗?

社交网络和内容平台一直遇到这些情况。例如,在2016年的一次重大公关事件中,Facebook审查普利策奖获奖照片在越南战争期间,一场裸露的金·菲克(Kim Phuc)在纳帕尔姆袭击中奔跑;这张照片是由挪威最著名的报纸出版的,供有关战争的相关文章。相比之下,Twitter用户无法说服该平台关闭新纳粹帐户直到2017年底。具有不同的哲学和看似任意的无上下文规则甚至会混淆人类主持人,难怪算法难以弄清楚要标记什么。

Tumblr的系统似乎正在寻找图像中视为裸露的皮肤的数量,或者认为它可能是乳头或生殖器。不幸的是,人体非遗殖部位的许多良性特写镜头都超过了图像显示的裸露肉的门槛,因为丹·法伦(Dan Fallon)为迪格(Digg)写作著名的。某些树木之类的物体也可能看起来像阳具。法伦写道,在一个看似莫名其妙的情况下,景观摄影师的自然图片也被标记为有问题。但是,对于这种算法,这并不罕见。审查机器人的其他迭代具有沙丘的标记图片和海滩,因为根据训练数据集,沙子的颜色与皮肤的颜色相似。

当您考虑人类有多少肤色时,这种系统的错误也很有意义。从浅米色到几乎黑色的颜色都自然发生,并且取决于AI的训练或传感器的校准,它可能不了解更黑色的肤色甚至存在。结果,一种训练有素的算法与白种人表演者进行了审查和审查色情图像,可能无法用深色皮肤模型标记同样明确的图像。这样做的简单解决方案之一就是要过度补偿,标记一切并证明误报是比不捕获足够的成人内容更好的误报,这是Tumblr在努力中所做的事情以消毒其内容。Tumblr没有返回有关是否还有额外层的评论请求。

最终,还有待观察是否过度狂热审查制度算法将驱动那些不从平台上发布成人内容的用户,或者是否会拨号。但是Tumblr的非常公开和积极的过度限制突出了调节在线媒体的许多困难中的一些困难。因此,将继续犯错,并经常犯错。在我们弄清楚如何解决这些问题之前,人类将需要监督任何真正成功的节制工作。

广告

特色

广告

加载...