3月27日,今日头条出品的一款名为“灵犬”的微信小程序,正式结束了为时两个月的内测期。“灵犬”本周内正式上线,这是国内首款反低俗信息小程序。
这款小程序脱胎于今日头条反低俗算法模型,用于鉴定低俗信息。用户可以将文字或者文章链接放置到搜索框内,即可查询该条信息的健康程度。
不过,在文字检测上,“灵犬”团队规定,用户输入的字数必须超过10个字,才能进行检测。
为此,“灵犬”团队给出了解释:用户给的上下文、语境等信息越充分,机器判断的准确度就会越高。
有参与内测的用户曾经在“灵犬”上检测了“你饿不饿我下面给你吃”几个字,数据显示,该内容健康指数为51%。昨天,刺猬君再次检测,该内容的指数为56%。
“灵犬”团队解释说,不同于色情信息,处理低俗信息的一个难点在于,人们对于低俗的判断标准具有一定的主观性。色情信息很直接,低俗信息偏隐晦,对于像“灵犬”这种机器就更难了。
今日头条的做法是,把低俗的标准分为两个层次:几乎所有人看来都会一致同意的标准底线,和因人而异的主观判断。
那么,在算法机制机制背后,“灵犬”是如何判断一段文字或网址链接为低俗呢?
“灵犬”团队给出的解释是,算法模型处理低俗内容,有一条最常见的路径:“收集数据-标注样本-训练模型”。
对于用户输入的文字或链接,“灵犬”会先进行提取、分词和语义识别,然后根据设定的规则,输出对应的分数、评级和结论。
“灵犬”团队给出的解释是:因为图片、视频提取需要较长的时间,返回结果较慢,考虑到工具的即时性,暂时还不支持检测。
“灵犬”的诞生,将被纳入到今日头条内容审核体系中,它与今日头条内容审核机制是一条“犬”和一支“工作犬部队”的关系。可以理解为,“灵犬”是头条审核机制中反低俗部分的一个简化版本。
“灵犬”团队对外称,这是国内最大的审核团队,并搭建色情、低俗、标题党、虚假信息、低质模型180多个,结合人工、技术手段,有效提升了内容审核的效率和准确度。
其实,今日头条在去年就谋划这件事情了,在今年1月底,“灵犬”团队曾面向全社会招募反低俗测试员,最终从超过5000位报名用户,选出了30位代表,包括政府部门工作人员,媒体记者、编辑,大学教授、学生,互联网公司产品经理和技术人员,自媒体人等。
在内测阶段,“灵犬”团队根据测试员的意见反馈,增加了大量人工策略,帮助完善“灵犬”小程序。增加的策略包括:对于权威媒体报道和诗词类内容,予以算法推荐倾斜;对于时政等机器难以直接处理的内容,必须交由人工审核判断。来源:刺猬公社记者石灿