今日头条出事了,相关负责人表示,将严格落实网信部门管理要求,对相关问题进行自查自纠,分别对违规问题严重的部分频道暂停内容更新。今日头条手机客户端“推荐”“热点”“社会”“图片”“问答”“财经”等6个频道自2017年12月29日18时至12月30日18时暂停更新24小时。
这两天,有一篇文章似乎在为今日头条打抱不平《AI 算法起家的今日头条为何败给了色情?》文章称曾经靠 AI 雄霸天下的今日头条,如今也因 AI 的不足,败给了色情。文章指出一些图片会被AI误认为是色情图片。
其实,小编对这种说法持怀疑态度。
1. 在追逐流量下对低俗内容的放纵,不只今日头条,众多的互联网自媒体平台、直播平台都不同程度存在,甚至已经成为潜规则。
2. 如果因为误杀的原因,调大阈值即可,宁可错杀,也不可能会这么多色情消息。
3. 今日头条都没有做任何澄清,如果使用鉴黄策略,究竟是哪一家的?
图片鉴黄哪家强?
中国山东找蓝翔!
认真点,小编不懂鉴黄的算法,更没有足够的数据集去训练模型。如果哪位同学觉得自己有足够的数据集的话,我们可以私下探讨下算法~
好了,我们选取4家知名企业,同时开放公共API的。雅虎,clarifai,阿里和腾讯的鉴黄服务进行了一次测试。
要测试不同公司鉴黄技术的好坏,首先要选择一个客观的测试集,就像考试需要有考卷一样。 由于敏感性,网上很少有公开的色情图片数据集。通过检索笔者找到了一个名为NPDI的色情图片测试集,NPDI色情图片集是巴西一所大学的一个小组发布的,他们收集了80个小时的视频,包括400段正常的视频,200段比较容易混淆的正常视频和200段色情视频,并且通过截帧获取到1万6千张图片,其中色情图片6000多张,非色情10000多张。其中一部分图片如下图所示。
评价指标也要明确一下,这里笔者采用了固定误判率(FAR)下的识别率(TAR)来测试结果进行评价,其中误判率为非色情图片中被误判为色情图片的比例, 识别率为色情图片中被正确识别的比例。例如对于一个包含100张非色情图片和100张色情图片的测试集,有10张非色情图片被模型误判为了色情图片,同时有90张色情图片被正确识别,那么这个模型的误判率就是10%, 识别率为90%。
最终测试结果如下:
Clarifai 64.80%
Yahoo 65.42%
阿里 69.86%
腾讯 75.90%
看测试结果,腾讯万象优图效果最好(名字也取得好)。但是结果都及格了,更加让小编怀疑,今日头条要么就是自己的算法太懒。。要么就是故意的。我更倾向后者~
文章来源我的公众号: