西祠胡同反垃圾的思考

阅读数:2394 发布时间:2015-04-11 00:50:29

作者:秀野堂主 标签: 西祠胡同 反垃圾

西祠反垃圾

1.对每一个帐号都设定打分项,主要从帐号发布的内容、帐号的行为、与帐号的关联因素三方面考虑。

内容因素:

首先,垃圾帐号发布的内容多半会提供一个外站的链接或者手机、QQ号。因此一个帐号连续多次发布的信息中如果有重复的链接/数字出现,他有极高的可能性是一个垃圾帐号。

其次,每个论坛都会有自己的敏感词库,如果不是那种最ugly的敏感词库,至少应该会有三层级别:

a.直接删除内容并禁言帐号;

b.需要对内容做先审后发的处理同时监控帐号其他发布的内容;

c.内容可以先发后审,帐号不作处理。

对于前两种情况,垃圾信息能造成的危害被降到了最低。第三种情况,就需要结合其他因素一起来判断。

行为因素:

这里举一个例子来说,垃圾帐号因为是趋利,所以在行为上一定会异于普通的正常用户。比如在论坛上它会一直不停地发帖,而正常用户都是看帖多发帖少。这就给我们提供一个参考。通过post数量和浏览的url数量比值我们就能找到垃圾帐号和正常帐号的差异。

其他的关联因素:

看到之前的回答中有提到不少,这里补充一个:帐号所使用的主机id。垃圾帐号通常是批量注册的,因此一个垃圾账号背后来自同一个ip、同一个主机的其他帐号往往也都是垃圾帐号。但是这里提出一点:

不要轻易封掉ip或主机,一方面是会有误伤,另一方面这种简单的封杀做法会让你的反垃圾体系变成马其诺防线,一旦被绕过,只会抬高你的反垃圾成本。

2.基于上述三方面的考虑后,我们已经拥有评估垃圾帐号可能性的几个因素了,基于三个因素对帐号做评估。可以使用一些比较智能的算法,比如贝叶斯公式,但这需要你能准确地统计出垃圾帐号中各个因素的占比系数,这个模型一旦建立起来,整个反垃圾系统需要通过不断地机器学习来对系数做调整,才可能应对垃圾帐号即时的变化。

当然,你可以有比较简单的做法,只要某个帐号具备了其中的若干因素,就可以怀疑它是垃圾帐号了。接下来就看是否需要借助人为的监控行为做进一步识别了。

3.验证码和反垃圾策略的关系

必须明确的一点是:验证码本身只能用来防住机器人,防不住人,更何况破解技术层出不穷,实际上抵挡机器人的效果也不完全能让人满意。即使你对自己的验证码有把握,那么你也许能挡得住一部分机器人,但并不能把所有垃圾帐号都防住。

所以验证码实际上只能算抵挡垃圾信息的第一道防线,在验证码之后,一定要有合理的反垃圾策略。

4.反垃圾工作的确是一项长期的工作

理论上来说,当垃圾信息的发布成本高于所能得到的收获时,垃圾信息会减少,这些发布垃圾信息的人也会选择离开,转而寻找其他的社区。但事实上,垃圾信息行为与反垃圾行为永远都是一场你来我往的战斗,随时注意网站的数据变化,及时找到典型的垃圾模型。才能巩固已有的战果。

如果一个用户在线时间时长过久,也是不正常的,应该使其主动退出,并重新登陆

如果一个用户在短时间内密集发出大量的请求,也是不正常的,应该使其封闭,或者验证码之。

如果一个用户连续发三篇内容一模一样的新帖,则认为是垃圾广告,封闭之。

如果一个用户连续在一个帖子中回复同样的内容,则封杀

如果一个用户连续在多个帖子中回复同样的内容,则封杀

相关文章推荐: