西祠胡同反垃圾的思考

阅读数：2371 发布时间：2015-04-11 00:50:29

作者：秀野堂主 标签： 西祠胡同 反垃圾

西祠反垃圾

1.对每一个帐号都设定打分项，主要从帐号发布的内容、帐号的行为、与帐号的关联因素三方面考虑。

内容因素：

首先，垃圾帐号发布的内容多半会提供一个外站的链接或者手机、QQ号。因此一个帐号连续多次发布的信息中如果有重复的链接/数字出现，他有极高的可能性是一个垃圾帐号。

其次，每个论坛都会有自己的敏感词库，如果不是那种最ugly的敏感词库，至少应该会有三层级别：

a.直接删除内容并禁言帐号；

b.需要对内容做先审后发的处理同时监控帐号其他发布的内容；

c.内容可以先发后审，帐号不作处理。

对于前两种情况，垃圾信息能造成的危害被降到了最低。第三种情况，就需要结合其他因素一起来判断。

行为因素：

这里举一个例子来说，垃圾帐号因为是趋利，所以在行为上一定会异于普通的正常用户。比如在论坛上它会一直不停地发帖，而正常用户都是看帖多发帖少。这就给我们提供一个参考。通过post数量和浏览的url数量比值我们就能找到垃圾帐号和正常帐号的差异。

其他的关联因素：

看到之前的回答中有提到不少，这里补充一个：帐号所使用的主机id。垃圾帐号通常是批量注册的，因此一个垃圾账号背后来自同一个ip、同一个主机的其他帐号往往也都是垃圾帐号。但是这里提出一点：

不要轻易封掉ip或主机，一方面是会有误伤，另一方面这种简单的封杀做法会让你的反垃圾体系变成马其诺防线，一旦被绕过，只会抬高你的反垃圾成本。

2.基于上述三方面的考虑后，我们已经拥有评估垃圾帐号可能性的几个因素了，基于三个因素对帐号做评估。可以使用一些比较智能的算法，比如贝叶斯公式，但这需要你能准确地统计出垃圾帐号中各个因素的占比系数，这个模型一旦建立起来，整个反垃圾系统需要通过不断地机器学习来对系数做调整，才可能应对垃圾帐号即时的变化。

当然，你可以有比较简单的做法，只要某个帐号具备了其中的若干因素，就可以怀疑它是垃圾帐号了。接下来就看是否需要借助人为的监控行为做进一步识别了。

3.验证码和反垃圾策略的关系

必须明确的一点是：验证码本身只能用来防住机器人，防不住人，更何况破解技术层出不穷，实际上抵挡机器人的效果也不完全能让人满意。即使你对自己的验证码有把握，那么你也许能挡得住一部分机器人，但并不能把所有垃圾帐号都防住。

所以验证码实际上只能算抵挡垃圾信息的第一道防线，在验证码之后，一定要有合理的反垃圾策略。

4.反垃圾工作的确是一项长期的工作

理论上来说，当垃圾信息的发布成本高于所能得到的收获时，垃圾信息会减少，这些发布垃圾信息的人也会选择离开，转而寻找其他的社区。但事实上，垃圾信息行为与反垃圾行为永远都是一场你来我往的战斗，随时注意网站的数据变化，及时找到典型的垃圾模型。才能巩固已有的战果。

如果一个用户在线时间时长过久，也是不正常的，应该使其主动退出，并重新登陆

如果一个用户在短时间内密集发出大量的请求，也是不正常的，应该使其封闭，或者验证码之。

如果一个用户连续发三篇内容一模一样的新帖，则认为是垃圾广告，封闭之。

如果一个用户连续在一个帖子中回复同样的内容，则封杀

如果一个用户连续在多个帖子中回复同样的内容，则封杀