Un Fait:
Une étude sur plus d'un million des commentaires de blog sur 2 semaines en juin 2009 montre que 75 % de ces blogs sont des spams.
Cette étude a monté du doigt un nouveau problème qui est le spam des blog.
Plusieurs approches sont faites pour classifier les spams des blogs et des moyens de détection sont mis en œuvre. L'article "Proliferation and Detection of Blog Spam" écrit par Saeed Abu-Nimeh de Websense Security Labs et Thomas M. Chen de Swansea University parle de cette problématique et présente un moyen de détection particulier. Cet article a été publié en octobre 2010 par "IEEE COMPUTER AND RELIABILITY SOCIETIES"
Leur approche de fait à 2 niveaux :
Au premier niveau, ces chercheurs ont extrait les textes des commentaires et les ont introduit dans un classificateur SVM (Support Vector Machine) . Ce classificateur leur attribue un poids, ce qui permet de classifier ces commentaires comme un spam ou un ham. Les ham sont des commentaires légitimes. Parallèlement, les auteurs de ces articles ont utilisé des règles heuristiques pour examiner l'information de l'envoyeur. Selon le résultat obtenu, il est assigné un poids de réputation qui correspond à l'identité, à l'adresse IP et à l'adresse E-mail de l'envoyeur.
Au deuxième niveau, un poids final est calculé comme une moyenne des poids provenant des poids du premier niveau.
Aucun commentaire:
Enregistrer un commentaire