mardi 2 juillet 2013

Sous-domaines inexistants indexés par Google

Sur un domaine example.com, Google a indexé des millions de pages sous les noms :


frnce.example.com
jajaiju.example.com
www.bj.example.com
www.fancee.example.com
www.francee.example.com
www.weiyu.example.com

...

Or dans les pages de www.example.com, il n'y a aucune référence à ces sous-domaines erronés, générant des duplications de contenus, très mauvais pour le PR.

Ces nombres de pages indexés sont exponentiels... au risque du serveur apache2 et le classement des résultats SEO.

Je ne sais pas où Googlebot a pioché ces adresses dans le net ?

Si un Googler passe au hasard par ici, il pourrait me sauver en me répondant pourquoi ?

Pour pallier ce problème, afin d'améliorer l'unicité du contenu, on a pour l'instant que la solution "canonical hostname", en utilisant la redirection dans la configuration de apache2.conf:

#
# 00: redirect to the canonical hostname:
#
RewriteCond %{HTTP_HOST} !^www\.example\.com [NC]
RewriteCond %{HTTP_HOST} !^$
RewriteRule ^/(.*)       http://www.example.com/$1 [L,R]

Avec cette configuration, aucun sous-domaine ne sera valid.

Pour l'instant la cause m'est inconnue. Il y a tout de même des probabilités :

  1. Mal intentions des sites extérieurs créant des liens qui pointent sur les mauvais sous-domaines comme mauvais-sous-domaine.example.com ?
  2. Des sites traceurs de visiteurs comme whos.among.us, lorsqu'un utilisateur tape une mauvaise URL, Googlebot les repère comme source de liens, ainsi explore à partir de celle-là ?






Aucun commentaire:

Enregistrer un commentaire