Page 1 sur 1
[Résolu] indexation site du texte libre par google
Publié : 15 févr. 2012, 14:14
par caméléon
Salut,
J'essaye de comprendre pourquoi la recherche suivante
http://www.google.fr/search?q=texte+libre+cognac n'affiche absolument aucune description pour le site de la librairie du texte libre, mis à part l'adresse web du site, ce qui est pénalisant pour que les visiteurs identifient le site.
Vous auriez une idée ou suggestion au vu du code source?
Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 14:35
par Teraoctet
Salut Caméléon,
A première vue ce site n'est peut être pas indexé dans son ensemble, ceci expliquerait peut être cela: du changement dans google
http://www.google.fr/intl/fr/policies/
A moins qu'il n'aient pas toutes les informations voulues,
OU que les propriétaires du site ont adoptés une autre politique de communication.
Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 15:05
par caméléon
Il se trouve que je suis assez proche du "propriétaire", et que ce n'est absolument pas volontaire de sa part, bien au contraire...
Par ailleurs, le site est référencé ainsi depuis dès mois (depuis sa création en fait) , ce n'est donc pas du à une modification récente de l’algorithme de Google.
D'autres pistes? Je pencherais plutôt pour une maladresse dans le code source, mais je me demande bien ou

Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 15:12
par calimo
caméléon a écrit :Il se trouve que je suis assez proche du "propriétaire"
Ce qui est assez logique puisque tu postes en développement web
Allez Teraoctet, encore un petit effort

Et pas non plus besoin de flooder quand tu n'as rien à dire
Quand je vois ça :
je me dis que google est assez tolérant sur la syntaxe du robots.txt : il respecte même un fichier invalide !

Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 15:21
par caméléon
tu veux dire que c'est ce fichier qui bloque l'indexation par les moteurs de recherche???
Si ça se confirme, tu es un génie Calimo, je n'y aurais jamais pensé!!!
Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 15:43
par calimo
Eh oui, Google est un robot !
Pour être plus précis, un fichier robots.txt comme ceci
(note le retour à la ligne dans la syntaxe correcte) demande aux robots de ne pas télécharger les pages du site de manière automatisée, quel que soit leur UserAgent.
Il se trouve que pour être indexé par google, un robot doit télécharger les pages. Évidemment c'est automatisé : il n'y a pas de petit lutin chez google qui définit manuellement quelle page télécharger

Donc en effet, ce fichier empêche l'indexation.
Et pas que par Google : tu observeras la même chose sur
ixquick, il n'est pas indexé sur Yahoo... idem sur tous les moteurs de recherche respectant le robots.txt (c'est à dire tous)
Le plus simple est de supprimer ce fichier, ou de remplacer par un Allow /. À moins que le site n'ait un gros problème de conception (ou qu'il soit très très limite niveau charge et bande passante) ça ne posera pas de problème
PS : ça n'a rien de génial, c'est un problème très courant chez les débutants que de croire que les robots sont mauvais et qu'il faut les désactiver, mais c'est inutile, les "mauvais" robots ne respecteront pas le fichier tandis que les bons
respectent de toutes façons les trois lois 
…
Publié : 15 févr. 2012, 16:48
par ~HP
calimo a écrit :je me dis que google est assez tolérant sur la syntaxe du robots.txt : il respecte même un fichier invalide !

Le fichier n'est pas invalide… il est seulement servi avec de mauvaises entêtes :
Code : Tout sélectionner
# curl -IL "http://letextelibre.fr/robots.txt"
HTTP/1.1 200 OK
Server: nginx/0.7.65
Date: Wed, 15 Feb 2012 15:46:38 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Vary: Accept-Encoding
Code : Tout sélectionner
# curl "http://letextelibre.fr/robots.txt"
User-agent: *
Disallow: /
Comme ton navigateur affiche le texte en utilisant un rendu HTML, les sauts de ligne ne sont pas rendus… CQFD.
Re: indexation site du texte libre par google
Publié : 15 févr. 2012, 17:09
par caméléon
mais alors, il est bon ou pas ce fichier robot.txt? Dans le doute, il vaut mieux le supprimer non?
Re: …
Publié : 15 févr. 2012, 17:24
par calimo
~HP a écrit :Le fichier n'est pas invalide… il est seulement servi avec de mauvaises entêtes :
Ah oui bien vu !
caméléon a écrit :mais alors, il est bon ou pas ce fichier robot.txt? Dans le doute, il vaut mieux le supprimer non?
Non il est pas bon puisqu'il a pour effet d'empêcher l'indexation du site
