When un moteur de recherche envoie ses webcrawler à votre site, un des premières choses que l'webcrawler va faire est de rechercher le répertoire racine pour le fichier robots.txt. Un fichier robots.txt correctement formaté sera composé de plusieurs dossiers, fournir à chaque instructions pour une recherche-bot particulier. Un enregistrement sera généralement constitué de deux volets, le premier est appelé le user-agent et est où le nom de la recherche-bot est répertorié. La deuxième ligne consits d'une ou plusieurs lignes "Disallow".
Ces lignes dire la webcrawler fichiers ou dossiers qui ne doivent pas être indexés (ie un dossier cgi-bin) .Si vous avez actuellement un site web et ne pas avoir un fichier robots.txt, vous pouvez en créer un facilement. Comme mentionné précédemment, les fichiers sont en texte brut, donc il suffit d'ouvrir le Bloc-notes et enregistrez le fichier au robots.txt. La plupart des webmasters peuvent utiliser un enregistrement qui sera applicable à tous les robots des moteurs de recherche.
Une fois que vous avez ouvert entrez notepad la suivante: User-agent: * Disallow: Le "*" applique cette règle à tous les robots. Dans cet exemple, il n'y a rien indiquée dans la ligne de rejeter. Cela indique que le robot d'indexer l'ensemble du site. Vous pouvez également entrer un chemin de dossier ici, tels que "/privé" si il ya un dossier qui ne devrait pas être indexé. Cela peut être très utile si vous êtes toujours tester une partie de votre site Web ou est une section est toujours sous construction.Now que vous savez ce qui devrait aller dans votre fichier robots.
txt, il ya plusieurs erreurs courantes que font les gens lors de la création de ces fichiers. Ne jamais entrer dans des notes ou des commentaires dans le fichier, car ces éléments peuvent causer de la confusion pour le webcrawler. En outre, le format doit toujours être le user-agent sur la première ligne, puis le refuser (s). Ne pas inverser l'ordre. Une autre erreur commune faite consiste à utiliser le cas i