El otro día en ¿Cómo crear un sitio web bajo WordPress con uno o varios alias de nombre de dominio?, os esbozábamos apenas unas cuantas líneas sobre el archivo robots.txt, y hoy queremos profundizar un poco más en este pequeño y, en apariencia, insignificante, pero importantísimo archivo.

Pero empecemos por el principio, ¿qué es el archivo robots.txt? La respuesta a esta pregunta es igual de simple y sencilla que el propio archivo, es un archivo de texto que sirve para indicar, ojo, sólo indicar, a los buscadores web, bueno en realidad a los robots, web bots, bots, spiders, arañas, indexadores o crawlers de éstos, como más os guste llamarlos, qué partes de nuestro sitio web pueden rastrear y cuáles no, además indica la dirección o direcciones de nuestro/s archivo/s de mapa del sitio (sitemap).

Es un archivo tremendamente útil tanto para los propios bots de los buscadores web como para los webmasters, ya que gracias a él:

  • Bloquearemos a determinados robots: spambots y robots maliciosos, aunque para hacer este bloqueo efectivo hay que añadir cierto contenido al archivo .htaccess, que explicaremos detenidamente en otra entrada posterior.
  • Ahorraremos tiempo a los crawlers: dado que le estamos marcando claramente qué partes de nuestro contenido deben rastrear, éstos evitarán el resto del contenido, por lo que les haremos trabajar mucho más rápido.
  • Ahorraremos ancho de banda: al dirigir correctamente el tráfico de los spiders, éstos emplearán no sólo el menor tiempo posible en leer nuestro contenido, sino que al leer sólo aquello que queremos, ahorramos a nuestro servidor de servir contenido innecesario, y por lo tanto, ahorramos ancho de banda.
  • Eliminaremos contenido innecesario de los resultados de búsqueda: si no lo leen, no lo indexan y por lo tanto no aparece en los resultados de búsqueda.
  • Evitaremos que se rastreen partes privadas de nuestro sitio web: lo normal es que los spiders respeten nuestras indicaciones, pero aún así alguno puede tener la intención de leer determinado contenido sensible o prohibido, para ello de nuevo tenemos que hacer uso de nuestro mejor aliado, el archivo .htaccess, pero, de nuevo, eso será otra historia.
  • Evitaremos contenido duplicado de los resultados: si nuestras páginas web pueden ser llamadas de distintas formas, por ejemplo: mi-pagina.htm, mi-pagina.php, pagina.php?identificador=mi..., eso se considera contenido duplicado, así que hay que hacer un duro trabajo para evitarlo. En APG somos más amigos de utilizar el archivo .htaccess para estas labores, pero el archivo robots.txt también puede ayudarnos en algunos casos.
  • Indicaremos a los robots la dirección de los archivos sitemap: gracias a ellos podemos darles el que consideramos único contenido indexable.

Y ¿cómo funciona? Es muy simple, utiliza unas pocas reglas que son extraordinariamente fáciles de aprender y que están perfectamente indicadas y documentadas en The Web Robots Pages. Y ojo, que no es la única forma de hacer todo esto posible, ya que también existen unas etiquetas especiales que se p