archivo robots.txt

El archivo robots.txt es un elemento básico para una estrategia SEO, de uso relativamente sencillo pero que un error en este archivo puede tener repercusiones especialmente graves.

 

¿Cuál es la función del archivo robots.txt? Los buscadores utilizan el archivo robots.txt para saber que páginas, secciones del sitio o tipos de página no deben rastrear sus robots. Existen diferentes robots para cada uno de los buscadores. A modo de ejemplo, listamos algunos de los existentes:

  •  Googlebot, rastrea páginas y contenidos web
  •  Googlebot-Image, rastrea imágenes y fotos para Google Images
  •  Googlebot-Mobile, contenido para móviles
  •  Mediapartners-Google, el robot de AdSense
  •  Bingbot, crawler de Bing

 

Mediante el archivo robots.txt podemos especificar qué páginas o secciones no queremos que rastree, ya sea porque queremos restringir el acceso a nuestra web de determinados robots, que existan zonas accesibles para ciertos usuarios pero que no se indexen en los buscadores, eliminar contenido duplicado (especialmente en wordpress), reducir la sobrecarga del servidor o especificar el camino a los buscadores de nuestro sitemap. Cabe destacar que un error o un mal uso de este archivo puede acarrear situaciones poco deseadas en cuanto a posicionamiento e indexación de nuestro sitio web en buscadores.

 

Cómo usar el archivo robots.txt

Existen diferentes tipos de niveles para bloquear páginsa, carpetas o tipos de contenidos:

  1. Página: Disallow: /examplepage.html
  2. Carpeta: Disallow: /examplepage.html
  3. Tipos de contenidos: Disallow: /*.pdf

 

Errores communes:

  1. Usando el commando que se muestra a continuación lo que estamos indicando es que los buscadores no rastreen ninguna parte de nuestra web.

Disallow: /

  1. Deshabilitar el rastreo de carpetas que contienen material indexable y que puede ser muy beneficiosos para su posicionamiento web como imágenes o videos.

Disallow: /images/

Disallow: /videos/

  1. Deshabilitar el acceso al CSS o Javascript de su web. El robot de Google, por ejemplo, ya interpreta este tipo de archivos (no sólo el HTML de su web), y bloquear el acceso de éste a nuestros archivos CSS o Javascript puede tener consecuencias negativas en nuestro posicionamiento en buscadores.

Disallow: /*.css

Disallow: /*.js

  1. Deshabilitar páginas que no son HTML. Contra más rica sea nuestra web en contenidos mejores resultados SEO obtendremos. Por tanto, no se debe bloquear el acceso a este tipo de contenidos sólo por no ser una página HTML.

Disallow: /*.pdf

Disallow: /*.doc

  1. No es recomendable comentar el archive robots.txt
  2. No liste todos sus archivos, ya permitirá a terceros acceder a archivos que contienen información que no debería ser pública.

 

Herramientas de Comprobación del archivo robots.txt

Desde Google Webmaster Tools podemos encontrar una herramienta que nos servirá para comprobar nuestro archivo robots.txt, editarlo, encontrar errores que no permiten a Google indexar determinadas páginas, comprobar que URLs están bloqueadas e incluso ver versiones antiguas de su archivo robots.txt.

 
Conclusión

Un uso adecuado del archive Robots.txt le ayudará a mostrar contenido realmente útil para sus usuarios y por ende, le permitirá optimizar su estrategia SEO. Esto no siginifica que se vaya a eliminar de los buscadores de forma inmediata el contenido que hemos indicado, pero sí que dejará de ser rastreado y actualizado, siendo eliminado por tanto a lo largo del tiempo (Google dispone de herramientas para solicitar la baja de nuestras URLs de su lista de resultados).