Enter your search terms:
Top

Todo lo que debes saber sobre el fichero Robots.txt

¿Qué es el fichero Robots.txt? ¿Para qué sirve? Todos los que hayáis creado vuestras propias páginas web o estéis empezando a aplicar técnicas de posicionamiento natural (SEO) sobre alguna web, os habréis encontrado, antes o después, con este fichero.

Viendo la experiencia de muchos, y por comentarios que todos podéis leer en Internet buscando un poco, parece que se trata de un fichero supercomplejo y superdifícil de gestionar, pero nada más allá, se trata de algo bastante simple que en este artículo os dejaremos lo más claro que podamos. Vamos a ir por partes:

1. Qué es el fichero Robots.txt y para qué sirve

El fichero Robots.txt es un fichero de texto que colocamos en el directorio principal de nuestra página web para indicar a los buscadores qué contenidos de nuestra web queremos que indexe y qué contenidos no.

He dicho bien, “indicar”. Tened presentes que en realidad los motores de búsqueda a través de sus arañas no tienen la obligación de indexar sólo el contenido que le pedimos, y, aunque lo normal es que sigan nuestras instrucciones, para darle mayor importancia a los contenidos de calidad, no tienen la obligación de hacerlo.

2. Algunos robots y crawlers conocidos

Antes de poneros una lista de algunos robots conocidos, tan sólo comentar que “crawler” o “webcrawler” es el nombre que reciben estas arañas que inspeccionan las páginas del World Wide Web de forma metódica y automatizada. Algunos de ellos son:

  • Googlebot – Robot de Google
  • Slurp – Robot de Yahoo
  • Msnbot – Robot de MSN
  • Mediapartners-Google – Robot que se encarga de revisar los anuncios de Google Adsense.
  • Bingbot – Robot del buscador Bing.

3. Cómo utilizar el fichero Robots.txt

Se trata de un fichero de texto que colocamos en la carpeta raíz de nuestra página web, y que se compone tan sólo de dos comandos:

  • User-agent: Con este comando indicamos a qué robot queremos indicar qué contenidos indexar y qué contenidos no. Si queremos dar instrucciones a todos los robots utilizaremos el parámetro “*”.
  • Disallow: Con este comando indicamos los contenidos que no queremos que accedan para la indexación.

Es bastante sencillo, a continuación os dejamos algunos ejemplos que harán que lo entiendas mejor.

4. Algunos ejemplos del fichero Robots.txt

Ejemplo de fichero Robots.txt donde permitimos el acceso a toda la web:

User-agent: *
Disallow:

Ejemplo de fichero Robots.txt donde no permitimos el acceso a ningún fichero ni carpeta de nuestra web:

User-agent: *
Disallow: /

Ejemplo de fichero Robots.txt donde permitimos el acceso a toda la web, excepto a la carpeta /administracion:

User-agent: *
Disallow: /administracion

Ejemplo de fichero Robots.txt donde permitimos el acceso la web, excepto a las carpeta /administracion, /privado y /fotosPersonales para el motor de búsqueda Google:

User-agent: Googlebot
Disallow: /administracion
Disallow: /privado
Disallow: /fotosPersonales

5. También podemos usar comodines

A algunos robots también podemos realizarle indicaciones haciendo uso de los comodines, como por ejemplo a Google y a Yahoo. Aquí tenéis un ejemplo:
Ejemplo de fichero Robots.txt donde indicamos al motor de búsqueda Google que no indexe ningún fichero Javascript (los terminados en js, claro):

User-agent: Googlebot
Disallow: /*.js

6. Validar tu fichero robots.txt

En http://tool.motoricerca.info/robots-checker.phtml tenéis un validador de ficheros robots.txt que puede ayudaros en la construcción de vuestro fichero. Además, para ampliar esta información podéis acceder directamente a la página http://www.robotstxt.org/, allí tenéis toda la información referente a este fichero, más ejemplos, etc.

Written by: Puragencia

Latest comments

Post a comment