Tutoriales Varios

Que son los robot.txt

robots.txt

Los buscadores tipo google se sirven de robots, programas con algoritmos mas o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web

Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.
O puede suceder lo contrario … que deseemos asegurarnos que determinadas páginas son indexadas.

Con diversas limitaciones, podemos dar instrucciones a los robots. ¿Como? mediante el archivo robots.txt.

El archivo robots.txt

Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: *    # aplicable a todos
Disallow: /      # impide la indexacion de todas las paginas

En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz
Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo alli.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas

El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo

A continuacion pondremos una o mas directivas Disallow: .
Aqui tienes algun ejemplo. Nota que el signo # señala que la linea que le sigue es un comentario, y no será leida:

# Establecemos total libertad para webcrawler
# Ya que dejamos Disallow vacio

User-agent: webcrawler
Disallow:

# En cambio lycra y BadBot
# tiene prohibido integramente el acceso

User-agent: lycra
User-agent: BadBot
Disallow: /

# El resto de bots (señalado mediante *)
# tiene prohibido el acceso a los directorios
# /tmp y /log; libertad para el resto.

User-agent: *
Disallow: /tmp
Disallow: /logs

Puedes consultar una lista de los robots conocidos en robotstxt.org

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas “Disallow” especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:

Disallow: /help  # afecta a /help.html y a  /help/index.html
Disallow: /help/ # afecta a /help/index.html  pero no a  /help.html. 

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.

Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).

Robots y etiquetas META

Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META:

<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links.

Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX

Visit-time

Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas:

... 

# Permitir trabajar a los botsde  2 am a 7:45 am
# Las horas son siempre Greenwitch

Visit-time: 0200-0745		

# Un documento CADA  30 minutos

Request-rate: 1/30m		

# Combinado: 1 doc cada 10 minutos
# y solo de una  a 5 tarde
Request-rate: 1/10m 1300-1659		

¿necesitas mas?

http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1
http://www.robotstxt.org/wc/norobots.html
http://www.robotstxt.org/wc/robots.html
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt
http://www.robotstxt.org/wc/faq.html
http://www.conman.org/people/spc/robots2.html#format.directives.visit-time