Tutoriales Varios
Que son los robot.txt
robots.txt
Los buscadores tipo google se sirven de robots, programas con algoritmos mas o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web
Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.
O puede suceder lo contrario … que deseemos asegurarnos que determinadas páginas son indexadas.
Con diversas limitaciones, podemos dar instrucciones a los robots. ¿Como? mediante el archivo robots.txt.
El archivo robots.txt
Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt.
Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.
El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.
En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:
User-agent: * # aplicable a todos Disallow: / # impide la indexacion de todas las paginas
En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz
Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo alli.
Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas
El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.
Cada sección o grupo de directivas empezará con el campo User-agent
, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo
A continuacion pondremos una o mas directivas Disallow:
.
Aqui tienes algun ejemplo. Nota que el signo # señala que la linea que le sigue es un comentario, y no será leida:
# Establecemos total libertad para webcrawler # Ya que dejamos Disallow vacio User-agent: webcrawler Disallow: # En cambio lycra y BadBot # tiene prohibido integramente el acceso User-agent: lycra User-agent: BadBot Disallow: / # El resto de bots (señalado mediante *) # tiene prohibido el acceso a los directorios # /tmp y /log; libertad para el resto. User-agent: * Disallow: /tmp Disallow: /logs
Puedes consultar una lista de los robots conocidos en robotstxt.org
Recuerda que si el valor de User-agent
es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.
Mediante las directivas «Disallow» especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:
Disallow: /help # afecta a /help.html y a /help/index.html Disallow: /help/ # afecta a /help/index.html pero no a /help.html.
Siempre tiene que haber un campo Disallow
, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.
Ten en cuenta que en la directiva Disallow
no se admiten comodines. /help/*
no serviría (el equivalente sería /help
).
Robots y etiquetas META
Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META
:
<META name="ROBOTS" content="NOINDEX, NOFOLLOW">
Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links.
Las opciones a poner en content
son ALL, INDEX, NOFOLLOW, NOINDEX
Visit-time
Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas:
... # Permitir trabajar a los botsde 2 am a 7:45 am # Las horas son siempre Greenwitch Visit-time: 0200-0745 # Un documento CADA 30 minutos Request-rate: 1/30m # Combinado: 1 doc cada 10 minutos # y solo de una a 5 tarde Request-rate: 1/10m 1300-1659
¿necesitas mas?
http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1
http://www.robotstxt.org/wc/norobots.html
http://www.robotstxt.org/wc/robots.html
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt
http://www.robotstxt.org/wc/faq.html
http://www.conman.org/people/spc/robots2.html#format.directives.visit-time