|
|
|
|
Debian Última actualización | stable: 04/05/2013
testing: 26/05/2013
unstable: 26/05/2013
|
|
|
|
|
|
|
|
Robots.txt
: Gestionar los accesos de los spider bots a nuestra web
(12617 lecturas)
Por Javier Gonzalez
^IcE-bOy^
(http://www.javier-gonzalez.com)
Creado el 27/06/2004 18:36 modificado el 27/06/2004 18:36
|
Es posible que en más de una ocasión algún bot (como el de google) nos halla cacheado webs que tenemos hospedadas en algún servidor y que no queríamos que fueran "publicadas" ... o simplemente puede que queramos elegir lo que deben descargar o no los bots para mejorar así el rendimiento de los buscadores.
También podemos bloquear aquellos bots de spam que van buscando direcciones de e-mail por nuestras páginas para llenarlas de basura.
Otra cosa a tener en cuenta, y que resulta poco gracioso, es que muchos buscadores van en busca de imágenes para cachearlas, no solo contenidos ... y no creo que nos guste aparecer en portada de google cuando alguien busque por "beer" ¿Verdad kyle? ;) | Pagina1/1 |
Robots.txt
: Gestionar los accesos de los spider bots a nuestra web
Es posible que en más de una ocasión algún
bot (como el de google) nos halla cacheado webs que tenemos
hospedadas en algún servidor y que no queríamos que
fueran "publicadas" ... o simplemente que puede que queramos optimizar
lo que deben descargar o no los bots para mejorar así el
rendimiento de los buscadores. También podemos bloquear aquellos
bots de spam que van buscando direcciones de e-mail por nuestras
páginas para llenarlas de basura.
Otra cosa a tener en cuenta, y que resulta poco gracioso, es que muchos
buscadores van en busca de imágenes para cachearlas, no solo
contenidos ... y no creo que nos guste aparecer en portada de google
cuando alguien busque por "beer" ¿Verdad kyle? ;)
La estructura del fichero robots.txt es:
<Field> ":"
<value>
En <Field> podemos usar el campo User-agent de tal forma que
podemos especificar distintas configuraciones para cada bot (por si un
bot nos cae mejor que otro .. o algo así), La sintaxis es:
User-agent
: <bot>
"Googleando" he encontrado esta pequeña lista de los principales
spiders que utilizan los buscadores:
|
Spider Names
|
Category
|
Origin
|
Language
|
User-agent
|
| Acoon |
Search |
Germany |
German |
Acoon Robot |
| AllThatNet |
Search |
United States |
English (US) |
ATN Worldwide |
| Altavista |
Search |
United States |
English (US) |
Scooter |
| Anzwers |
Search |
United States |
English (US) |
AnzwersCrawl |
| AustLII |
Search |
Australia |
English (AUS) |
Grommit |
| CMC/0.01 |
Music |
Japan |
Japanese |
CMC/0.01 |
| Direct Hit Grabber |
Search |
United States |
English (US) |
grabber |
| e-Collector |
Email |
United States |
English (US) |
ecollector |
| Entire Web |
Search |
Sweden |
English (US) |
Speedy |
| EuroSeek |
Search |
Sweden |
English (US) |
Freecrawl |
| Excite |
Search |
United States |
English (US) |
ArchitextSpider |
| FAST/AllTheWeb |
Search |
United States |
English (US) |
FAST WebCrawler |
| Fireball |
Search |
Germany |
German |
KIT Fireball |
| Goo |
Search |
Japan |
Japanese |
moget |
| Google |
Search |
United States |
English (US) |
Googlebot |
| Google Image |
Image |
United States |
English (US) |
Googlebot-Image |
| Griffon |
Search |
Japan |
Japanese |
griffon |
| IaNet.com |
Search |
Canada |
English (CDN) |
ParaSite |
| Industry Central |
Search |
Canada |
English (CDN) |
Open Text Site Crawler |
| InfoSeek.de |
Search |
Germany |
German |
marvin |
| Ingrid |
Search |
Netherlands |
Dutch |
INGRID/0 1 |
| Inktomi |
Search |
United States |
English (US) |
Slurp |
| Internet Cruiser |
Search |
Yugoslavia |
English (US) |
Internet Cruiser Robot |
| Kvasir |
Search |
Norway |
Norwegian |
solbot |
| Legs |
News |
United States |
English (US) |
legs |
| Lets Find It Now! |
Search |
Hungary |
English (US) |
elfinbot |
| Lycos |
Search |
United States |
English (US) |
Lycos_Spider_(T-Rex) |
| Mirago |
Search |
United Kingdom |
English |
mirago |
| Northern Light |
Search |
United States |
English (US) |
Gulliver |
| Openfind |
Search |
Chinese |
Chinese (Traditional) |
Openbot |
| Planet Search |
Search |
United States |
English (US) |
fido |
| Portal Juice |
Search |
Canada |
English (CDN) |
pjspider |
| whatUseek |
Search |
United States |
English (US) |
winona |
| WhoWhere |
Search |
United States |
English (US) |
whowhere |
Por ejemplo, si queremos establecer
unas reglas para el robot de google (Googlebot) tendríamos que
especificarlo con: User-agent: googlebot
Para hacer referencia a todos los
bots: User-agent: *
Una vez indicado el User-agent sólo los queda marcar aquellos
ficheros a los que NO queremos que entre el bot, para ello basta con
utilizar:
Disallow: <fichero o directorio>
Por ejemplo, para deshabilitar el
acceso al directorio /cgi-bin/ : Disallow: /cgi-bin/
Si queremos evitar el acceso a
personal.html: Disallow: personal.html
Un fallo típico es usar: Disallow: * y esto NO funciona,
para desabilitar el acceso a todo se debe usar Disallow: / (por
supuesto, tampoco existe allow)
Antes de empezar con los ejemplos, simplemente comentar (valga la
redundancia) que con el símbolo <#> podemos comentar
lineas dentro de robots.txt
Y ahora unos ejemplillos que pueden ser útiles:
# --- Impedir acceso al
directorio /gallery (donde hemos colgado las
fotos esas en las que salimos tan **bien** en la playita)
User-agent: *
Disallow: /gallery/
# ---
# --- Sólo permitir el
acceso a googlebot y altavista
User-agent: googlebot
Disallow:
User-agent: Scooter
Disallow:
User-agent: *
Disallow: /
# ---
# -- Impedir acceso a un bot en
concreto (googlebot) y dejar a los
demás que accedan donde quieran menos a /gallery/
User-agent: googlebot
Disallow: /
User-agent: *
Disallow: /gallery/
# ---
# -- Impedir el acceso de google
a todos los ficheros .txt
User-agent: googlebot
Disallow: *.txt
# --
Una vez tengamos terminado nuestro robots.txt podemos ir a http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
y comprobar si la sintaxis de nuestro robots.txt es correcta.
Un saludo:
Javier González
javier(YO_QUITARIA_ESTO_Y_METERIA_UNA_ARROBA)javier-gonzalez.com
|
|
|
|
Comentarios Es posible que se hayan omitido algunos comentarios considerados poco constructivos
| 1. Re: Robots.txt (02/07/2004 18:19, #1849) Por: El cobarde anónimo |
| genial articulo. Muchas gracias | |
2. Re: Robots.txt (26/08/2004 21:26, #2118) Por: El cobarde anónimo |
| Interesante articulo, pero tengo una cuestión, donde se tiene que colocar este archivo (creo que esta pregunta es un poco de pardillos, pero es que no tengo ni idea) Gracias | |
3. Re: Robots.txt (19/09/2004 17:48, #2255) Por: Sniper |
| Campeón...en el directorio raiz de tu sitio! Saludos | |
|
4. Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (24/09/2004 03:16, #2285) Por: Chesco (http://www.tworec.com) |
Tengo una SUPER DUDOTA al colocar mi robot.txt es necesiario poner los metas igual con los robots o simplemente cual pongo.
Otra duda master en caso de poner los dos (quiero decir el archivo robot.txt y los metas name=robots ...) el spider o robot qa quien le hace caso.
Gracias muy buen resumen. | |
5. Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (23/11/2004 00:01, #2666) Por: El cobarde anónimo |
Creo que la respuesta se deduce.
Primero tienes el archivo que está en el directorio raiz,por lo tanto es allà donde busca el robot tal archivo, esto es ANTES de explorar el resto del sistema.
Si existe tal archivo, el robot ya sabe cuales son las restricciones antes de ir a directorios y páginas.
En segundo lugar, puede restringirse con los meta tags. Recuerda que los meta tags no son soportados por todos los robots. | |
6. Re: Robots.txt: Gestionar los accesos de los spider bots a nuestra web (01/09/2005 04:35, #3928) Por: El cobarde anónimo |
| mira andate a la reputa que te pario jajaja puttooooooooo | |
|
|
|
|
|
|
| Tira ECOL |
|
|
|
|
|
|