Blogalia. Un web para todos

Inicio > Historias > El Ataque de los Bots

El Ataque de los Bots

Krusty (no el payaso, sino el programador de Kuro5hin) escribió hace un par de días una historia acerca de cómo el robot que extrae contenidos para Google estaba fundiendo su conexión. En Oh My God it's Slow! dice:

«First, as it's the beginning of the month (a period of time that's getting longer and longer, it seems) we're being Googled. That usually takes them at least a week now, and last month it generated 1,281,994 hits. Googlebot was our largest single user agent in December. I'm not kidding»


En Blogalia también sufrimos de un tiempo a esta parte el Ataque de los Robots, en el que se cuenta no sólo Google, sino otros muchos. Y aunque esté mal decirlo, entre esos "ataques", está el de nuestro propio Blogómetro.

Por lo general, y aunque el ancho de banda es un recurso limitado, no hemos tenido problemas. Sin embargo, en las últimas semanas, y a ciertas horas, los robots colapsaban la conexión. Esto me obligó a activar el archivo robots.txt para limitar el acceso, actualmente sólo activo para Googlebot, Blogómetro y Teoma.

Aún así, hay varios robots que no hacen caso del robots.txt y he tomado medidas más serias, limitando su acceso directamente mediante el mod_rewrite del Apache. Hay dos casos: robots que proceden de una sola IP o robots que utilizan varias IPs, pero se anuncian mediante la variable USER_AGENT:

RewriteCond %{REMOTE_HOST} 68.168.216.111
RewriteRule (.*) [F,L]

# Turnitin(Bot).com
RewriteCond %{REMOTE_HOST} 64.140.49.69
RewriteRule (.*) [F,L]

# DTS Agent
RewriteCond %{HTTP_USER_AGENT} ^.*DTS.Agent.*$ [NC]
RewriteRule (.*) [F,L]

# Fast Crawler
RewriteCond %{REMOTE_HOST} 66.77.73.142
RewriteRule (.*) [F,L]


Una efecto colateral de esta caza de robots es limitar el spam. Precisamente, el DTS Agent es un programa de origen chino que busca direcciones de correo electrónico en páginas web.

Curiosamente, buena parte de estos robots provienen de la blogosfera, detectando las historias nuevas a través de weblogs.com. Por ejemplo, tenemos el EvilBot, el organica, el wossromBot, obidos-bot (just looking for books), Popdexter, Syndic8, RobotMidareru, etcétera.

El bot de Google no me preocupa. De hecho, me preocuparía lo contrario. Pero tanto bot bloguero... ¿No es contraproducente? Todo ese ancho de banda que usan los bots para luego dar un servicio (en ocasiones es muy útil, en ocasiones poco útil) ¿no tiene un alto coste para quienes alojamos muchas páginas/bitácoras? ¿No estamos, en cierta forma, subvencionando esos servicios ajenos?

| 2003-01-13 12:48 | rvr | 6 Comentarios


Referencias (TrackBacks)

URL de trackback de esta historia http://desarrollo.blogalia.com//trackbacks/4764

Comentarios

1
De: Ctugha Fecha: 2003-01-13 13:40

rvr, no sé si soy un daño colateral de esos. Desde mi casa tengo aleatoriamente problemas para acceder a blogalia, como anoche. Igual soy víctima de los antibots, pero no lo sé, así que te preguntaba... ¿puedo ser víctima de los antibots?



2
De: JJ Fecha: 2003-01-13 14:09

Puede ser que los bots hagan la puñeta, pero sirven para atraer visitas hacia el sitio.



3
De: rvr Fecha: 2003-01-13 14:38

Ctugha: Sé que la gente de Mundo-R tiene problemas habituales que no son compartidos por otros. Los problemas aleatorios problablemente son debidos a que la conexión está compartida con usuarios que usamos el ADSL y si nos estamos bajando la última versión del StarOffice, a esperar toca ;)

JJ: Si no lo dudo, pero tenemos un problema de ancho de banda, así que ¿a qué coste atraen visitas? El de Googlebot es perfectamente asumible, pero ¿y el resto?



4
De: fernand0 Fecha: 2003-01-13 15:30

Una mala noticia. La diferencia entre 'estar o no estar' en la blogosfera puede ser la de aparecer en los cacharritos bitacoreros adecuados o no :/

Sería partidario (siempre que sea posible) de contactar con los responsables de los bots y trabajar con ellos para reducir el problema.
Me ofrezco voluntario para hacer algún contacto...



5
De: rvr Fecha: 2003-01-13 17:14

fernand0: Gracias por el ofrecimiento. Tal y como hablamos por el IRC, lo mejor será implementar el Last-modified :-)



6
De: fernand0 Fecha: 2003-01-13 19:41

Luego habrá que convencer a los que no lo usan de que lo usen ;)
El ofrecimiento sigue en pié ...



Nombre
Correo-e
URL
Dirección IP: 54.82.10.219 (f270563210)
Comentario
¿Cuánto es: diez mil + uno?





    


Noticias sobre el desarrollo de Blogalia

Histórico

<Diciembre 2018
Lu Ma Mi Ju Vi Sa Do
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31            


Recursos

Proyectos

Otras bitácoras

Canal RDF






 
PostgreSQL

PHP

Python


© 2002-2003 Blogalia.com <blogalia@blogalia.com>


Blogalia