Blogalia. Un web para todos

Inicio > Historias > El Ataque de los Bots

El Ataque de los Bots

Krusty (no el payaso, sino el programador de Kuro5hin) escribió hace un par de días una historia acerca de cómo el robot que extrae contenidos para Google estaba fundiendo su conexión. En Oh My God it's Slow! dice:

«First, as it's the beginning of the month (a period of time that's getting longer and longer, it seems) we're being Googled. That usually takes them at least a week now, and last month it generated 1,281,994 hits. Googlebot was our largest single user agent in December. I'm not kidding»


En Blogalia también sufrimos de un tiempo a esta parte el Ataque de los Robots, en el que se cuenta no sólo Google, sino otros muchos. Y aunque esté mal decirlo, entre esos "ataques", está el de nuestro propio Blogómetro.

Por lo general, y aunque el ancho de banda es un recurso limitado, no hemos tenido problemas. Sin embargo, en las últimas semanas, y a ciertas horas, los robots colapsaban la conexión. Esto me obligó a activar el archivo robots.txt para limitar el acceso, actualmente sólo activo para Googlebot, Blogómetro y Teoma.

Aún así, hay varios robots que no hacen caso del robots.txt y he tomado medidas más serias, limitando su acceso directamente mediante el mod_rewrite del Apache. Hay dos casos: robots que proceden de una sola IP o robots que utilizan varias IPs, pero se anuncian mediante la variable USER_AGENT:

RewriteCond %{REMOTE_HOST} 68.168.216.111
RewriteRule (.*) [F,L]

# Turnitin(Bot).com
RewriteCond %{REMOTE_HOST} 64.140.49.69
RewriteRule (.*) [F,L]

# DTS Agent
RewriteCond %{HTTP_USER_AGENT} ^.*DTS.Agent.*$ [NC]
RewriteRule (.*) [F,L]

# Fast Crawler
RewriteCond %{REMOTE_HOST} 66.77.73.142
RewriteRule (.*) [F,L]


Una efecto colateral de esta caza de robots es limitar el spam. Precisamente, el DTS Agent es un programa de origen chino que busca direcciones de correo electrónico en páginas web.

Curiosamente, buena parte de estos robots provienen de la blogosfera, detectando las historias nuevas a través de weblogs.com. Por ejemplo, tenemos el EvilBot, el organica, el wossromBot, obidos-bot (just looking for books), Popdexter, Syndic8, RobotMidareru, etcétera.

El bot de Google no me preocupa. De hecho, me preocuparía lo contrario. Pero tanto bot bloguero... ¿No es contraproducente? Todo ese ancho de banda que usan los bots para luego dar un servicio (en ocasiones es muy útil, en ocasiones poco útil) ¿no tiene un alto coste para quienes alojamos muchas páginas/bitácoras? ¿No estamos, en cierta forma, subvencionando esos servicios ajenos?

| 2003-01-13 12:48 | rvr | 10 Comentarios


Referencias (TrackBacks)

URL de trackback de esta historia http://desarrollo.blogalia.com//trackbacks/4764

Comentarios

1
De: Ctugha Fecha: 2003-01-13 13:40

rvr, no sé si soy un daño colateral de esos. Desde mi casa tengo aleatoriamente problemas para acceder a blogalia, como anoche. Igual soy víctima de los antibots, pero no lo sé, así que te preguntaba... ¿puedo ser víctima de los antibots?



2
De: JJ Fecha: 2003-01-13 14:09

Puede ser que los bots hagan la puñeta, pero sirven para atraer visitas hacia el sitio.



3
De: rvr Fecha: 2003-01-13 14:38

Ctugha: Sé que la gente de Mundo-R tiene problemas habituales que no son compartidos por otros. Los problemas aleatorios problablemente son debidos a que la conexión está compartida con usuarios que usamos el ADSL y si nos estamos bajando la última versión del StarOffice, a esperar toca ;)

JJ: Si no lo dudo, pero tenemos un problema de ancho de banda, así que ¿a qué coste atraen visitas? El de Googlebot es perfectamente asumible, pero ¿y el resto?



4
De: fernand0 Fecha: 2003-01-13 15:30

Una mala noticia. La diferencia entre 'estar o no estar' en la blogosfera puede ser la de aparecer en los cacharritos bitacoreros adecuados o no :/

Sería partidario (siempre que sea posible) de contactar con los responsables de los bots y trabajar con ellos para reducir el problema.
Me ofrezco voluntario para hacer algún contacto...



5
De: rvr Fecha: 2003-01-13 17:14

fernand0: Gracias por el ofrecimiento. Tal y como hablamos por el IRC, lo mejor será implementar el Last-modified :-)



6
De: fernand0 Fecha: 2003-01-13 19:41

Luego habrá que convencer a los que no lo usan de que lo usen ;)
El ofrecimiento sigue en pié ...



7
De: Kajal Thakkar Fecha: 2019-08-30 07:14

Article address pint to the topic and it was such a nice way of explaining and fold out to the reader.


Kajal Thakkar


Pune Escorts


Pune Call Girls


Pune Independent Escorts


Pune VIP Escorts


Pune Elite Escorts


Escorts in Pune


Escorts Pune


Escort Services in Pune


Escorts Pune


Female Escorts



8
De: Ankita Tiwari Fecha: 2019-08-30 07:24


Kolkata Escort Service
Kolkata Independent Escort
Kolkata hostel girls Escorts
Kolkata air hostess escorts
Kolkata Escort Services



9
De: Escorts Service in Jodhpur Fecha: 2019-11-05 11:57

Escort Service in Jodhpur

Escorts Service in Ahmedabad

Escorts Service in Udaipur

Escorts Service in Jodhpur

Escorts Service in Vadodara

Escorts Service in Surat

Escorts Service in Udaipur



10
De: espn.com/activate Fecha: 2019-11-17 06:35

espn.com/activate
espn.com/activate
activate fox sports
nbc sports activate
canon.com/ijsetup
espn.com/activate
mcafee.com/activate
nbcsports com activate
quickbooks support
roku.com/link
roku.com/link
garmin update
youtube.com/activate
office.com/setup
garmin updates
www.hulu.com/activate
espn.com/activate
activate starz
pbs.org/activate
espn.com/activate
mumbai escorts
mumbai escorts
mumbai escorts







    


Noticias sobre el desarrollo de Blogalia

Histórico

<Diciembre 2023
Lu Ma Mi Ju Vi Sa Do
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
             


Recursos

Proyectos

Otras bitácoras

Canal RDF






 
PostgreSQL

PHP

Python


© 2002-2003 Blogalia.com <blogalia@blogalia.com>


Blogalia