La Wikipedia se rinde y entrega sus datos a la IA, para que los bots no la hundan

La Wikipedia ha decidido ofrecer todo su contenido a la IA, ya formateado y ordenado, para no sufrir el ataque de los bots que estaban saturando sus servidores. Los robots de la IA son una plaga.

Juan Antonio Pascual Estapé

La Wikipedia ha aumentado su tráfico un 50% por culpa de los bots de IA que se llevan todo su contenido, y para una proyecto sin ánimo de lucro que se financia con donaciones, ese tráfico artificial puede significar su muerte. Así que ha decidido preparar su contenido para la IA, y ofrecerlo en un servicio externo, Kaggle.

Desde el pasado mes de enero, su tráfico ha aumentado un 50% por los bots que «escrapean» su contenido, para entrenar a la inteligencia artificial.

Como dice la propia Fundación Wikipedia: «el contenido es gratis, pero la infraestructura no». No tienen publicidad, y todo su contenido es gratuito. Pero su tráfico es enorme, y eso exige una cara infraestructura en forma de centros de datos distribuidos por todo el mundo.

La Wikipedia ofrece sus datos a la IA

Cuando un artículo se solicita varias veces en Wikipedia, se almacena en una caché en el centro de datos más cercanos al usuario. Esto se hace porque buena parte del tráfico de la Wikipedia está relacionado con la actualidad, o el trending. Por ejemplo, si muere un personaje famoso o un actor gana un premio, el tráfico de su ficha en la Wikipedia, o sus fotos en Wikimedia, aumenta de golpe.

Por desgracia, los bots de IA rompen por completo este esquema, porque no buscan contenido popular, sino que «escrapean», es decir, descargan todo el contenido en masa, uno tras otro. Incluyendo datos que casi nadie solicita.

Esto hace que casi todas sus peticiones se remitan a los servidores centrales, sobrecargándolos. El 65% del tráfico de su contenido más pesado (vídeos de larga duración), proviene de estos robots.

Este aumento de tráfico está afectando a la velocidad de acceso de los usuarios humanos, y la Fundación Wikipedia no se puede permitir invertir en cientos de servidores solo para dar cabida a los bots de Internet, que se llevan el contenido y ni siquiera hacen una donación.

La Wikipedia no está en contra de que la inteligencia artificial entrene con sus datos, ya que son libres. Pero los bots que los recopilan la están matando. Así que ha encontrado una solución: ofrecerlos en otro lugar.

Ha preparado un dataset formateado y organizado para entrenar a una IA, y está disponible a través de la plataforma científica Kaggle. Así los bots ya no tienen que acudir a la propia Wikipedia para coger lo que necesitan.

Es una solución que satisface a todos, pero también un ejemplo de la tiranía de la IA, que no tiene problemas en tumbar servicios globales como la Wikipedia, con el único objetivo de conseguir todos los datos que pueda. Es insaciable.

Fuente: https://computerhoy.20minutos.es/te…

 

 

Compartir
Ir al contenido