CX Innovación y tendencia

Nace una herramienta gratuita para detectar y bloquear bots de IA

Escrito por Yuri Doudchitzky - Autor invitado | Oct 11, 2024 12:24:53 AM

 

Cloudfare está lanzando un conjunto de herramientas que permitirá a los usuarios limitar la intrusión de las IA que rastrean en busca de datos en sus sitios web. El software es gratuito para los usuarios de Cloudfare (incluidos los 33 millones que usan sus servicios sin pagar), e incluye la capacidad de monitorear y bloquear selectivamente los bots de extracción de datos.

Con este conjunto de herramientas, los clientes tienen acceso a un panel que muestra qué rastreadores de IA visitan sus sitios web y recopilan datos. “Hemos etiquetado a todos los rastreadores de IA, incluso si intentan ocultar su identidad”, asegura uno de los fundadores y CEO de Cloudfare, Matthe Prince, quien habló con WIRED desde la sede europea en Lisboa.

Cloudfare también ha lanzado un servicio ampliado de bloqueo de bots, que ofrece a los clientes la opción de bloquear todos los agentes de IA conocidos o bloquear algunos y permitir otros. “Queremos que sea fácil para cualquier persona, independientemente de su presupuesto o su nivel de sofisticación técnica, tener control sobre cómo los robots de IA utilizan su contenido”, dice Prince. 

Cloudfare etiqueta a los bots según sus funciones, por lo que los agentes de IA utilizados para extraer datos de entrenamiento se distinguen de los agentes de IA que extraen datos para productos de búsqueda más nuevos, como SearchGPT de OpenAI.

Los sitios web suelen tratar de controlar cómo los robots de IA rastrean sus datos actualizando un archivo de texto llamado Protocolo de Exclusión de Robots o robots.txt. Este archivo se ha utilizado desde los comienzos de internet. No es ilegal ignorar el archivo robots.txt pero antes de la IA se consideraba parte del código social de la web respetar las instrucciones del archivo.

Desde la llegada de agentes de rastreo de IA muchos sitios web han intentado limitar el rastreo no deseado editando sus archivos robots.txt. Servicios como Dark Visitors ofrecen herramientas para ayudar a los propietarios de sitios web a mantenerse al tanto del número cada vez mayor de rastreadores que podrían querer bloquear, pero se han visto limitados porque las empresas de IA sin escrúpulos tienden a ignorar o evadir comandos robots.txt.

Según Gavin King, de Dark Visitors, la mayoría de los principales agentes de IA todavía se rigen por robots.txt, pero no todos los propietarios de sitios web tienen el tiempo o los conocimientos para actualizar constantemente sus archivos robots.txt. E incluso cuando lo hacen, algunos robots eluden las directivas del archivo: intentan disfrazar el tráfico.

Según Prince, el bloqueo de bots de Cloudfare no podrá ser ignorado por aquellos que quieran succionar datos de los sitios web. “Robots.txt es como poner un cartel de prohibido el paso”, dice Prince, “mientras que esto es como tener un muro patrullado por guardias armados. Cloudfare ha creado procesos para detectar incluso los rastreadores de IA más ocultos”.

La empresa también anunció una próxima plataforma para que los clientes negocien los términos de uso del scraping (proceso de extracción de contenidos y datos de sitios web mediante un software) con empresas de inteligencia artificial, ya sea que se trate de pago por el uso de contenido o trueque de créditos para usar servicios de IA a cambio del scraping. “Realmente no nos importa cuál sea la transacción, pero sí creemos que debe haber alguna forma de devolver valor a los creadores de contenido original”, dice Prince. “La compensación no tiene porqué ser en dinero, puede ser crédito o reconocimiento. Hay varias opciones”.

Aún no hay fecha para el lanzamiento de esta plataforma, probablemente sea en 2025. Prince asegura que la intención es facilitar acuerdos de licencias y permisos entre empresas, editores, plataformas y otros sitios web. Cloudfare ha discutido estos proyectos con empresas de IA y según Prince, algunos están abiertos a conversar y otros han reaccionado negativamente.

Es difícil entender cuál es el objetivo de Cloudfare al lanzar estas herramientas de apoyo gratuito a empresas y usuarios para evitar que sus contenidos y datos sean subrepticiamente apropiados por las empresas de IA, especialmente considerando que las gigantes tecnológicas que son responsables por los sistemas de IA son a la vez los principales clientes de Cloudfare. 

Cloudfare se integró este año con Cloudstrike, conformando la asociación más grande a nivel global en ciberseguridad. Cloudstrike es la responsable por el más grande fallo en ciberseguridad ocurrido en el mes de septiembre, cuando por un error al actualizar un servicio para Microsoft, miles de empresas de todo el mundo (bancos, aeropuertos, medios de comunicación, etc.) vieron cómo sus pantallas de repente se quedaron en blanco (en realidad en azul). Este bug debió ser reparado manualmente en cada computadora (en total más de 8 millones de CPUs) por las empresas afectadas. Un tarea que requirió semanas de trabajo en algunos casos.  

Por este error, un ejecutivo de Cloudstrike recientemente pidió perdón al subcomité de ciberseguridad del Congreso de Estados Unidos, pero el error afectó también a miles de empresas de Europa y Asia con las que ni Microsoft ni Cloudstrike se disculparon. Tal vez este beneficio aparentemente desinteresado de la más grande alianza global de ciberseguridad, sea una forma de pedir perdón también al resto del mundo. O tal vez haya alguna otra intención por ahora desconocida.