Amazon investiga a la startup de inteligencia artificial Perplexity por rastrear sitios sin permiso
Amazon está investigando a la startup de inteligencia artificial Perplexity por supuestamente violar las reglas de su división Cloud al “extraer” contenido de otros sitios web de manera indebida sin permiso, según un informe del viernes.
Perplexity, que recientemente obtuvo una valoración de 3 mil millones de dólares, supuestamente ignora un conocido estándar web llamado Protocolo de exclusión de robots, comúnmente conocido como robots.txt, que los editores de noticias y otros sitios utilizan para mostrar a los robots automatizados qué páginas no son. permitido raspar, salida tecnológica Wired informó.
Si bien la ley no exige cumplir con el estándar, la mayoría de las empresas de Internet optan por seguir el protocolo. El cumplimiento también es obligatorio para los sitios web que dependen de Amazon Web Services, como Perplexity.
“Los términos de servicio de AWS prohíben a los clientes utilizar nuestros servicios para cualquier actividad ilegal, y nuestros clientes son responsables de cumplir con nuestros términos y todas las leyes aplicables”, dijo un portavoz de Amazon en un comunicado.
El escrutinio de las prácticas de Perplexity se ha intensificado después de que Forbes acusara a la compañía a principios de este mes de “copiar directamente” artículos escritos por sus periodistas y otros de CNBC y Bloomberg, incluidos aquellos que estaban detrás de muros de pago.
Wired se acercó a Amazon después de que su propia investigación determinara que Perplexity supuestamente utilizó una “dirección IP no publicada” para rastrear sitios web operados por su empresa matriz Condé Nast, a pesar de que estaba tratando de bloquear el acceso.
El medio dijo que representantes de otros medios, incluidos Forbes, New York Times y The Guardian, habían detectado la misma dirección IP visitando sus servidores.
El Post se puso en contacto con Amazon para solicitar comentarios.
La portavoz de Perplexity, Sara Platnick, rechazó el informe de Wired, calificándolo de “inexacto”.
“Nuestro PerplexityBot, que se ejecuta en AWS, respeta robots.txt y confirmamos que los servicios controlados por Perplexity no se rastrean de ninguna manera que viole los Términos de servicio de AWS”, dijo Platnick en una declaración.
“AWS investigó la consulta de prensa de WIRED como parte de un protocolo estándar para investigar informes de abuso de los recursos de AWS”, agregó Platnick. “No habíamos escuchado nada de AWS antes de que un periodista de WIRED se comunicara con ellos. Decir que AWS está 'investigando' a Perplexity fuera de esta investigación específica de WIRED es incorrecto. AWS es un socio valioso para Perplexity y estamos agradecidos por su colaboración continua”.
Platnick dijo a Wired que PerplexityBot eludiría el protocolo robots.txt en circunstancias “muy poco frecuentes” en las que un usuario incluía una URL específica en su consulta.
El director ejecutivo de Perplexity, Aravind Srinivas, había criticado anteriormente los hallazgos de Wired, afirmando que “reflejan una incomprensión profunda y fundamental de cómo funcionan Perplexity e Internet”.
Forbes se había mostrado en desacuerdo con una función llamada “Perplexity Pages”, un producto que muestra artículos “seleccionados” que extraen detalles de artículos escritos por medios de noticias de terceros.
Los autores originales no fueron acreditados por su nombre, incluso cuando la redacción de las publicaciones de Perplexity coincidía estrechamente con la del texto original.
En lugar de ello, Perplexity utilizó lo que Forbes describió como “logotipos pequeños y fáciles de pasar por alto” que enlazaban a las fuentes originales.
En un ejemplo atroz, el chatbot de Perplexity produjo una versión de Un informe exclusivo de Forbes de pago sobre el proyecto de drones militares del ex CEO de Google, Eric Schmidt.
“Nuestro informe sobre el proyecto de drones furtivos de Eric Schmidt fue publicado esta mañana por @perplexity_ai”, El editor ejecutivo de Forbes, John Paczkowski, escribió en X En el momento. “Eso desbarata la mayoría de nuestros informes. Nos cita a nosotros, y a algunos que nos rebloguearon, como fuentes de la manera más fácilmente ignorada posible”.
Srinivas dijo que la herramienta “tiene asperezas”, pero por lo demás negó haber actuado mal.