El hambre de datos de OpenAI está volviendo para morderlo

En el desarrollo de IA, el paradigma dominante es que cuantos más datos de entrenamiento, mejor. El modelo GPT-2 de OpenAI tenía un conjunto de datos que constaba de 40 gigabytes de texto. GPT-3, en el que se basa ChatGPT, se entrenó con 570 GB de datos. OpenAI no ha compartido qué tan grande es el conjunto de datos para su último modelo, GPT-4.

Pero ese hambre por modelos más grandes ahora está volviendo a morder a la compañía. En las últimas semanas, varias autoridades occidentales de protección de datos han iniciado investigaciones sobre cómo OpenAI recopila y procesa los datos que alimentan a ChatGPT. Creen que ha recopilado datos personales de personas, como nombres o direcciones de correo electrónico, y los ha utilizado sin su consentimiento.

La autoridad italiana ha bloqueado el uso de ChatGPT como medida de precaución, y los reguladores de datos franceses, alemanes, irlandeses y canadienses también están investigando cómo el sistema OpenAI recopila y utiliza datos. El Consejo Europeo de Protección de Datos, la organización paraguas de las autoridades de protección de datos, también está creando un grupo de trabajo a nivel de la UE para coordinar las investigaciones y la aplicación en torno a ChatGPT.

Italia ha dado OpenAI hasta el 30 de abril para cumplir con la ley. Esto significaría que OpenAI tendría que pedir el consentimiento de las personas para que se extraigan sus datos, o demostrar que tiene un “interés legítimo” en recopilarlos. OpenAI también tendrá que explicar a las personas cómo ChatGPT usa sus datos y darles el poder de corregir cualquier error sobre ellos que escupe el chatbot, borrar sus datos si lo desean y oponerse a permitir que el programa de computadora los use.

Si OpenAI no puede convencer a las autoridades de que sus prácticas de uso de datos son legales, podría prohibirse en países específicos o incluso en toda la Unión Europea. También podría enfrentar fuertes multas e incluso podría verse obligado a eliminar modelos y los datos utilizados para entrenarlos, dice Alexis Leautier, un experto en IA de la agencia francesa de protección de datos CNIL.

Las violaciones de OpenAI son tan flagrantes que es probable que este caso termine en el Tribunal de Justicia de la Unión Europea, el tribunal supremo de la UE, dice Lilian Edwards, profesora de derecho de Internet en la Universidad de Newcastle. Podrían pasar años antes de que veamos una respuesta a las preguntas planteadas por el regulador de datos italiano.

Juego de apuestas altas

Lo que está en juego no podría ser más alto para OpenAI. El Reglamento General de Protección de Datos de la UE es el régimen de protección de datos más estricto del mundo y se ha copiado ampliamente en todo el mundo. Los reguladores de todo el mundo, desde Brasil hasta California, prestarán mucha atención a lo que suceda a continuación, y el resultado podría cambiar fundamentalmente la forma en que las empresas de inteligencia artificial recopilan datos.

Además de ser más transparente sobre sus prácticas de datos, OpenAI deberá demostrar que está utilizando una de las dos posibles formas legales de recopilar datos de entrenamiento para sus algoritmos: consentimiento o “interés legítimo”.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *