Prevenir el colapso de modelos por la IA en el ámbito jurídico
"Los datos generados artificialmente degradan los modelos de IA"
(Imagen: EY)
Prevenir el colapso de modelos por la IA en el ámbito jurídico
"Los datos generados artificialmente degradan los modelos de IA"
(Imagen: EY)
El artículo titulado «AI models collapse when trained on recursively generated data», publicado en Nature el pasado día 24 de julio, presenta un problema crítico en el ámbito del desarrollo de la inteligencia artificial (en adelante, IA): el colapso de los modelos. Este fenómeno se manifiesta cuando los modelos de IA son entrenados repetidamente con datos generados por versiones anteriores de ellos mismos, resultando en una pérdida progresiva de la diversidad y calidad del contenido. Este problema es particularmente relevante para los profesionales del derecho, que dependen de la precisión y fiabilidad de la IA en su trabajo diario.
Hay que resaltar que el estudio detalla cómo una excesiva dependencia de datos generados artificialmente puede desencadenar un ciclo de retroalimentación negativa. A medida que los modelos se entrenan con datos de menor calidad, su capacidad para generar resultados precisos disminuye. Esta degradación de calidad no solo afecta a los modelos de lenguaje como ChatGPT, sino también a otros tipos de modelos generativos, subrayando la universalidad del problema y su impacto en diversas aplicaciones de la IA, incluida la práctica jurídica.
Los investigadores han denominado este fenómeno «colapso del modelo«, que se produce debido a la desaparición de las distribuciones originales del contenido. Los modelos comienzan a perder la diversidad y calidad del contenido que inicialmente les permitía ser efectivos. Peter Norvig, destacado investigador de Google, ya introdujo en 2013 el concepto de saturación de los modelos, previendo este fenómeno al hablar de su preocupación por las carencias del aprendizaje automático y el deep learning. Predijo que, a pesar de los avances significativos, llegaría un punto en el que aumentar la escala y la complejidad de los modelos no resultaría en mejoras adicionales. La investigación reciente confirma esta teoría, mostrando que la dependencia de datos generados por IA puede llevar a una disminución en la calidad del contenido con cada iteración.
La saturación de los modelos es un tema poco discutido, a pesar de que muchos problemas recientes se han mejorado con el aumento de datos preparados. Sin embargo, los investigadores son conscientes de que la saturación es inevitable y que eventualmente limitará el rendimiento de los modelos. Esta situación afecta negativamente la esperanza de alcanzar una IA general, a pesar de las afirmaciones de que nos estamos acercando a ella.
En el contexto jurídico, esto plantea un desafío significativo. Los juristas que utilizan IA deben ser particularmente cuidadosos en la curación y selección de datos de entrenamiento para evitar que sus sistemas de IA caigan en una trampa de retroalimentación negativa. Garantizar la diversidad, calidad y originalidad del contenido es esencial para mantener la precisión y efectividad de estos sistemas. En el corto y medio plazo, el objetivo debe ser evitar que la IA se convierta en una trampa de retroalimentación negativa, asegurando así su utilidad y fiabilidad en el ámbito jurídico y en otras áreas críticas.
El estudio publicado en Nature destaca que los sistemas de IA colapsan si se quedan sin obras humanas de las que aprender. Los modelos entrenados con contenidos generados por otras inteligencias artificiales pierden la percepción de la realidad, comprometiendo su curva de aprendizaje. La IA tiene una ansia infinita de datos, pero las obras humanas no son infinitas. Esta limitación amenaza con frenar el desarrollo potencial de la tecnología.
Empresas como OpenAI han utilizado todos los datos de alta calidad disponibles en la red para entrenar modelos como ChatGPT. Ante la necesidad de seguir suministrando información a sus máquinas para que continúen mejorando, han recurrido a datos de menor calidad, como los provenientes de redes sociales o aquellos protegidos por derechos de autor. Para evitar problemas jurídicos, la industria ha considerado utilizar contenidos generados por IA en el entrenamiento de nuevas inteligencias artificiales. Sin embargo, los expertos advierten que esto podría llevar a un conocimiento endogámico, exagerando errores y separando a los sistemas automáticos de las creaciones humanas.
El estudio, firmado por investigadores de universidades prestigiosas y el Instituto Vector de Canadá, analiza el impacto de los datos sintéticos en el entrenamiento de IA. Aunque actualmente los datos sintéticos no tienen un peso significativo en el corpus de entrenamiento, su uso creciente podría llegar pronto. A medida que los contenidos generados artificialmente se expanden en Internet, los modelos de IA podrían empezar a canibalizar sus propias creaciones, «contaminando» sus datos de entrenamiento. Ello resultaría en un «colapso del modelo,» donde los sistemas pierden diversidad, repiten elementos y frases, y su capacidad para manejar situaciones nuevas disminuye drásticamente. Se crearía un círculo vicioso, un proceso degenerativo en el que los modelos olvidan eventos improbables y se envenenan con su propia proyección de la realidad.
Los autores del artículo subrayan la importancia de los datos humanos, cada vez más valiosos en presencia de contenido generado por IA. Las empresas que comenzaron a entrenar sus modelos antes de que la red se llenara de contenidos generados artificialmente tienen una ventaja significativa. La recopilación de datos sobre interacciones humanas genuinas se vuelve crucial para evitar el envenenamiento de los modelos.
Ejemplos recientes muestran el valor creciente de estos datos. Meta ha sido amonestada por las autoridades de protección de datos de la Unión Europea por intentar utilizar comentarios y fotografías de usuarios sin su consentimiento para entrenar una nueva IA.
Elon Musk, propietario de Twitter, ha introducido sin aviso una opción para usar los datos de los usuarios en el entrenamiento de su IA, Grok, lo que ha generado preocupación en Europa.
Por tanto, el colapso de los modelos de IA debido a la dependencia de datos generados por otras aplicaciones algorítmicas es un problema serio que afecta a la precisión y efectividad de estos sistemas. Para los juristas, la solución radica en garantizar la diversidad, calidad y originalidad del contenido utilizado en el entrenamiento de la IA. Solo así se puede evitar que cada algoritmo se convierta en una trampa de retroalimentación negativa, asegurando su utilidad y fiabilidad en la práctica jurídica y otras áreas críticas.
En el ámbito jurídico, la utilización de resoluciones judiciales de alta relevancia, como las del Tribunal Supremo, el Tribunal Constitucional, el Tribunal de Justicia de la Unión Europea y el Tribunal Europeo de Derechos Humanos, presenta una estrategia viable para evitar el colapso de los modelos de IA. Estas resoluciones son fuentes ricas en contenido de alta calidad, que abordan una amplia gama de cuestiones jurídicas complejas y representan la cúspide del razonamiento jurídico en sus respectivas jurisdicciones.
Al entrenar modelos de IA con este tipo de documentos, se puede asegurar que la diversidad y calidad del contenido se mantengan en un nivel elevado. Estas resoluciones no solo contienen un lenguaje técnico preciso y bien fundamentado, sino que también están basadas en un profundo análisis de casos específicos y en la interpretación de reglas esenciales. Por lo tanto, representan una base de datos sólida y diversa que puede contrarrestar los efectos negativos de la dependencia excesiva de datos generados artificialmente.
Además, las resoluciones de estos tribunales son resultado de deliberaciones exhaustivas y están sujetas a revisiones y controles de calidad rigurosos, lo que las convierte en una fuente fiable y auténtica. La inclusión de estos documentos en el entrenamiento de modelos de IA no solo mejorará la precisión y la fiabilidad de las respuestas generadas por los algoritmos en contextos jurídicos, sino que también garantizará que la IA esté alineada con los estándares normativos más altos.
El acceso a un corpus de datos compuesto por resoluciones de alto perfil también puede facilitar el desarrollo de sistemas algorítmicos que comprendan mejor las sutilezas y matices del lenguaje jurídico. Ello es crucial para la práctica jurídica, donde la interpretación precisa de términos y la aplicación correcta de la jurisprudencia son fundamentales. Un modelo de IA entrenado con estas resoluciones podrá ofrecer asesoramiento más certero, identificar precedentes relevantes con mayor exactitud y proporcionar análisis más profundos y fundamentados, más allá de los textos normativos, que son cambiantes y carentes en demasiadas ocasiones de claridad y precisión.
Por otro lado, el uso de resoluciones de estos tribunales también plantea desafíos, como la necesidad de garantizar que el procesamiento de estos datos respete los derechos de privacidad y confidencialidad, y que se cumplan con las normas pertinentes. Asimismo, se debe considerar la posibilidad de que algunas resoluciones contengan lenguaje y conceptos que requieran contextualización adicional para ser completamente comprendidos por los entramados algorítmicos.
De todo lo anterior, cabe inferir que el entrenamiento de modelos de IA con resoluciones judiciales de alto nivel puede ofrecer una solución efectiva para evitar el colapso de los modelos debido a la dependencia de datos generados artificialmente. Al aprovechar la riqueza y diversidad de estos documentos, se puede mejorar significativamente la precisión y fiabilidad de los sistemas de IA en el ámbito jurídico, asegurando que las herramientas algorítmicas sigan siendo útiles y confiables para los profesionales del derecho. Esta estrategia no solo fortalece los modelos de IA, sino que también contribuye a la integración de principios jurídicos sólidos y preceptos éticos en el funcionamiento de los sistemas algorítmicos.