Tecnologías disruptivas
La IA que genera textos es una fuente de plagios encubiertos
Estos sistemas inteligentes son como loros que repiten lo aprendido en documentos originales, según una investigación

Los científicos advierten del riesgo de plagios en documentos elaborados por la IA. / Alexandra_Koch en Pixabay.
Redacción T21
Los sistemas de Inteligencia Artificial que generan contenidos parafrasean y reutilizan ideas sin citar la fuente: plagian porque no han sido instruidos para escribir correctamente. Son como loros que repiten lo que aprenden de documentos originales. Los usuarios pueden ser víctimas de esta incompetencia.
Los modelos de lenguaje que generan texto en respuesta a las indicaciones del usuario plagian el contenido en más de un sentido, según un equipo de investigación dirigido por la Universidad Estatal de Pensilvania que realizó el primer estudio para examinar el proceso de generación de contenidos de estos sistemas de Inteligencia Artificial (IA).
Los investigadores se centraron en identificar tres formas de plagio: palabra por palabra, o directamente copiar y pegar contenido; parafrasear, o reformular y reestructurar el contenido sin citar la fuente original; o usar la idea principal de un texto sin la debida atribución.
Construyeron una canalización para la detección automática de plagio y la probaron con GPT-2 de OpenAI porque los datos de entrenamiento del modelo de lenguaje están disponibles en línea, lo que permitió a los investigadores comparar los textos generados por esta IA con los 8 millones de documentos utilizados para entrenar previamente a GPT-2.
Plagio comprobado
Los científicos utilizaron 210.000 textos generados por la IA para probar el plagio en modelos de lenguaje previamente entrenados y modelos de lenguaje ajustados, e incluso modelos entrenados para enfocarse en áreas temáticas específicas.
En este caso, el equipo ajustó tres modelos de lenguaje para centrarse en documentos científicos, artículos académicos relacionados con COVID-19 y reclamos de patentes.
Utilizaron un motor de búsqueda de código abierto para recuperar los 10 documentos de capacitación más similares a cada texto generado y modificaron un algoritmo de alineación de texto existente para detectar mejor los casos de plagio literal, de paráfrasis y de ideas.
Más datos, más plagios
El equipo descubrió que los modelos de lenguaje cometían los tres tipos de plagio y que cuanto mayor era el conjunto de datos y los parámetros utilizados para entrenar el modelo, más a menudo ocurría el plagio.
También notaron que los modelos de lenguaje afinados redujeron el plagio textual, pero aumentaron los casos de paráfrasis y plagio de ideas.
Además, identificaron instancias del modelo de lenguaje que exponía la información privada de las personas a través de las tres formas de plagio. Los investigadores presentarán sus hallazgos en la Conferencia Web ACM 2023, que tendrá lugar del 30 de abril al 4 de mayo en Austin, Texas. El estudio ya está publicado en arXiv.
Más investigación
El estudio destaca la necesidad de más investigación sobre los generadores de texto y las cuestiones éticas y filosóficas que plantean, según los investigadores.
Aunque los resultados del estudio solo se aplican a GPT-2, el proceso de detección automática de plagio que establecieron los investigadores se puede aplicar a modelos de lenguaje más nuevos como ChatGPT para determinar si estos modelos plagian contenido de capacitación y con qué frecuencia.
Sin embargo, las pruebas de plagio dependen de que los desarrolladores hagan que los datos de capacitación empleados por la IA para aprender sean de acceso público, dijeron los investigadores.
Aviso a navegantes
El estudio actual puede ayudar a los investigadores de IA a construir modelos de lenguaje más sólidos, confiables y responsables en el futuro, según los científicos. Por ahora, instan a las personas a tener cuidado al usar generadores de texto.
El problema de fondo es que los modelos de lenguaje se programan para imitar escritos humanos, sin enseñarles a generar contenidos sin llegar a plagiar.
Esos modelos son como loros estocásticos que repiten con adornos lo que ven en documentos originales, dicen los autores de esta investigación en un comunicado.
Los investigadores plantean que es el momento de enseñarles a escribir más correctamente, lo que supone una tarea que no ha hecho más que comenzar.
Referencia
Do Language Models Plagiarize? Jooyoung Lee et al. arXiv:2203.07618v2 [cs.CL]. DOI:https://doi.org/10.48550/arXiv.2203.07618
- Problemas con Ryanair en Mallorca: unos pasajeros alemanes pagaron 270 euros al superar por un centímetro el tamaño permitido de su maleta
- El testimonio de David, un joven de 16 años con cáncer en Mallorca: 'El apoyo psicológico me ayuda a seguir adelante
- Atasco kilométrico en la autopista del aeropuerto hacia Palma tras volcar un camión cargado de gasoil
- Monta una carpa para celebrar San Valentín en la playa del Portitxol
- Conductores atrapados en el atasco: 'Llevamos una hora parados entre el Molinar y el Coll d'en Rabassa
- Aumenta el fraude eléctrico en Baleares: el municipio en el que se han detectado más casos está en Mallorca
- Marvin Entholt: «Hay alemanes que habitan un cosmos paralelo en Mallorca»
- El hijo del conocidísimo 'Frank de la Jungla' ficha por el Llosetense