top of page
Redacción IT NOW

Detectores de IA dicen que la Declaración de Independencia de EE.UU. es un texto artificial

El uso de herramientas para identificar escritos generados por máquinas ha crecido en los últimos años, especialmente en entornos educativos. Sin embargo, pruebas con textos icónicos revelan graves fallos que ponen en duda su fiabilidad y uso en decisiones críticas.


La inteligencia artificial (IA) ha revolucionado muchas áreas, desde la industria hasta la educación. Sin embargo, junto con su avance, ha surgido la necesidad de herramientas capaces de detectar si un contenido ha sido generado por IA o por humanos. Este tipo de software, conocido como detectores de IA, se ha vuelto crucial en instituciones educativas que buscan frenar el uso indebido de herramientas como ChatGPT en tareas y ensayos. Pero, ¿qué tan precisos son realmente estos detectores?


Un reciente experimento realizado por Christopher Penn, científico de datos en la firma Trust Insights, ha generado un debate interesante sobre la eficacia de estos detectores. En su prueba, Penn utilizó uno de los textos más reconocidos de la historia: la Declaración de Independencia de los Estados Unidos. Para su sorpresa, algunos detectores concluyeron que el texto era en su mayoría generado por IA. En particular, el detector ZeroGPT respondió que el 97,75% del preámbulo de la Declaración había sido escrito por una inteligencia artificial. Este sorprendente error plantea interrogantes sobre la viabilidad de confiar en estos sistemas para aplicaciones críticas, como evaluar la originalidad de trabajos académicos.


"Los detectores de IA son un chiste y no sirven para nada", dijo Penn en un artículo publicado en su LinkedIn. "Muestre este ejemplo cuando alguien proclame en voz alta que ha encontrado algo generado por IA. Si eres un padre que cuestiona el uso de estas herramientas basura por parte de una escuela, usa este ejemplo para refutar la evaluación incorrecta".


El medio Decrypt repitió el experimento con el texto sometiendo a prueba a cuatro populares detectores de IA: Grammarly, GPTZero, QuillBot y ZeroGPT (la herramienta de la discordia). Grammarly y QuillBot lograron identificar correctamente que la Declaración era humana. Sin embargo, GPTZero sugirió un nivel más bajo de certeza sobre su origen "orgánico", mientras que ZeroGPT falló completamente, afirmando que casi todo el texto era generado por una máquina.


Estos errores revelan que las herramientas actuales de detección de IA no son lo suficientemente precisas, lo que puede tener graves consecuencias, especialmente en el ámbito educativo. Penn destacó los peligros de utilizar estos sistemas para descalificar estudiantes o tomar decisiones académicas críticas, como la suspensión o expulsión, con base en resultados de detección poco confiables.


Uno de los mayores riesgos de los detectores de IA es el elevado número de falsos positivos. Esto significa que los sistemas etiquetan textos humanos como generados por IA, lo que podría llevar a sanciones injustas. Como lo explicó Penn, "si una institución académica va a tomar una decisión tan seria como expulsar a un estudiante, el margen de error debe ser cero". Sin embargo, su experimento muestra que ninguna de las herramientas probadas logra este nivel de precisión.


GPTZero, una de las herramientas más conocidas en el mercado, también reconoce las limitaciones de su tecnología. Alex Cui, CTO de GPTZero, señaló al medio que su software debe ser utilizado como una herramienta de diagnóstico más que como una prueba definitiva para decisiones de alto riesgo. Tanto Grammarly como GPTZero están trabajando en sistemas de "autenticidad de autoría", que analizan los patrones de escritura para verificar si un documento ha sido escrito por un humano o una IA. Sin embargo, la tecnología aún tiene un largo camino por recorrer antes de ser completamente confiable.


Ante estos desafíos, las empresas que desarrollan detectores de IA están ajustando sus modelos para reducir las tasas de error. Utilizando grandes bases de datos de textos generados por humanos e IA, buscan entrenar sus sistemas para ser más precisos. Sin embargo, como advierte Penn, no basta con tener menos de un 1% de falsos positivos en situaciones de bajo riesgo. En contextos críticos, como la educación o incluso el periodismo, la precisión debe ser prácticamente infalible.


Comentarios


bottom of page