Una universidad española probó 5 detectores de contenido generado por IA con 300 trabajos: 150 escritos por humanos y 150 por ChatGPT y Claude. Los resultados muestran que la detección es menos confiable de lo que los proveedores prometen.
Metodología del estudio
Crearon un dataset controlado: estudiantes escribieron ensayos de 800 palabras sobre temas específicos. Luego, los mismos prompts se dieron a GPT-4 y Claude 3. Total: 300 textos para evaluar. Las herramientas probadas: GPTZero, Originality.ai, Copyleaks, Turnitin AI, y Winston AI.
Tasas de detección
GPTZero detectó correctamente el 78% de textos generados por IA. Falsos positivos en textos humanos: 14%. Turnitin AI: 81% de precisión, 11% de falsos positivos. Winston AI: 73% y 19% respectivamente. Originality.ai y Copyleaks tuvieron rendimiento similar: entre 75-79% de precisión.
Problemas encontrados
Ninguna herramienta alcanzó el 90% de precisión prometido. Los textos de Claude fueron más difíciles de detectar que los de GPT-4: promedio de 68% de detección vs 84%. Cuando estudiantes editaban ligeramente el texto generado por IA, cambiando el 15% de las frases, la detección bajaba al 52%.
Falsos positivos problemáticos
El 14% de textos escritos completamente por humanos fueron marcados como IA. Esto afectó desproporcionadamente a estudiantes no nativos en español cuya escritura era más formal y estructurada. Un problema real de equidad académica.
Recomendaciones prácticas
Ninguna herramienta debe usarse como única evidencia de plagio. Todas requieren revisión manual. Las instituciones necesitan políticas claras sobre uso de IA, no solo detección. El coste de estas herramientas va de 8 a 30 euros por estudiante anualmente.