Detectando contenido generado por IA en trabajos académicos: probamos 5 herramientas

300 textos analizados: precisión real vs marketing

Roberto Fernández
09.10.25
3 min lectura

Una universidad española probó 5 detectores de contenido generado por IA con 300 trabajos: 150 escritos por humanos y 150 por ChatGPT y Claude. Los resultados muestran que la detección es menos confiable de lo que los proveedores prometen.

Metodología del estudio

Crearon un dataset controlado: estudiantes escribieron ensayos de 800 palabras sobre temas específicos. Luego, los mismos prompts se dieron a GPT-4 y Claude 3. Total: 300 textos para evaluar. Las herramientas probadas: GPTZero, Originality.ai, Copyleaks, Turnitin AI, y Winston AI.

Tasas de detección

GPTZero detectó correctamente el 78% de textos generados por IA. Falsos positivos en textos humanos: 14%. Turnitin AI: 81% de precisión, 11% de falsos positivos. Winston AI: 73% y 19% respectivamente. Originality.ai y Copyleaks tuvieron rendimiento similar: entre 75-79% de precisión.

Problemas encontrados

Ninguna herramienta alcanzó el 90% de precisión prometido. Los textos de Claude fueron más difíciles de detectar que los de GPT-4: promedio de 68% de detección vs 84%. Cuando estudiantes editaban ligeramente el texto generado por IA, cambiando el 15% de las frases, la detección bajaba al 52%.

Falsos positivos problemáticos

El 14% de textos escritos completamente por humanos fueron marcados como IA. Esto afectó desproporcionadamente a estudiantes no nativos en español cuya escritura era más formal y estructurada. Un problema real de equidad académica.

Recomendaciones prácticas

Ninguna herramienta debe usarse como única evidencia de plagio. Todas requieren revisión manual. Las instituciones necesitan políticas claras sobre uso de IA, no solo detección. El coste de estas herramientas va de 8 a 30 euros por estudiante anualmente.

Volver al blog