IA para corregir exámenes: el flujo correcto

Cómo corregir exámenes con IA sin que ChatGPT empiece a corregir peor

Cada vez más profesores usan IA para corregir exámenes, redacciones, writings o tareas escritas. Y tiene sentido: una buena herramienta puede ayudarte a ahorrar tiempo, detectar patrones, redactar feedback más claro y adaptar los comentarios al nivel del alumno.

Pero hay un error muy común que hace que la IA empiece a rendir peor sin que el profesor se dé cuenta.

No suele estar en el prompt.

Está en el flujo de trabajo.

Muchos docentes hacen esto:

Abren ChatGPT, Claude o Gemini.
Pegan sus instrucciones de corrección.
Añaden la rúbrica, el nivel, los criterios y el tipo de feedback.
Empiezan a pegar exámenes o redacciones uno a uno en el mismo chat.
Piden a la IA que corrija cada entrega siguiendo los mismos criterios.

Parece lógico. De hecho, parece eficiente.

Pero a partir de cierto punto, ese mismo chat empieza a acumular demasiado contexto: instrucciones, correcciones anteriores, textos de otros alumnos, comentarios pasados, errores ya detectados y decisiones previas.

Y ese contexto acumulado puede contaminar la siguiente corrección.

El error más común al corregir exámenes con IA

El error es usar un único chat largo para corregir muchos exámenes distintos.

Cuando corriges el primer examen, la IA tiene delante tus instrucciones, la rúbrica y el texto del alumno.

Cuando corriges el quinto, décimo o vigésimo examen, la IA ya no está trabajando solo con la rúbrica y el texto actual. También tiene en la conversación correcciones anteriores, respuestas de otros alumnos, comentarios que ya generó y posibles ajustes que hiciste por el camino.

Eso puede provocar problemas como:

feedback menos preciso;
comentarios demasiado parecidos entre alumnos;
mezcla de criterios aplicados en correcciones anteriores;
pérdida de atención a partes importantes de la rúbrica;
inconsistencias entre el primer y el último examen;
tendencia a copiar el estilo de feedback anterior aunque el texto sea diferente.

El profesor puede tener la sensación de que “la IA se ha cansado” o “está peor que antes”. En realidad, muchas veces el problema es que el chat se ha llenado de ruido.

Qué es el context rot y por qué afecta a tus correcciones

A este fenómeno se le suele llamar context rot, que podríamos traducir como “pudredumbre del contexto”.

La idea es sencilla: los modelos de IA trabajan con el contexto que tienen disponible en la conversación. No “recuerdan” como una persona. Procesan la información que aparece en el chat, las instrucciones activas y, según la herramienta, otros elementos como archivos, memoria o instrucciones de proyecto.

Cuando el contexto crece demasiado o contiene información poco relevante para la tarea actual, el modelo puede rendir peor. Investigaciones y análisis técnicos sobre context rot describen una degradación del rendimiento conforme aumenta la longitud del contexto y aparecen distractores dentro de la conversación.

En educación, esto tiene una consecuencia práctica:

Si corriges muchos exámenes en el mismo chat, cada nueva corrección puede quedar influida por las anteriores.

Y eso es justo lo que quieres evitar.

La corrección debe ser consistente, pero no contaminada.

Consistente significa que todos los alumnos son evaluados con los mismos criterios.

Contaminada significa que la respuesta de un alumno anterior influye en cómo se interpreta la siguiente.

El flujo correcto: instrucciones comunes, chat limpio por alumno

La solución no es complicadísima. De hecho, es bastante simple.

Lo ideal es separar dos cosas:

Las instrucciones permanentes de corrección.
El texto concreto de cada alumno.

Las instrucciones permanentes incluyen:

nivel educativo;
materia;
tipo de tarea;
rúbrica;
criterios de evaluación;
escala de calificación, si procede;
tono del feedback;
idioma del feedback;
aspectos que no debe hacer la IA;
formato de salida esperado.

Eso debe estar guardado como base estable.

Después, cada examen o redacción debería corregirse en una conversación limpia, sin los textos de otros alumnos.

El flujo sería:

Crear un espacio de trabajo con las instrucciones de corrección.
Guardar ahí la rúbrica y los criterios.
Abrir un chat nuevo para cada alumno o entrega.
Pegar solo el texto que se va a corregir.
Revisar el feedback antes de entregarlo.
Cerrar ese chat y empezar uno nuevo para el siguiente alumno.

Así mantienes lo mejor de ambos mundos:

la IA conserva tus criterios;
cada alumno se corrige sin ruido de los anteriores.

Probar Maitic gratis

Con Maitic puedes subir una redacción en foto o PDF, aplicar tu rúbrica y recibir feedback claro, editable y personalizado sobre el texto manuscrito del alumno.

Probar ahora

Cómo hacerlo en ChatGPT, Claude o Gemini

En ChatGPT

Puedes crear un Proyecto y guardar ahí las instrucciones, archivos y contexto común. OpenAI explica que los proyectos permiten agrupar chats, archivos e instrucciones para que las respuestas estén informadas por ese espacio compartido.

Para un profesor, ese proyecto podría llamarse:

Corrección writing B1 — 4º ESO

Dentro puedes incluir:

rúbrica de writing;
criterios de corrección;
ejemplos de feedback esperado;
instrucciones de tono;
formato de respuesta;
límites: no inventar, no calificar sin justificar, no reescribir todo el texto salvo que se pida.

Después, para cada alumno, abre un chat nuevo dentro del proyecto.

No metas a todos los alumnos en el mismo chat.

En Claude

Claude también permite crear proyectos y añadir instrucciones de proyecto. Según la documentación de Anthropic, las instrucciones del proyecto se aplican a los chats dentro de ese proyecto.

La lógica es la misma:

un proyecto para la tarea o grupo;
una base común con rúbrica e instrucciones;
un chat nuevo por entrega.

En Gemini

En Gemini puedes usar Gems, que Google describe como asistentes personalizados donde puedes guardar instrucciones detalladas para tareas repetitivas.

Para un docente, una Gem podría funcionar como asistente de corrección:

Corrige writings de nivel B1 siguiendo esta rúbrica, da feedback breve, señala tres prioridades de mejora y no reescribas el texto completo.

Después, cada redacción debe tratarse como una entrada independiente, evitando encadenar demasiadas correcciones en la misma conversación.

Ejemplo de instrucciones base para corregir writing con IA

Puedes usar una estructura como esta:

Actúa como profesor de inglés de secundaria.

Vas a ayudarme a revisar writings de alumnos de nivel B1.
No sustituyes mi criterio docente: tu función es generar una propuesta de feedback que yo revisaré antes de entregarla.

Criterios de evaluación:
1. Adecuación a la tarea.
2. Organización y coherencia.
3. Gramática.
4. Vocabulario.
5. Ortografía y puntuación.

Para cada texto, devuelve:
- Resumen general en 2 frases.
- 3 fortalezas concretas.
- 3 aspectos prioritarios de mejora.
- Errores frecuentes agrupados por tipo.
- Sugerencia de mejora para la próxima redacción.
- Feedback final en tono claro, amable y útil para el alumno.

No compares al alumno con otros.
No uses información de correcciones anteriores.
No inventes intención del alumno.
No reescribas todo el texto salvo que lo pida expresamente.

Esta instrucción no es mágica. Lo importante no es solo el texto del prompt, sino usarlo dentro de un flujo limpio.

Checklist para corregir exámenes con IA sin perder consistencia

Antes de corregir varios textos con IA, revisa esto:

¿Tengo una rúbrica clara?
¿La IA sabe el nivel del alumnado?
¿He definido el tono del feedback?
¿He indicado qué formato quiero?
¿He explicado qué NO debe hacer?
¿Estoy usando un chat nuevo por alumno?
¿Estoy revisando el feedback antes de entregarlo?
¿Estoy evitando pegar datos personales innecesarios?
¿Estoy usando la IA como apoyo, no como sustituto del criterio docente?

La clave es esta:

Misma rúbrica, mismo criterio, contexto limpio.

Errores habituales al corregir con IA

1. Corregir demasiados exámenes en el mismo chat

Es el error central. Parece cómodo, pero aumenta el ruido contextual.

2. Pedir solo una nota

La IA puede ayudarte mejor si le pides feedback formativo, no solo una calificación. Una nota sin explicación aporta poco al aprendizaje.

3. No darle una rúbrica

Sin criterios claros, la IA tenderá a evaluar de forma genérica.

4. No revisar el resultado

La IA puede equivocarse, malinterpretar el nivel o sobredimensionar errores. La decisión final debe seguir siendo docente.

5. Copiar y pegar feedback sin adaptarlo

El feedback útil tiene que sonar humano, concreto y conectado con el trabajo real del alumno.

Cuándo no deberías usar IA para corregir

La IA no debería utilizarse de forma automática o acrítica en situaciones como estas:

cuando la tarea contiene datos personales sensibles;
cuando el centro no ha definido una política clara de uso;
cuando la corrección implica una decisión académica delicada;
cuando el profesor no va a revisar el resultado;
cuando el feedback generado no se entiende o no se puede justificar;
cuando la herramienta usada no cumple los requisitos de privacidad del centro.

Usar IA para corregir no significa delegar la responsabilidad. Significa apoyarse en una herramienta para acelerar partes del proceso, manteniendo el criterio profesional.

La alternativa: usar una herramienta que ya haga bien ese flujo

Crear proyectos, Gems o flujos limpios funciona.

Pero exige disciplina.

Tienes que acordarte de configurar bien las instrucciones, abrir un chat nuevo para cada alumno, no mezclar entregas, mantener la rúbrica actualizada, revisar cada feedback y copiar los resultados donde corresponda.

Si corriges pocos textos, puede ser suficiente.

Pero si corriges muchas redacciones, writings o tareas escritas cada semana, ese proceso se vuelve pesado.

Ahí es donde una herramienta como Maitic tiene sentido.

Maitic no es un chat genérico para ir pegando textos uno detrás de otro. Es un asistente de evaluación de la escritura diseñado precisamente para ordenar ese flujo:

defines o eliges una rúbrica;
subes las redacciones manuscritas o digitales;
cada entrega se analiza por separado;
el feedback se genera con criterios consistentes;
el profesor revisa y mantiene siempre el control;
el alumno recibe comentarios claros, personalizados y accionables.

La diferencia no está solo en que Maitic use IA.

La diferencia está en que organiza la corrección como debería organizarse:
misma rúbrica, mismo criterio, contexto limpio para cada alumno.

El objetivo no es que la IA corrija por ti.

El objetivo es que puedas dar mejor feedback, más rápido y sin convertir cada redacción en una tarde entera de corrección.

Conclusión

Si usas IA para corregir exámenes, redacciones o writings, no te obsesiones solo con encontrar el prompt perfecto.

El prompt importa, pero el flujo importa igual o más.

El error más común es corregir muchos alumnos dentro del mismo chat. Eso puede introducir ruido, mezclar criterios y hacer que la IA empiece a rendir peor sin que lo notes.

La solución práctica es sencilla:

guarda tus instrucciones en un proyecto, Gem o espacio estable;
usa una conversación limpia para cada alumno;
revisa siempre el feedback;
mantén tu criterio docente como última capa.

Y si ese proceso te da pereza o te consume demasiado tiempo, usa una herramienta pensada para hacerlo bien desde el principio.

Porque corregir con IA no debería significar perder control.

Debería significar recuperar tiempo para enseñar mejor.

¿Corriges writings o tareas escritas cada semana?

Con Maitic puedes corregir redacciones manuscritas o digitales en minutos, generar feedback personalizado y mantener criterios consistentes entre alumnos, grupos y profesores.

Sin mezclar textos en un mismo chat.
Sin ruido de contexto.
Sin perder el control docente.

Puedes probarlo aquí: maitic.eu