Por el Psic. Fernando Reyes Baños


Este material fue elaborado como una guía para cualquier docente universitario que esté interesado en saber más acerca de los recursos que actualmente están disponibles para elaborar, de un modo más sistemático y correcto, exámenes escolares.


I.BASES DE LA MEDICIÓN DEL RENDIMIENTO ESCOLAR


I.1 Precisiones: acreditar, evaluar y calificar

Acreditar. Tiene que ver con criterios de tipo académico-administrativo, mediante los cuales una institución educativa avala el título, diploma o constancia que se otorga a cada alumno, así como el tipo y nivel de la formación que dicho documento representa. Para poder respaldar esta certificación, cada institución educativa establece determinados criterios de acreditación, es decir, requisitos mínimos sin los cuales el alumno no aprueba una materia y no se le acredita en su expediente escolar.

A nivel institucional, los criterios de acreditación más comúnmente utilizados son: a) Cierto porcentaje de asistencia a clases y b) Una calificación final mínima.

En algunas instituciones educativas, estos criterios se establecen de manera oficial y estandarizada, mientras que en otras se delegan en el profesor, la responsabilidad (y autoridad) para definir los criterios que regirán en su clase.

Evaluar. La evaluación del proceso de enseñanza-aprendizaje tiene un objetivo explícito y otro implícito: el primero, busca analizar en qué medida se han cumplido los objetivos de aprendizaje planteados, para detectar posibles fallas u obstáculos en el proceso y superarlos. Se trata de detectar la efectividad de la metodología de trabajo en función del logro de los objetivos de aprendizaje; el segundo, busca propiciar la reflexión de los alumnos en torno a su propio proceso de aprendizaje para lograr un mayor compromiso con él. Se trata de que se hagan cargo, responsablemente, de su propio proceso de aprendizaje.

Para lograr estos objetivos, la evaluación debe reunir las siguientes características:

- Debe ser participativa, es decir, se debe hacer (por lo menos en parte) junto con los alumnos en el salón de clases.
- Debe ser completa, es decir, debe abarcar todos los aspectos importantes del proceso de enseñanza-aprendizaje: objetivos, contenidos, metodología, bibliografía, manera de trabajar, organización grupal, etc.
- Debe ser continua, a lo largo del semestre o curso escolar, y no dejarse para el final del mismo.

¿Con qué criterios realizar la evaluación? A continuación se presentan algunas preguntas guía:

- ¿Se han cumplido los objetivos de aprendizaje planteados hasta el momento? ¿Hemos aprendido lo que se esperaba? ¿Qué sí y qué no? Un indicador importante para responder estas preguntas son los resultados de los exámenes, así como las tareas y trabajos entregados por los alumnos y revisados por el profesor.
- ¿A qué se debe lo anterior? ¿Cuáles son las causas? Se trata de encontrar tanto los factores que hayan ayudado y favorecido el aprendizaje como aquellos que lo hayan frenado u obstaculizado.
- ¿Qué medidas correctivas podemos tomar para incrementar la efectividad del proceso de enseñanza-aprendizaje? Estas medidas se pueden referirse a los alumnos, al profesor, a la metodología de trabajo, a los materiales de apoyo o a cualquier otro factor que intervenga de manera decisiva en el proceso.

Finalmente, la evaluación puede ser realizada:

- Al término de cada unidad temática,
- En cualquier momento a lo largo del proceso de enseñanza-aprendizaje que se detecte que sucede algo que puede obstaculizar el logro de los objetivos de aprendizaje,
- En la última sesión del curso,
- Al término del curso, después de haber obtenido las calificaciones finales del grupo, y como una reflexión personal del docente, que servirá para rediseñar o reestructurar su curso para el siguiente semestre.

Calificar. Una tendencia actual es considerar como un equívoco hacer depender la calificación total de una única actividad académica, sea ésta el examen final o la presentación de un trabajo escrito. La justificación de esta tendencia es doble: porque muchas veces intervienen circunstancias ajenas o externas al aprendizaje mismo que determinan o condicionan la calificación alcanzada y porque con un sólo mecanismo, el profesor logra medir únicamente, un tipo de aprendizaje.

Si el profesor se ha propuesto en su plan de trabajo diversos objetivos, la calificación debe procurar medir los aprendizajes logrados en todos ellos y no sólo en uno o algunos. En la medida en que, para calificar, se utilice un mayor número de mecanismos, se superará el estatus de subjetiva, azarosa y parcial que la calificación suele tener.

Uno de tales mecanismos son los exámenes. Estos pueden ser orales o escritos y se pueden aplicar en distintos momentos del proceso de enseñanza-aprendizaje: desde uno cada vez que se termina una unidad temática hasta sólo 2 o 3 en todo el semestre. Otros mecanismos que pueden agregarse al anterior, o incluso sustituirlo, son:

- Presentación de una investigación o ensayo amplio al final del curso,
- Entrega de reportes bibliográficos,
- Entrega de varios ensayos breves a lo largo del semestre,
- Exposiciones presentadas en clase,
- Reportes de prácticas y/o experimentos,
- Reportes de encuestas,
- Entrevistas y/o trabajos de campo,
- Etc.

Los criterios para calificar dependen del estilo personal y del plan de trabajo de cada profesor. Hay dos clases de criterios para calificar: a) Los destinados a los porcentajes que deben asignarse a cada una de las actividades con las que se califica, por ejemplo:

Examen 50%
Control de lecturas 15%
Exposiciones en clase 15%;
Práctica 20%

y b) Los que se refieren a los aspectos que serán considerados para otorgar la calificación en cada actividad, por ejemplo: El total de reactivos contestados correctamente en el examen.

Finalmente, hay que mencionar que calificar y medir son acciones estrechamente relacionadas porque la calificación que es otorgada, por ejemplo, con base a los resultados obtenidos en una prueba es la expresión numérica que resulta de haber medido con ella algún área de conocimientos. Ahora bien, medir con un instrumento para calificar el rendimiento escolar de los estudiantes implica, en el mejor de los casos, cierta metodología.


I.2 Medición

a) Qué es medir: Veamos algunas definiciones:

Una definición ya tradicional, dada por S. S. Stevens en 1951, es la que afirma que medir es asignar números a objetos y a eventos de acuerdo con reglas preestablecidas.

Posteriormente, María Luisa Morales define con mayor flexibilidad este concepto al afirmar que la medición: implica un procedimiento, mediante el cual, asignamos números a las propiedades, atributos o características de los objetos, estableciendo las reglas específicas sobre las que se fundamentan tales asignaciones.

Más ad hoc con las particularidades de las llamadas ciencias sociales, Hernández Sampieri expresa actualmente que medir es el proceso de vincular conceptos abstractos con indicadores empíricos, lo cual, se realiza sistemáticamente para clasificar y cuantificar los datos disponibles en términos del concepto que el investigador tiene en mente.


b) Qué es un instrumento de medición: De la misma manera, será preciso revisar algunas definiciones que se han hecho acerca de lo que se entiende por un instrumento de medición:

Desde la psicología, María Luisa Morales afirma que un instrumento de medición es un conjunto de operaciones que nos permite llegar a obtener, objetivamente y con la mayor certeza posible, información sobre las manifestaciones del comportamiento relacionadas con esa unidad biopsicosocial que somos.

Según Lewis R. Aiken, las pruebas son métodos para la observación sistemática de la conducta.

Desde un punto de vista más general, Hernández Sampieri explica que un instrumento de medición equivale a un dispositivo que permite registrar datos observables que representan los conceptos que el investigador tiene en mente.


c) Cuántos tipos de instrumentos hay: Revisemos algunas clasificaciones que se han hecho de los diferentes tipos de instrumentos de medición:

1.Según la conducta que miden:
- De inteligencia,
- De personalidad,
- De intereses y valores,
- De rendimiento,
- Etc.

2. Según su objetivo:
- De ejecución máxima. Exigen del examinado su máximo rendimiento en las distintas tareas que componen la prueba.
- De ejecución típica. Llamadas también de clasificación tipológica o cualitativa.

3. Según el tipo de respuesta exigida:
- Objetivas. El examinado elige una respuesta entre varias alternativas.
- Subjetivas. El sujeto proporciona libremente la respuesta.

4. Según la forma de administración:
- De aplicación individual,
- De aplicación colectiva y
- Autoadministrables.

5. Según la forma de dar las instrucciones:
- Orales y
- Escritas.

6. Según la libertad de ejecución:
- De poder. Exigen que el sujeto emplee toda su capacidad. El tiempo límite a veces es controlado.
- De velocidad. Exigen que el sujeto ejecute la tarea asignada lo más rápido posible. La duración de la prueba es rigurosamente controlada.

7. Según el material utilizado:
- De papel y lápiz,
- Completamente verbal,
- De ejecución y
- Mixtas.

8. Según la forma de calificación:
- Manual e
- Informatizada.

9. Según la población a la que se destina:
- Para niños preescolares y escolares,
- Para adolescentes,
- Para adultos,
- Las que pueden aplicarse a dos o más etapas del desarrollo.


d) Cuáles son las escalas de medición: El concepto de escalas de medida, introducido a la psicología por Stevens en 1946, demostró que en las ciencias del comportamiento son posibles diversos niveles de medición.

En general, el proceso de medición tiene 4 niveles:

1) La variable (o propiedad) que se quiere medir, por ejemplo, sexo, inteligencia, memoria, temperatura, etc.;
2) El atributo (o grado) en que se manifiesta la propiedad medida;
3) El valor (o forma) de expresar numéricamente dicho atributo, y
4) La relación aceptable entre los distintos valores de la variable.

Por ejemplo, en la variable "clase social", el proceso de medición quedaría representado como:


Este autor explica el proceso de medición como la asignación de números a objetos o hechos de acuerdo a reglas previamente establecidas, asignación que puede realizarse bajo diferentes reglas de conjunto, que Stevens diferencia de acuerdo a cuatro tipos generales de escalas: nominal, ordinal, de intervalo y de razón. La importancia que tienen estas escalas para la elaboración de pruebas psicológicas y exámenes escolares es que cada pregunta que se haga, y por ende cada variable que se mida, puede manifestarse en una escala nominal, ordinal, de intervalos o de razón. Veamos a continuación, brevemente, cada una de ellas:

i) Escala nominal. Se observan dos o más categorías de la pregunta o la variable que se mide. Las categorías no tienen orden ni jerarquía. Lo que se mide se coloca en una u otra categoría. Se utilicen nombres o números para identificar las categorías, la función de éstas es meramente clasificatoria y no se pueden manipular de manera aritmética. Ejemplo:


ii) Escala ordinal. Tenemos aquí varias categorías, las cuales, mantienen un orden de mayor a menor. No obstante, aunque las etiquetas o símbolos de las categorías indiquen en este nivel jerarquía (definan posiciones), no están ubicadas a intervalos iguales (no hay una unidad de medida igual para cada una de ellas), lo cual, impide también en este caso el uso de operaciones aritméticas básicas. Ejemplo:


iii) Escala de intervalos. Además del orden entre las categorías, se establecen intervalos iguales en la medición. Las distancias entre las categorías son las mismas a lo largo de toda la escala. Ejemplo: Si en una prueba de resolución de problemas matemáticos (30 problemas de igual dificultad), Ana resuelve 10, Laura 20 y Brenda 30, puede decirse que la distancia entre Ana y Laura es igual a la distancias entre laura y Brenda. Sin embargo, el cero en esta escala no es real (se asigna arbitrariamente a una categoría el valor de cero y a partir de ésta se construye la escala). En ciencias naturales, por ejemplo, el cero que se asigna para la temperatura en grados centígrados y Fahrenheit es arbitrario, pues no implica que en realidad haya cero (ninguna) temperatura.

iv) Escala de razón. En este nivel, además de tenerse todas las características del nivel anterior (intervalos iguales entre las categorías y aplicación de operaciones aritméticas básicas), el cero es real y es absoluto (no es arbitrario). Cero absoluto significa que hay un punto en la escala donde no existe la propiedad. Ejemplos: el número de hijos, la productividad, las ventas de un producto, el ingreso, etc.

Obsérvese en la siguiente tabla un resumen de las características de estas cuatro escalas y un ejemplo de cada una de ellas:


El modelo propuesto por Stevens constituye una herramienta poderosa para clasificar las pruebas estadísticas. Y si atendemos a esta clasificación, los datos psicológicos que pueden ser medidos en una escala de intervalos no son en principio abundantes, es decir, la mayoría de las variables psicológicas estarían dentro del modelo de escala ordinal, por ejemplo, los tests de inteligencia o los cuestionarios de personalidad.


I.3 Aspectos esenciales de los instrumentos de medición:


a)Confiabilidad: La confiabilidad se refiere al grado en que la aplicación repetida de un instrumento de medición al mismo sujeto produce resultados iguales. Analícese el siguiente ejemplo:


La confiabilidad (así como la validez) se obtiene de un grupo dado de personas que se someten a la prueba en particulares circunstancias y cuyos resultados se evalúan mediante algunos de los métodos disponibles. ¿Por qué es importante estudiar la confiabilidad? Porque la conducta humana fluctúa de una situación a otra.

Sobre la confiabilidad debe considerarse que: a) Es la propiedad de un conjunto de calificaciones (y no de una calificación individual) y b) Nunca puede determinarse con precisión. Sólo puede estimársele a partir del conjunto de datos que se obtengan

Hay varios tipos de confiabilidad:

1.Coeficiente de estabilidad. Cuando deseamos saber de la consistencia entre las calificaciones obtenidas en una prueba y una reaplicación en una fecha posterior.

2.Coeficiente de equivalencia. Cuando nos interesa la correspondencia entre los resultados obtenidos en 2 formas supuestamente equivalentes de una prueba.

3.Coeficiente de equivalencia y estabilidad. Para determinar la consistencia de los resultados entre 2 formas de una prueba separadas por un intervalo de tiempo.

4.Índices de homogeneidad. Es cuando se desea determinar si todos los reactivos de la prueba miden el mismo rasgo o la misma característica.

Generalmente, lo que se busca con las pruebas es que las calificaciones observadas reflejen las calificaciones reales con tan poco error como sea posible. Para ello, se deben controlar las variables que influyen en las calificaciones observadas. Algunos errores son:

1.Dentro de la prueba:
•Cualquier aspecto que haga que un sujeto responda a un reactivo sobre bases distintas de los conocimientos de la respuesta correcta.
•El muestreo de reactivos que componen la prueba.

2.Aplicación de la prueba:
•El aplicador debe considerar las condiciones que puedan producir calificaciones inexactas.
•En las pruebas de ensayo o de respuesta libre es esencial un índice de acuerdo entre los calificadores (confiabilidad de jueces).

3.El examinado:
•Experiencia con las pruebas.
•Ansiedad debida a las pruebas.
•Variables fisiológicas.

b)Validez: Se refiere, en términos generales, al grado en que un instrumento realmente mide la variable que pretende medir. Un instrumento válido para medir la inteligencia, por ejemplo, debe medir la inteligencia y no la memoria. Una prueba sobre conocimientos de historia tiene que medir eso y no conocimientos de literatura histórica. Un método para medir el rendimiento bursátil tiene que medir precisamente eso y no la imagen de una empresa.

La validez de un instrumento rara vez es un problema cuando se trata de medidas físicas, pero con los instrumentos usados para medir variables psicológicas es necesario probar empíricamente que el instrumento es válido en todos los casos.

Hay diferentes tipos de validez:

•Validez relacionada con el criterio. Establece la validez de un instrumento de medición comparando los resultados obtenidos con éste con algún criterio externo. Este “criterio externo” es un estándar con el que se juzga la validez del instrumento. Cuanto más se relacionen los resultados del instrumento de medición con el criterio, la validez de criterio será mayor. Por ejemplo, un investigador valida un examen sobre manejo de aviones mostrando la exactitud con la que el examen predice qué tan bien un grupo de pilotos es capaz de operar un aeroplano.

Si el criterio externo se fija en el presente, se habla de validez concurrente (los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto de tiempo). Por ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos partidos contendientes puede validarse aplicándolo tres o cuatro días antes de la elección, y sus resultados compararlos con los resultados finales de la elección.

Si el criterio se fija en el futuro, se habla de validez predictiva. Por ejemplo, una prueba para determinar la capacidad administrativa de altos ejecutivos se validará comparando sus resultados con el futuro desempeño de los ejecutivos medidos.

•Validez relacionada con el constructo. Se refiere al grado en el que una medición se relaciona de manera consistente con otras mediciones, de acuerdo con hipótesis derivadas teóricamente y que conciernen a los constructos que se están midiendo. Un constructo es una variable medida y que tiene lugar dentro de una teoría o un esquema teórico.

Por ejemplo, supóngase que un investigador desea evaluar la validez de constructo de una escala de motivación intrínseca. Teóricamente se sostiene que, el nivel de motivación intrínseca hacia una tarea está relacionado positivamente con el grado de persistencia adicional en el desarrollo de la tarea; por tanto la predicción teórica es que, a mayor motivación intrínseca habrá mayor persistencia adicional en la tarea. El investigador aplica su escala de motivación intrínseca a un grupo de trabajadores y determina también su persistencia adicional en el trabajo. Si al correlacionar ambas mediciones ésta llega a ser positiva y sustancial, el investigador tendrá evidencia para validar con éxito dicha escala.

•Validez relacionada con el contenido. Se refiere al grado en que un instrumento refleja un dominio específico de contenido de lo que se mide. Es el grado en el que la medición representa al concepto medido. Por ejemplo, una prueba de operaciones aritméticas no tendrá validez de contenido si incluye sólo problemas de resta y excluye problemas de suma, multiplicación o división. O bien, una prueba de conocimientos sobre las canciones de los Beatles no deberá basarse solamente en sus álbumes Let it Be y Abbey Road, sino que debe incluir canciones de todos sus discos. O una prueba de conocimientos de líderes históricos latinoamericanos que omita a Simón Bolívar, Salvador Allende o Benito Juárez, y se concentre en Eva y Domingo Perón, Augusto Pinochet, Miguel Hidalgo y otros líderes.


c)Error de medición: un error de medición es cualquier variable que produce algún efecto irrelevante para los fines de la medición. Una variable introduce error cuando: a) No tiene que ver con la finalidad de la medición y b) Produce falta de consistencia en las calificaciones de una situación a otra. La confiabilidad y validez están enmarcados por el error de medida.

Hay dos tipos de error:

1.Errores al azar. Se producen cuando una variable implica la falta de consistencia en la ejecución de la prueba de unas situaciones a otras (son importantes para la confiabilidad).

2.Errores constantes. Producen efectos sistemáticos sobre la ejecución, pero son irrelevantes para los propósitos de la medición (son importantes para la validez).


d)Normas y estandarización de pruebas.

Las normas sirven como marco de referencia para interpretar las calificaciones que se obtienen directamente de las pruebas. Estas indican el desempeño del sujeto en la prueba con respecto a la distribución de las calificaciones que obtuvieron personas con la misma edad cronológica, grado, sexo, etc.

Veamos algunas de tales normas:

Normas percentiles. Indica el punto donde se encuentra una persona en un grupo en términos del porcentaje de individuos que puntúan más bajo que él. Un estudiante, por ejemplo, que obtuvo un percentil de 70 podemos interpretarlo como una persona con un rendimiento mayor que 69 estudiantes de 100 y un rendimiento menor que 30 de ellos. En las normas percentiles, los puntos se ubican en una referencia de “mayor o menor que” (   ) debido a que se trata de una escala ordinal.

El problema de las unidades de calificaciones desiguales queda sin resolver. Las unidades de rango percentilar no son iguales en todas las partes de la escala. Los rangos percentilares son medidas de nivel ordinal y no de nivel de intervalo. A pesar de que las diferencias numéricas entre los rangos son las mismas, el tamaño de la unidad del rango percentilar se vuelve cada vez menor hacia el centro de la escala. La tendencia que presentan las unidades del rango percentilar a agruparse en el centro y extenderse en los extremos de la escala provoca la dificultad en la interpretación de los cambios y diferencias en las normas percentiles.

Normas de calificación estándar. Representan las medidas en una escala de intervalo. Son calificaciones convertidas que tienen cualquier media y desviación estándar que se desee. Existen muchos tipos:

i) Calificaciones z. Se determinan con la fórmula:

z = X – M / s

donde: X = Es una calificación bruta determinada, M = La media aritmética y s = La desviación estándar. Las fórmulas para calcular M y s son, respectivamente:


M = ∑ fX / N

y

s = ∑ f (X – M)2 / N


donde N equivale al total de las calificaciones que se consideren (frecuencia).

Al transformar la distribución de las calificaciones brutas en calificaciones z se obtiene una nueva distribución que tiene la misma forma, pero una media y una desviación estándar diferentes a aquellas de la distribución de las calificaciones brutas. La media de las calificaciones z es 0 y la desviación estándar es 1.

ii) Calificaciones Z. Que las calificaciones z puedan ser números decimales negativos o positivos crea cierta dificultad al manipular estas calificaciones. Este problema se resuelve al multiplicar las calificaciones z por una constante y sumar otra constante a los productos. Si las calificaciones z se multiplican por 10 y se suma a los productos 50, se produce un nuevo conjunto de calificaciones, las calificaciones Z, que tienen una media de 50 y una desviación estándar de 10.

iii) Calificaciones CEEB. Se obtienen al multiplicar las calificaciones z correspondientes por 100 y sumar 500 al resultado; de esta manera se produce, una nueva distribución de calificaciones que tiene una media de 500 y una desviación estándar de 100.

Escala de Estanina. Escala de calificaciones estándar normalizadas con una media de 5 y una desviación estándar de 2 (aproximadamente). Fórmula: (2)(z) + 5.

Esta escala tiene 9 rangos que están representados por los números del 1 al 9 y cierto porcentaje de personas se encuentra en el intervalo representado por una estanina determinada; sin embargo, no es una escala de calificaciones estándar real porque el 1° y el 9° valor son abiertos. El ancho de las estaninas del 2 al 8 son iguales, indicando unidades de calificación estándar iguales, pero el 1 y el 9 son mucho más anchos que los demás. Una ventaja de esta propiedad es que representan rangos en lugar de puntos específicos, lo cual, ayuda a combatir la tendencia a considerar las calificaciones de las pruebas como medidas exactas y sin variación de las diferencias individuales.
Ejemplo de una distribución de frecuencias que agrupa 12 calificaciones (en donde la media es igual a 5.91 y la desviación estándar a 2.65):



II. PLANEACIÓN DE LA PRUEBA


II.1 Por qué planear una prueba

Comúnmente, se utilizan indistintamente los términos “test” y “prueba” (de rendimiento escolar) como sinónimos, sin embargo existen diferencias significativas en la metodología de construcción que implican cada uno de estos instrumentos.

Los tests son instrumentos que han pasado por estudios precisos para determinar su validez y su confiabilidad. Son instrumentos estandarizados, tanto en lo que respecta al procedimiento con que se aplican como a la manera en cómo se califican e interpretan. Todo este trabajo resultaría innecesario para elaborar pruebas destinadas a medir el rendimiento escolar. Sin embargo, planear cómo elaborar una prueba de rendimiento escolar no deja de ser un paso importante para lograr abarcar, de manera adecuada, lo que tiene que revisarse, examinarse y calificarse para un curso escolar. Desafortunadamente, la mayoría de los profesores no realiza, por lo menos no de manera sistemática, dicha planeación, aun cuando representa una manera práctica e inicial de darle a la prueba validez de contenido y de construcción.


II.2 Conceptualización de las pruebas de rendimiento escolar

Planear cómo elaborar una prueba de rendimiento escolar adquiere mayor importancia si pensamos en ella como una muestra representativa de la conducta que queremos medir. Podemos expresarlo, más ampliamente, de la siguiente manera: una prueba de rendimiento escolar es un instrumento para medir una muestra representativa de los contenidos de una parte o totalidad de un curso escolar o asignatura, con el cual, pretendemos verificar el grado de aprendizaje logrado por los estudiantes en dicha área. Nos referimos a la prueba como “una muestra representativa de…” porque resultaría imposible definir y medir al cien por ciento los contenidos de un curso o asignatura. De ahí la importancia de planear, sistemáticamente, el instrumento que elaboremos.


II.3 Elementos a considerar para planear una prueba

Están los siguientes:

a)Objetivos de la prueba. Pueden ser varios: selección, clasificación, diagnóstico, toma de decisiones acerca del proceso de enseñanza-aprendizaje, etc.
b)Objetivos de la instrucción. Expresados de forma explícita en los programas de estudio, determinan y regulan la dirección que habrá de tomarse en la construcción de la prueba.
c)Contenidos. Expresados también explícitamente en los programas de estudio, deben abarcarse representativamente en la prueba, siendo indispensable que estén relacionados, de forma directa y congruente, con los objetivos de la instrucción. La relación entre objetivos y contenidos constituyen la base para la validez de contenido de las pruebas de rendimiento escolar.


II.4 Niveles de conocimiento: Taxonomía de Bloom

Para planear la prueba que se realizará es necesario definir anticipadamente, los niveles de conocimiento que los estudiantes deberán alcanzar con base a los contenidos del curso que estén involucrados en dicha examinación. Este paso es importante porque con él se determina la validez de constructo de la prueba. Existen varias clasificaciones de los niveles de conocimiento, pero la que se utiliza con mayor frecuencia es la denominada “taxonomía de objetivos educacionales” de Benjamín Bloom. Según este autor, los objetivos se clasifican en tres ámbitos distintos: cognoscitivo, afectivo y motor. Para la planeación y elaboración de las pruebas de rendimiento escolar generalmente se utilizan los niveles del ámbito cognoscitivo. Los niveles cognoscitivos, dispuestos de menor a mayor complejidad, son los siguientes:

Conocer. Significa recordar o memorizar hechos específicos, terminología, clasificaciones, métodos y procesos. Implica, únicamente, hacer presente el material apropiado en el momento preciso.

Comprender. Se refiere a la organización y reorganización de información, materiales y problemas para aportar una respuesta propia u original. Lo más frecuente es pedirle al estudiante que explique algo con sus propias palabras o que solucione alguna clase de problema.

Aplicar. Uso de abstracciones en situaciones particulares y concretas. Puede presentarse en forma de ideas generales, reglas de procedimientos o métodos generalizados o pueden ser también principios, ideas y teorías que deben recordarse y aplicarse.

Analizar. Es fraccionar la información en sus elementos constitutivos, de manera que aparezca claramente, la jerarquía relativa de las ideas, y pueda expresarse explícitamente, las relaciones existentes entre ellas.

Sintetizar. Se trata de reunir los elementos para formar un todo, elementos que se deben ordenar y combinar de manera que, constituyan un esquema o estructura que antes no estaba presente de manera clara.

Evaluar. Formulación de juicios de valor sobre materiales y métodos de acuerdo a determinados propósitos. Incluye juicios cuantitativos y cualitativos respecto al grado en que los materiales o métodos evaluados satisfacen determinados criterios (internos o externos).

La taxonomía de Bloom ha sido objeto de algunas críticas, como son:

-Que ésta se centra más en los productos esperados que en los procesos que conducen a dichos productos.
-Que la relación jerárquica de los niveles que propone no es adecuada porque algunos niveles considerados superiores no son necesariamente, más complejos que otros considerados inferiores.
-Que la taxonomía en cuestión no es exhaustiva porque excluye procesos como la observación, la reconstrucción de experiencias, las habilidades lógicas, etc.

En nuestro caso, tomaremos la clasificación propuesta por Bloom para seguir con el tema de la planeación de la prueba; sin embargo, puede ser que otras clasificaciones se adecuen más a ciertos contenidos que a otros, por lo que exhortamos al lector a revisar estas para que pueda determinar si alguna otra es más conveniente.


II.5 Cómo planear una prueba por medio de una tabla de especificaciones

Hay tres clases de elementos que deben tomarse en cuenta para comenzar con la planeación de la prueba:

1.El tipo de reactivos a utilizar: esta decisión estará en función de qué es lo que se desea medir, el tiempo del que se dispone para la aplicación y calificación de la prueba, el número de alumnos que integran el grupo y el número de grupos que atienda el profesor al mismo tiempo.
2.La cantidad total de reactivos que contenga la prueba dependerá de:
a)La cantidad de contenidos a evaluar (recuérdese que la prueba debe ser una muestra representativa de estos),
b)El tiempo del que dispongan los alumnos para resolver la prueba (considérese que una prueba de rendimiento es una prueba de poder, no de velocidad, lo cual, significa que es importante proporcionar a los estudiantes el tiempo suficiente para que la mayoría de ellos puedan contestar la prueba completamente), y
c)El tipo de reactivo utilizado.
3. El grado de dificultad de la prueba y de los reactivos.

El paso final del proceso de planeación de una prueba tiene que ver con la elaboración de lo que se ha convenido en llamar tabla de especificaciones, la cual, sirve como guía para elaborar los reactivos de la prueba. Al respecto:

Se sugiere redactar inicialmente más reactivos de los necesarios
La objetividad de los reactivos denominados objetivos radica en su calificación
La información que se obtenga de los sujetos dependerá de las tareas implicadas en cada reactivo

Esquematizaremos a continuación, la explicación de cómo se hace una tabla de especificaciones:


Observe a continuación, el ejemplo de una tabla de especificaciones ya elaborada:


A manera de ejercicio, le exhortamos a realizar una tabla de especificaciones basándose en algún tema que haya tratado recientemente con sus estudiantes en clase, sirviéndose para ello del modelo que a continuación le mostramos:


Finalmente, el docente debe atender siempre a los propósitos que el plan y el programa de estudios planteen con relación a los temas y subtemas que se verán en el curso, porque los primeros expresan lo que pretende lograrse en los estudiantes con la revisión de los segundos.



III. ELABORACIÓN Y ANÁLISIS DE REACTIVOS


III.1 Aspectos generales

Los términos “pregunta”, “ítem” y “reactivo” los encontramos frecuentemente en la literatura que trata aspectos sobre psicometría como sinónimos. En nuestro caso, adoptaremos el término “reactivo” para referirnos a cualquier estímulo que sea considerado dentro de la prueba para obtener alguna respuesta por parte del estudiante, sea este una pregunta, una frase incompleta, una sentencia, etc.

Determinar qué tipo o tipos de reactivos deberán usarse en una prueba determinada estará en función de:

- El nivel de resultados de aprendizaje que se pretenda medir,
- El modo en que serán utilizados los resultados de la prueba,
- Las características de los estudiantes que realizarán la prueba y
- El tiempo de que se disponga para elaborar, aplicar y calificar la prueba.

Tenbrink D. T. (1999) en su libro Evaluación. Guía práctica para profesores comenta lo siguiente: “Redactar ítems es esencialmente una tarea que consiste en construir preguntas diseñadas específicamente para un test dado, que está escrito especialmente para obtener una clase de información concreta. El momento de planificación en el proceso de construcción del test ayuda al redactor a orientarse en la dirección correcta. Durante este momento inicial, se determina el tipo de información que se desea y se especifica el tipo general de item más adecuado para obtenerla. La mayoría de los tests elaborados para una clase están diseñados para medir resultados de aprendizaje, y por eso las descripciones de la información necesaria, normalmente toman la forma de una tabla de especificaciones (forma y planeación de la prueba)… Hay que redactar una pregunta que trate del contenido apropiado y que requiera una respuesta que no se puede dar correctamente a no ser que la persona, de hecho, posea el comportamiento o habilidad identificada en el objetivo de instrucción” (Pág. 322).

Redactar los reactivos es una tarea difícil que requiere tiempo y esfuerzo. Por ello, generalmente se recomienda formularlos por adelantado y redactar más de los estrictamente necesarios. Sobre cada reactivo, conviene hacerse tres preguntas:

- ¿Es claro y está libre de determinantes específicos (claves) que podrían descubrir la respuesta?
- ¿Está midiendo algún resultado de aprendizaje?
- ¿Ofrecen los reactivos definitivos, en su conjunto, una prueba adecuada y representativa de los resultados de aprendizaje que mide?

Algunas reglas generales que podrían tomarse en cuenta para la elaboración de reactivos de pruebas de rendimiento escolar son las siguientes:

- Los reactivos deben ordenarse de acuerdo a la clase particular de reactivos a la que pertenezcan, es decir, las preguntas del mismo tipo deben ser agrupadas para que los estudiantes no tengan que cambiar el tipo de respuesta de una pregunta a otra.
- Los reactivos deben presentarse en la prueba según el orden con que fueron revisados los temas durante el curso, es decir, según el orden establecido por el programa de estudios; esto permitiría que los estudiantes pensaran y respondieran de acuerdo al orden en que estudiaron tales temas y según la relación que hay entre los mismos.

Los reactivos normalmente se presentan a un grupo de personas al mismo tiempo, aunque en algunas ocasiones pueden ser aplicados individualmente (de uno a uno), con el propósito de obtener una idea más clara sobre el proceso que sigue el sujeto para responder; esta información puede ser valiosa en materias, para las cuales, se requieren habilidades analíticas, de solución de problemas o de un elevado uso de la lógica e investigación.

La mayoría de las pruebas se aplican en clase, sin la posibilidad de consultar material alguno, aunque hay ocasiones en que el profesor busca alternativas a este modelo, y aplica la prueba dándoles a sus estudiantes la posibilidad de consultar sus libros o apuntes, de desplazarse a un lugar distinto al salón de clases, o inclusive, de llevarse la prueba a casa para entregarla después de un lapso acordado con el profesor.

Las pruebas objetivas son más fáciles de calificar si los estudiantes responden en hojas separadas. Los reactivos de ensayo se contestan normalmente por escrito, pero una respuesta oral puede ser valiosa debido a que el estudiante la puede hacer mucho más larga en menos tiempo. Si se graba la respuesta en una cinta, se puede calificar más tarde. Por supuesto, una respuesta oral es mucho más difícil de calificar que una escrita; con todo, esa desventaja queda superada por el hecho de que se puede conseguir mucha información en poco tiempo.

Las instrucciones pueden ser escritas, orales o mixtas, es decir, pueden estar escritas en la prueba, ser leídas en voz alta por el profesor, tener ambas características a la vez y hasta incluir ejemplos sobre cómo el estudiante deberá contestar. El elegir un modo u otro dependerá de la complejidad y el nivel de desconocimiento que tengan los estudiantes acerca de lo que se les pide hacer. “Escribir las instrucciones para un test es simplemente cuestión de contestar a esta pregunta: ¿Qué debe saber un alumno para llevar a cabo correctamente la mecánica del test? Las instrucciones que están bien redactadas proveen al alumno de la información que necesita para realizar el test…” (Tenbrink D. T., 1999: 324)


III.2 Preparación de los reactivos del Instrumento.

Todos los reactivos de pruebas representan procedimientos para obtener información sobre los individuos, pero la cantidad y clase de información varía de acuerdo con la naturaleza de las tareas que implican los distintos tipos de reactivos. Pedir a los sujetos que comparen los efectos posteriores de dos eventos bélicos distintos exige una clase de respuesta diferente que aquella que se obtiene cuando sólo se les pide que indiquen, de entre una serie de eventos, aquellos que ocurrieron en cada uno de esos eventos bélicos. El primer reactivo requiere de capacidades complejas de integración y organización, en tanto que para contestar el segundo, sólo se necesita de memoria cognoscitiva.

Se han sugerido distintas formas para clasificar los reactivos. Una de ellas es la que distingue entre reactivos de ensayo, cuya contestación requiere de la elaboración de una respuesta explicativa, y reactivos objetivos, cuya respuesta radica en señalar __entre varias opciones de respuesta__ cuál es la alternativa correcta.

Aunque los reactivos de ensayo pueden considerarse del tipo de completamiento o llenado (debido a que la respuesta del sujeto es siempre una respuesta construida), los reactivos objetivos pueden ser del tipo de llenado, completamiento o de selección, dependiendo de si los sujetos deben elaborar una respuesta o sólo seleccionar la mejor respuesta de una serie de alternativas.

El aspecto más importante de los reactivos objetivos no es la forma cómo se contestan, sino qué tan objetivamente pueden calificarse. Por ello, mientras que dos o más calificadores de un reactivo de ensayo podrían estar en desacuerdo hasta cierto punto sobre lo correcto de una respuesta determinada y sobre cuántos puntos debe recibir, a excepción de los errores de oficina, difícilmente los distintos calificadores de una prueba objetiva podrían estar en desacuerdo acerca de la calificación que le correspondería a un reactivo dado.


III.3 Reactivos de ensayo.

La ventaja más importante de los reactivos de ensayo es que pueden medir la capacidad para organizar, relacionar y comunicar, comportamientos que no se evalúan con facilidad con los reactivos objetivos; además, una prueba de ensayo requiere menos tiempo para prepararse y es poco probable que los sujetos contesten en forma correcta los reactivos de ensayo mediante la adivinación. Una desventaja de los instrumentos de ensayo es que la cantidad de preguntas que pueden responderse en un tiempo de clase regular (aproximadamente seis respuestas de media página en 50 minutos) tal vez no proporcionen un muestreo adecuado del conocimiento sobre la materia que tienen los estudiantes. Otras desventajas de estos instrumentos son: la calificación es subjetiva, calificarlos toma mucho tiempo y son susceptibles al engaño por la facilidad de palabra de algunos estudiantes, que no obstante carecen de la información para contestarlos adecuadamente.

Por regla general, no deben utilizarse reactivos de ensayo cuando es posible realizar la misma prueba con reactivos objetivos. Si se hacen preguntas de ensayo, la persona que redacta los reactivos debe tratar de realizar las preguntas objetivamente. Esto puede lograrse al:

1) Definir la tarea y redactar los reactivos en forma clara, por ejemplo, pidiendo al sujeto que “compare” y “explique” en lugar de que “analice”;
2) Utilizar una cantidad reducida de reactivos para que la mayoría de los estudiantes puedan responder y
3) Pedir a las personas que respondan cada reactivo en una hoja de papel separada.


III.4 Reactivos de respuesta corta, falso y verdadero y aparejamiento.

Los reactivos objetivos no se limitan a las cuatro formas tradicionales (respuesta corta o terminación, falso y verdadero, comparación y opción múltiple), pero estas son las más populares. Algunas de las ventajas que presentan las pruebas objetivas son que pueden calificarse con facilidad y de manera objetiva y que, como se necesita menos tiempo para responder cada reactivo, permiten un muestreo más extenso del material que las pruebas de ensayo. En la preparación de pruebas objetivas, debe ponerse especial cuidado en lograr que los reactivos sean claros, precisos y correctos en el aspecto gramatical. Deben redactarse con un lenguaje apropiado para el nivel de lectura del grupo que presentará la prueba. Deben incluir en el reactivo todos los datos y requerimientos necesarios para seleccionar una respuesta razonable, omitiendo las palabras y frases inútiles o estereotipadas.


Debe evitarse:

- Elaborar reactivos objetivos usando afirmaciones de los libros de texto u otras fuentes porque de esa manera se da mayor importancia al aprendizaje de memoria,
- Incluir cualquier tipo de clave que pueda orientar al estudiante sobre cuál puede ser la respuesta correcta y
- Emplear reactivos que se interrelacionen (cuando la redacción de uno de estos ofrece una clave para la respuesta de otro) o se entrelacen (cuando es necesario saber la respuesta correcta de uno con objeto de contestar otro en forma correcta).

a) Reactivos de respuesta corta. Un reactivo de respuesta corta es una tarea de tipo de completamiento, en la cual, se pide a los estudiantes que completen o llenen uno o más espacios en blanco de una afirmación incompleta con las palabras o frases correctas. También implica dar una respuesta breve a la pregunta que se plantee. En términos de la longitud de la respuesta elaborada, los reactivos de respuesta corta se encuentran entre los reactivos de ensayo y los reactivos objetivos. Se elaboran con facilidad porque requieren que las personas den la respuesta correcta en lugar de limitarse a reconocerla. A pesar de que esta clase de reactivos son especialmente útiles para evaluar el conocimiento de la terminología, tienen serias limitaciones. No son apropiados para medir objetivos de enseñanza complejos y, como puede haber más de una respuesta correcta, la calificación no siempre es por completo objetiva.

Para su elaboración, debe seguirse los lineamientos siguientes:

1. Se prefieren las preguntas a las afirmaciones incompletas.
2. Si se utiliza una afirmación incompleta, debe redactarse de manera que el espacio en blanco quede al final de ésta.
3. Evitar varios espacios en blanco en el tronco del reactivo (sea éste una pregunta o una afirmación), sobretodo, si provocan que el significado de la tarea no sea claro.

b) Reactivos de falso y verdadero. Este tipo de reactivo es muy sencillo de elaborar, pero también es el que resulta menos atractivo para los profesionales que aplican pruebas. Pueden redactarse y leerse con rapidez por lo que permiten un muestreo extenso del contenido. Una desventaja importante de estos reactivos es que, con frecuencia, se ocupan de información trivial o se elaboran con afirmaciones que se toman al pie de la letra de los libros de texto. Como consecuencia, se dice que fomentan el aprendizaje de memoria. Otras críticas se refieren a que con frecuencia son ambiguos, no pueden utilizarse para medir objetivos de enseñanza más complejos y, debido a que su calificación total puede verse afectada por la tendencia del sujeto a adivinar, el significado de esta clase de reactivos puede ponerse en entredicho.

En promedio, los sujetos responderán en forma correcta 50 por ciento de los reactivos de una prueba de falso y verdadero con sólo adivinar. Las calificaciones pueden aumentar aún más cuando los reactivos contienen determinantes específicos; palabras como todos, siempre, nunca y sólo, que indican que es probable que la afirmación sea falsa, o con frecuencia, algunas veces y por lo general, que indican que es probable que la afirmación sea verdadera.

A pesar de estas desventajas, los reactivos de falso y verdadero no tienen que ser triviales ni ambiguos. En defensa de los reactivos de falso y verdadero, Ebel (1970) sostiene que “el grado de dominio por parte de los alumnos de un área del conocimiento en particular está indicado por su éxito al juzgar lo cierto o falso de las propuestas que se relacionan con ésta". Ebel argumentaba que estas propuestas son expresiones del conocimiento verbal, que considera, la esencia del logro educativo.

La defensa por parte de Ebel de los reactivos de falso y verdadero puede ponerse en duda, pero no se poner en duda el hecho de que los reactivos de falso y verdadero puedan medir algo más que el aprendizaje de memoria, por ejemplo, al incluir dos conceptos, condiciones o eventos en un reactivo de falso y verdadero, la persona que administra la prueba puede preguntar si es cierto que están relacionados de manera estrecha a moderada. (Diekhoff, 1984). Otras posibilidades son preguntar si: a) un concepto, condición o evento implica (es consecuencia de) otro; b) un concepto, condición o evento es un subgrupo, ejemplo o categoría de otro, o c) ambos conceptos, condiciones o eventos son verdaderos. Estos reactivos pueden medir la comprensión, así como el conocimiento significativo de los conceptos y eventos.

Cualesquiera que sean los objetivos de una prueba de falso y verdadero, se aconseja tomar en cuenta las siguientes sugerencias para elaborar este tipo de reactivos:

1. Asegúrese de que las afirmaciones planteen asuntos importantes (no triviales).
2. Redacte las afirmaciones relativamente cortas y verdaderas o falsas sin lugar a dudas.
3. Evite los reactivos en forma negativa, en especial aquellos que contienen doble negación.
4. Evite los reactivos ambiguos y capciosos.
5. Redacte las afirmaciones verdaderas y falsas más o menos con la misma longitud y procure que la cantidad de afirmaciones verdaderas sea aproximadamente igual a la cantidad de afirmaciones falsas. Puede argumentarse que, debido a que las afirmaciones falsas tienden a ser más discriminantes que las verdaderas, la cantidad de afirmaciones falsas debería ser mayor que las verdaderas. Sin embargo, si el maestro sigue esta práctica en pruebas subsecuentes, es probable que los alumnos se den cuenta de ello y empiecen a responder “falso” cuando tengan duda sobre la respuesta.
6. Haga que las respuestas incorrectas sean más atractivas al redactar los reactivos de modo que la lógica superficial, los errores populares y los determinantes específicos sugieran que las respuestas erróneas son correctas. Las afirmaciones falsas que parecen verdaderas también pueden hacer que se equivoquen las personas sin conocimientos.


c) Reactivos de aparejamiento. En cierto sentido, tanto los reactivos de falso y verdadero como los de opción múltiple son una variedad de los reactivos de aparejamiento. En estos tres tipos de reactivos, se compara un grupo de opciones de respuesta a un grupo de opciones de estímulo (premisas). La diferencia es que los reactivos de falso y verdadero y de opción múltiple tienen una sola opción de estímulo (el tronco de la respuesta) y dos o más opciones de respuesta, en tanto que los reactivos de aparejamiento pueden tener opciones de estímulo y de respuesta múltiples.

La tarea en un reactivo de aparejamiento es indicar qué opciones de respuesta corresponden a cuáles opciones de estímulo. Por lo general, la comparación es de una a uno (una respuesta por estímulo), pero también puede ser de una a varios, de varias a uno o de varias a varios. Desde luego, los sujetos deben estar informados sobre cuales de estos procedimientos se aplican a un reactivo en particular.

Los reactivos de aparejamiento son fáciles de elaborar y cubren el material con más eficacia que otros tipos de reactivos, pero por lo regular miden sólo el aprendizaje de memoria; además, la necesidad de hacer que las opciones sean homogéneas (todas las opciones de la misma clase: como fechas, lugares o nombres) limita el tipo de material que puede adaptarse en un contexto de comparación. Los siguientes son algunos lineamientos para la elaboración de reactivos de aparejamiento:

1. Ordene las opciones de estímulo (premisas) y respuesta en un formato de columnas claro y lógico, con las opciones de estímulo en la columna izquierda y las opciones de respuesta en la columna derecha.
2. Numere las opciones de estímulo en forma sucesiva y coloque letras (a, b, c, etcétera) antes de las opciones de respuesta.
3. Utilice entre seis y 15 opciones de estímulo, que tengan de dos a tres opciones de respuesta más que las opciones de estímulo.
4. Especifique con claridad las bases de la comparación.
5. Coloque todos los reactivos de este mismo tipo en una sola página.

Un tipo especial de reactivo de aparejamiento es el reactivo de reordenamiento o jerarquización, en el cual se pide a las personas que clasifiquen un grupo de opciones en una cantidad fija de categorías determinadas previamente. Un tipo particular de reactivo de jerarquización es el reactivo de rango, en el cual, se ordena un conjunto de opciones de acuerdo con el rango de primera a última.


III.5 Reactivos de opción múltiple.

Los reactivos de opción múltiple son los más versátiles de todos los reactivos para las pruebas objetivas en el sentido de que pueden utilizarse para medir los objetivos de aprendizaje complejos y sencillos en todos los niveles y en cualquier materia. A pesar de que la elaboración de una respuesta para un reactivo de ensayo quizá requiera de mayor habilidad para la organización que la respuesta para un reactivo de opción múltiple, responder en forma correcta un reactivo de opción múltiple bien elaborado, requiere de gran capacidad para la discriminación y no sólo para reconocer o recordar la respuesta adecuada. Las calificaciones para este tipo de reactivos se ven menos afectadas por la adivinación. Además, puede obtenerse información de diagnóstico útil a partir de un análisis de las opciones incorrectas (distractores) que eligen las personas.

Entre las desventajas de los reactivos de opción múltiple se encuentra que: a) Es difícil elaborar los reactivos adecuados, en especial aquellos donde todas las opciones tengan el mismo atractivo para los sujetos que no conocen 1a respuesta correcta; b) Enfatizan el reconocimiento más que el recuerdo y organización de la información; y c) Requieren de más tiempo para contestarse y quizás ofrecen una muestra menos adecuada del área de la materia que los reactivos de falso y verdadero. También se establece, aunque no se ha comprobado, que las pruebas de opción múltiple favorecen a los lectores astutos, ingeniosos y rápidos y afectan a las personas que piensan con mayor profundidad las respuestas (Hoffman, 1962).

Los lineamientos siguientes deben facilitar la elaboración de reactivos de opción múltiple de alta calidad:

1. Debe utilizarse como tronco una pregunta o afirmación incompleta, pero se prefiere el formato de pregunta. En una afirmación incompleta, coloque el espacio en blanco al final del reactivo.
2. Establezca en el tronco, el problema específico de la pregunta o afirmación incompleta de manera clara y en un nivel apropiado para las personas; evite tomar al pie de la letra las preguntas o afirmaciones de los libros de texto.
3. Coloque la mayor parte del reactivo en el tronco. No tiene caso repetir las mismas palabras en todas las opciones de respuesta. Para las personas es menos difícil revisar las opciones cuando estas son más cortas.
4. Por lo general se utilizan cuatro o cinco opciones, pero también pueden redactarse sólo dos o tres opciones.
5. Si las opciones tienen un orden natural (como fechas o épocas), se recomienda ordenarlos de acuerdo con éste. De otra manera, ordene las opciones de modo aleatorio o alfabéticamente (si esta ultima no proporciona alguna clave para las respuestas correctas).
6. Redacte todas las opciones de respuesta de modo que tengan una longitud, más o menos igual, que sean correctas en el aspecto gramatical y que sean apropiadas en relación con el tronco. Sin embargo, no permita que el tronco “revele” la opción correcta mediante asociaciones verbales u otras claves.
7. Haga que todas las opciones sean posibles para las personas que no conocen la respuesta correcta, pero que sólo una opción sea la correcta o "la mejor".
8. Al elaborar cada distractor formule una razón por la cual, un sujeto que no conoce la respuesta correcta, podría seleccionarlo.
9. Evite, o por lo menos reduzca al mínimo, el uso de expresiones como “no” tanto en el tronco como en las opciones.
10. A pesar de que es apropiada cierta cantidad de originalidad e incluso humor y puede servir para interesar y motivar a las personas, no deben utilizarse troncos y opciones ambiguas ni capciosas.
11. Use poco las expresiones “ninguna de las anteriores”, “todas las anteriores” o “más de una de las anteriores”. También evite los determinantes específicos como “siempre” o “nunca”.
12. Coloque las opciones en formato (párrafo) de grupo en lugar de una tras otra; utilice números para designar los reactivos y letras para las opciones.
13. Prepare la cantidad correcta de reactivos para el grado o nivel de edad que se pondrá a prueba, haciendo que cada reactivo sea independiente de los demás (que no se entrelacen ni se interrelacionen).

Con sólo seguir estos lineamientos, que son sobre todo producto de la lógica y la experiencia más que de la investigación, no asegura la elaboración de una prueba de opción múltiple adecuada; en lugar de obedecer a ciegas un conjunto de reglas, la capacidad para redactar reactivos adecuados depende tanto o más del conocimiento de la materia que abarca la prueba, de entender lo que los alumnos deben saber sobre la materia, del arte o la habilidad para hacer preguntas, etc. Aún cuando los lineamientos no se sigan con precisión, los reactivos de opción múltiple tienden a ser bastante eficaces para medir el conocimiento y la comprensión.

- Elaboración de distractores para los reactivos de opción múltiple.

Un proceso crucial para determinar la efectividad de los reactivos de opción múltiple es la selección o elaboración de distractores (opciones incorrectas). En la selección o elaboración de distraxtores puede emplearse un planteamiento racional o empírico. El planteamiento racional requiere que la persona que elabora la prueba realice juicios personales acerca de los distractores apropiados. Por el contrario, el planteamiento empírico consiste en seleccionar distractores de acuerdo con la cantidad de respuestas que se dan al tronco del reactivo cuando se aplican como afirmaciones abiertas. No existe un consenso con respecto de qué planteamiento da como resultado mejores distractores, pero el juicio de la persona que aplica el examen parece ser por lo menos tan efectivo como el planteamiento empírico (Owens, Hanna y Coppedge, 1970; Hanna y Jonhson. 1978).


III.6 Elaboración de reactivos complejos.

Los creadores de pruebas por lo general tienen más problemas al elaborar reactivos para medir la comprensión y el pensamiento que aquellos que miden el conocimiento directo de la materia. Se han propuesto distintas formas de componer reactivos objetivos para evaluar objetivos de enseñanza más complejos. Las opciones como “todas las anteriores”, “ninguna de las anteriores”, “dos de las anteriores” y "todas las anteriores menos una” pueden hacer que la elección sea más difícil; además, hacer que todas las opciones sean correctas (o incorrectas) y pedir que las personas seleccionen la mejor o la opción más apropiada para cada reactivo complica la tarea.


III.7 Análisis estadístico de reactivos

En general, se trata de que cada reactivo que se seleccione para la prueba sea un buen indicador del atributo que la prueba mide como un todo. Para ello, todos los reactivos de la prueba suelen evaluarse en términos de su nivel de dificultad y su nivel de discriminación.

Para la obtención de estos índices empero, deben primero ordenarse los reactivos de la prueba de la siguiente manera:

1. Se ordena la población de sujetos que contestaron la prueba de mayor a menor puntaje crudo (PC), es decir, de acuerdo al total de aciertos que obtuvieron en la prueba.

2. La población de sujetos que contestaron la prueba se divide en tres partes para obtener los grupos A, B y C, lo cuales, consisten en lo siguiente:

a) Grupo A o Superior: ubicado, generalmente, en primer lugar es el que contiene a los sujetos con mayor puntaje.
b) Grupo B o de rendimiento regular: ubicado, generalmente, en segundo lugar o en la posición intermedia no se le toma en cuenta para fines de análisis.
c) Grupo C o inferior: ubicado, generalmente, en tercer lugar es el que contiene a los sujetos con menor puntaje o con el más bajo rendimiento.

3. El criterio para determinar la cantidad de los sujetos que conformarán los grupos A, B y C, o mejor dicho para los grupos A y C únicamente, es el siguiente: se obtiene (por convención) el 27% de la población total de sujetos que contestaron la prueba, tanto para el grupo superior como para el inferior, a través de una simple regla de tres, N x 27 / 100, en donde N equivale al total de sujetos que presentaron la prueba. Como resultará obvio, el 46% restante (correspondiente al grupo de rendimiento regular) no se toma en cuenta.

Veamos como se efectúa este procedimiento en tres pasos en un ejemplo. Supóngase que una prueba compuesta por diez reactivos fue aplicada a diez sujetos. Se ejecutan los dos primeros pasos del procedimiento anteriormente descrito y el resultado es una matriz de puntaje•, la cual, se muestra a continuación:


Para determinar la cantidad de sujetos para el grupo superior e inferior simplemente, se sigue el paso tres: 10 x 27 / 100 = 2.7, que redondeado nos da 3. Por tanto, el grupo A y C están compuestos por tres sujetos cada uno (los tres que obtuvieron mayor puntaje crudo y los tres que obtuvieron menor puntaje crudo, respectivamente).

Índices de dificultad (Idf) y de discriminación (Idc). Mientras que el índice de dificultad indica la proporción de personas que respondieron correctamente el reactivo de una prueba, el índice de discriminación (Idc) indica qué tan bien discrimina cada reactivo de la prueba entre las personas con un buen desempeño general en ella y aquellas que tuvieron un desempeño deficiente.

Los procedimientos para el cálculo de estos índices son los siguientes.

a) Para obtener el grado de dificultad:

1. Se aplica la fórmula Idf = (A + B) / N, donde
- A es el número de respuestas incorrectas del grupo superior en ese reactivo
- B es el número de respuestas incorrectas del grupo inferior en ese reactivo
- N es el número de sujetos en ambos grupos (superior e inferior)

2. Se valora cada reactivo de acuerdo a un criterio de aceptación previamente establecido, que en este caso equivaldrá a los valores que se encuentren entre 0.20 y 0.80 debido a que éste se considera adecuado para las pruebas de rendimiento escolar.

3. Calculando el Idf según el paso 1 y haciendo la valoración de cada reactivo de acuerdo al criterio referido en el paso 2, se obtienen los siguientes resultados:



b) Para obtener el grado de discriminación:

1. Se aplica la fórmula Idc = (A - B) / (N / 2), donde
- A es el número de respuestas correctas del grupo superior en ese reactivo
- B es el número de respuestas correctas del grupo inferior en ese reactivo
- N es el número de sujetos en ambos grupos (superior e inferior)

2. El criterio para valorar cada reactivo y aceptarlo es que tenga un valor arriba de cero.

3. Calculando el Idc según el paso 1 y haciendo la valoración de cada reactivo de acuerdo al criterio referido en el paso 2, se obtienen los siguientes resultados:



c) ¿Cómo valorar integralmente cada reactivo? Obsérvese la siguiente tabla:

De acuerdo a estos resultados se consideran adecuados, por sus índices de dificultad y discriminación, los reactivos 3,6, 7, 9 y 10; los reactivos 1 y 2 son inadecuados y los reactivos 4, 5 y 8 tienen posibilidad de ser útiles si se les modifica y se vuelven a probar.

El grado de dificultad de la prueba varía de acuerdo a las necesidades del programa y de los estudiantes. El docente es el que lo debe de establecer dependiendo de las características de su curso. Lo ideal para una prueba académica es que tenga un grado de dificultad de 0.50. Es obvio que cada parte constitutiva de la prueba no estará exactamente a un nivel de 0.50, pero la puntuación media de la prueba en su totalidad deberá oscilar alrededor de este valor. Si la prueba es demasiado fácil o demasiado difícil, las puntuaciones acumularán a un extremo u otro del continuo y resultará difícil hacer distinciones entre las realizaciones de las muchas personas cuyas puntuaciones sean idénticas o muy parecidas.

La dificultad de los reactivos de una prueba está determinada parcialmente por el nivel de rendimiento que hayan alcanzado los estudiantes. Si un estudiante no domina la materia, las preguntas probablemente le resultarán difíciles, y si la conoce bien, las preguntas probablemente le resultarán fáciles. Sin embargo, la dificultad de una pregunta está también determinada por la formulación de la misma y por su particular redacción. La dificultad de un reactivo se puede manipular a través de aspectos tales como: el vocabulario empleado, la estructura de la oración, y_ en el caso de las preguntas de opción múltiple_ por la calidad de los distractores.


IV. CALIFICACIÓN DEL RENDIMIENTO ESCOLAR


IV.1 Calificación de la prueba de rendimiento

La decisión sobre qué procedimiento usar para calificar la prueba antecede, de hecho, la elaboración y aplicación de la misma. Varios son los aspectos que deberá considerar el docente para determinar qué procedimiento usar: si la prueba estará conformada por partes que contengan diferentes clases de reactivos o contenidos, si obtendrá calificaciones separadas de cada una de esas partes (además de una calificación compuesta como un todo), si restará puntos o no por adivinar, si reportará los resultados en forma de calificación bruta o los convertirá de alguna manera, etc.

a)Calificación de pruebas de ensayo. Para empezar, el docente debe decidir si calificar la respuesta como un todo o asignar valores relativos separados a sus distintos componentes. Una calificación global o general es común, pero quizá sea más conveniente utilizar un procedimiento analítico, en el cual, se otorguen puntos por cada aspecto que refleje el conocimiento o la habilidad que estén implicados en la respuesta para dicho reactivo.

Cualquiera que sea el procedimiento que se siga (general o analítico), se aconseja que el docente redacte con anticipación la respuesta ideal. También se recomienda que se oculten los nombres de las personas que presentaron la prueba antes de revisarla, de modo que pueda calificarse en forma anónima. Otras recomendaciones son las siguientes:

- Calificar todas las respuestas que se den a una pregunta antes de pasar a la siguiente,
- Calificar todas las respuestas para un reactivo durante el mismo periodo,
- Si se van a calificar tanto el estilo (calidad de redacción) como el contenido, evalúelos por separado,
- Haga que otra persona vuelva a calificar la prueba y forme la calificación final con el promedio del número de puntos que se asignaron a ambas partes
- Escriba los comentarios junto a las respuestas y marque las correcciones de errores en la prueba•.

b) Calificación de pruebas objetivas. Una ventaja que presentan las pruebas objetivas es precisamente la eficiencia y precisión con que pueden calificarse. Mientras que una persona puede llegar a invertir varias horas leyendo y decidiendo si las respuestas de una prueba de ensayo son correctas o no, casi cualquiera puede calificar pruebas objetivas con rapidez y precisión, pudiendo además regresarlas a los estudiantes poco después de haberlas presentado, cuando los reactivos están todavía frescos en su mente.

Con el propósito de calificar esta clase de pruebas puede prepararse desde una clave de respuestas en una hoja de papel para calificar cada reactivo hasta una plantilla, hecha ex profeso con un cartoncillo o acetato, que contenga las respuestas correctas en las posiciones correspondientes a los espacios dispuestos para los reactivos en la hoja de la prueba.

c) Ponderación de la calificación para los reactivos. Hay dos formas de asignar puntos a las respuestas en un examen: Una, otorgar el mismo puntaje a todos los reactivos; y dos, otorgar puntajes distintos a los reactivos según la clase a la que pertenezcan. Un presupuesto que, empíricamente, cobra sustento en la actualidad para ponderar la calificación que debe otorgarse a los reactivos en una prueba es que, el puntaje dado debe variar según el tipo de reactivo y la calidad de las respuestas.

IV.2 Formas diversas de asignar calificaciones en el ámbito escolar

Asignar calificaciones a los estudiantes por medio de exámenes escolares no debería representar un problema para el docente. Existen diversos métodos que pueden facilitarle esta labor. La cuestión a resolver es saber cuál de esos métodos utilizar y eso dependerá de las características del curso que se esté impartiendo.

a)Calificaciones en normas percentiles. Se utilizan cuando lo que interesa es comparar el rendimiento escolar de un estudiante con el resto de sus compañeros de clase. Recordando que, una norma percentilar señala la ubicación de un sujeto en un grupo en términos del porcentaje de individuos que puntúan más abajo que él, un ejemplo sería el siguiente: En el último cuadro de la primera parte de este manual (pág. 14) un estudiante obtuvo una calificación de 10 en una escala del 1 al 12, situándose en el percentil 92, lo cual significa que, dicho estudiante tiene un rendimiento escolar mayor que 91 estudiantes de 100 y menor a 8 de ellos.

b)Calificaciones como porcentajes de respuestas correctas. Otra forma de calificar es indicar el porcentaje que corresponde al total de reactivos que el estudiante contestó correctamente. El porcentaje que sea asignado será significativo en tanto el docente conozca las características de los reactivos que se incluyan en la prueba y sea conciente de los contenidos particulares que con ella se examinan. Un problema que se presenta con esta forma de calificar es que su significado varía según el nivel de dificultad de la prueba. Un alto porcentaje de reactivos correctos, por ejemplo, en una prueba fácil y en una prueba difícil sitúan, aparentemente, ambas puntuaciones al mismo nivel cuando lo más probable es que, en realidad, el porcentaje que corresponde a la prueba difícil tenga un significado diferente al que pueda atribuirse al porcentaje de la prueba fácil.

c)Calificaciones en un continuo de realización (dominio). Hay ciertos conocimientos y habilidades que pueden y deben ser medidos en un continuo de actividades a realizar, con el cual se indica el nivel que el estudiante debe alcanzar, según se haya planteado previamente en el objetivo de instrucción. Para poder hacer juicios sobre el nivel de realización conseguido por algún estudiante, primero debe definirse claramente el continuo a realizar, describir las conductas que el estudiante debe poseer en los diversos niveles del continuo y ponderar qué puntaje se asignará a cada uno de los diferentes niveles del dominio.

d)Calificación según el logro de objetivos (dominio). Para calificar basándose en este método es indispensable plantear de manera adecuada los objetivos generales y específicos del curso, porque de este modo el docente podrá asignar calificaciones en términos del dominio que tenga el estudiante de la materia. Implica también que el docente posea un nivel de conocimientos adecuado respecto a los contenidos de su materia. Esto significa que el docente, no sólo deberá conocer hechos, conceptos y principios que son importantes para la enseñanza de su materia, sino también que deberá entender su estructura, es decir, la interrelación entre tales conceptos y principios para estimar cuáles, de todos los aspectos a revisar, puede representar una dificultad mayor para los estudiantes.

Frecuentemente, debe establecerse una escala para asignar calificaciones con este método. Para ello, es necesario crear un continuo de rendimiento y colocar valores en los diversos puntos a lo largo de éste. Estos valores pueden ser numéricos o letras. Por ejemplo:


IV.3 Calificaciones finales

Basándonos en lo que se explicó en la primera parte, cuando se hizo la diferenciación entre evaluar, calificar y acreditar, las calificaciones finales son la sumatoria de los porcentajes correspondientes a todas y cada una de las actividades que fueron consideradas para la obtención de este único resultado.

Por nuestra parte, sólo nos ocupamos de uno de los varios mecanismos existentes para calificar y que, al mismo tiempo, contribuye a la obtención de una calificación final: los exámenes.

Las calificaciones que resultan de medir el rendimiento escolar deben basarse únicamente en tales mediciones, hechas a través de tareas, ejercicios o pruebas. No deben reflejar, por tanto, otros aspectos del comportamiento de los estudiantes, como por ejemplo, la cantidad de esfuerzo realizado, la motivación o diversas actitudes. Estos aspectos del comportamiento de los estudiantes, en tal caso, deben ser considerados por objetivos diferentes de instrucción con los que si haya plena correspondencia.


REFERENCIAS


De libros:

- Canudas González, Matilde (2005). Manual para el Curso-taller Estrategias para la Evaluación en la Educación Superior. México: Asociación Nacional de Universidades e Instituciones de Educación Superior.
- Aiken, Lewis R.(1996). Tests psicológicos y evaluación. México: Prentice Hall.
- Anastasi, A. (1998). Tests psicológicos. Madrid: Aguilar.
- Brown F. (1998). Principios de la medición en psicología y educación. México: El Manual Moderno.
- Guilford, J. P. (1964).Métodos psicométricos. México: McGraw-Hill.
- Hernández Sampieri, R., C. Fernández Collado, y P. Baptista Lucio (2003). Metodología de la investigación. México: McGraw-Hill.
- Kerlinger, F. (1975). Investigación del comportamiento; técnicas y metodología. México: Interamericana.
- Morales, María Luisa (2002). Psicometría aplicada. México: Trillas
- Stevens, S. S. (1951). Handbook of Experimental Psychology. Ney York: J. Wiley and Sons Inc.
- Tenbrink, Terry D. (1999). Evaluación: Guía práctica para profesores. México: Nancea
- Woolfollk, Anita E (1996). Psicología educativa. México: Prentice Hall.
- Zarzar Charur, C (1993). Habilidades básicas para la docencia. México: Patria.


De Internet:

- http://members.tripod.com/milton_leonardo_c/psicologiavirtual/publicaciones/psicometria.html
- http://www.monografias.com/trabajos15/la-estadistica/la-estadistica.shtml
- http://www.fisterra.com/mbe/investiga/distr_normal/distr_normal.htm
- http://personal5.iddeo.es/ztt/Tem/t21_distribucion_normal.htm

2 Comentarios:

Anónimo dijo...

Me gustó, ameno y útil.

Fdo. R. Baños dijo...

¡Gracias por tu comentario! Me alegra que te haya servido. Saludos



El contenido plasmado en este blog es producto de la reflexión de su autor, de sus colaboradores y de los pensadores que en él se citan. Cualquier semejanza con la realidad o alguna ficcón literaria, televisiva, psicótica paranoide o de cualquier otra índole es mera coincidencia

Periplos en red busca crear espacios intelectuales donde los universitarios y académicos expresen sus inquietudes en torno a diferentes temas, motivo por el cual, las opiniones e ideas que expresan los autores no reflejan necesariamente las de Periplos en red, porque son responsabilidad de quienes colaboran para el blog escribiendo sus artículos.



Periplos en Red

Grab this Headline Animator

 
Ir Abajo Ir Arriba