Las pruebas objetivas

Cuadernosmonográficosdel ICE

Serie didáctica Núm. 4

Pedro Morales Vallejo

Las pruebas objetivas

Universidad deDeusto

• • • • • • • • • • • • • • • • • • •

ICEInstituto de Ciencias de la Educación

Cuadernos monográficosdel ICE Serie didáctica

Cuadernos del ICE

Núm. 4Las pruebas objetivasPedro Morales VallejoProfesor de la Universidad Comillas y colaborador del ICE de la Universidad de Deusto

BilbaoUniversidad de Deusto1995

Los Cuadernos de Teología Deusto pretenden tratar con ri-gor y de una manera accesible a un público amplio, temascandentes de la teología actual. La serie está promovidapor la Facultad de Teología de la Universidad de Deusto,pero cada número se debe a la responsabilidad y libertadde su autor. Estos cuadernos son flexibles y abiertos a unaproblemática muy amplia, pero tienen una especial preo-cupación por hacer presente la reflexión cristiana en lo máspalpitante de la vida eclesial y social de nuestro tiempo.

Consejo de Dirección:José María AbregoRafael AguirreVíctor Morla

Ninguna parte de esta publicación, incluido el diseño dela cubierta, puede ser reproducida, almacenada o trans-mitida en manera alguna ni por ningún medio, ya seaeléctrico, químico, mecánico, óptico, de grabación, o defotocopia, sin permiso previo del editor.

Publicación impresa en papel ecológico

© Universidad de DeustoApartado 1 - 48080 Bilbao

I.S.B.N.: 978-84-9830-880-8

Indice

01. Ventajas y limitaciones de las pruebas objetivas (visión de conjunto) 1102. Cómo redactar preguntas objetivas de elección múltiple . . . . . . . . . 1203. Número de respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1604. Preguntas del tipo Verdadero-Falso . . . . . . . . . . . . . . . . . . . . . . . . . . . 1805. Preguntas con varias respuestas correctas. . . . . . . . . . . . . . . . . . . . . . 2206. La adivinación en las pruebas objetivas . . . . . . . . . . . . . . . . . . . . . . . . 2307. Métodos de corrección que tienen en cuenta el conocimiento par-

cial del alumno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2608. Ejemplos de preguntas objetivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2909. Análisis de items en las pruebas objetivas . . . . . . . . . . . . . . . . . . . . . . 4410. Diversos usos de la pruebas objetivas . . . . . . . . . . . . . . . . . . . . . . . . . 5111. En torno a la calificación: cómo establecer puntuaciones mínimas

para el apto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5212. Cómo combinar puntuaciones parciales en una media final. . . . . . . 65

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Cuadernos monográficos del ICE, núm. 4

© Universidad de Deusto - ISBN 978-84-9830-880-8

Un pacto de supervivencia entre el hombre y la tierra

(Intercambio de vida y sentido)

por Luis M. Armendáriz*

Introducción

Las pruebas objetivas, tipo test como suelen denominarse, gozande una indudable popularidad gracias a las ventajas que reportan alprofesor, sobre todo cuando los alumnos son muchos. Es verdad quelleva su tiempo el prepararlas, pero una vez preparadas desaparecen losproblemas de corrección, sobre todo con la ventaja adicional que pro-porcionan las máquinas de lectura óptica y las posibilidades de hacernumerosos análisis con programas de ordenador. Este tipo de ventajaspueden llevar a una sobreabundancia de pruebas objetivas de baja cali-dad con efectos muy negativos en el cómo estudia el alumno, sobretodo si son el sistema preponderante, y también en el ambiente de laclase. La finalidad de estas páginas es contribuir a mejorar la calidad deestas pruebas.

Hay muchos tipos o formatos de pruebas objetivas bien conocidos;los más frecuentes son:

1. Preguntas del tipo Verdadero-Falso2. Preguntas de elección múltiple con una única respuesta co-

rrecta;3. Preguntas de elección múltiple con varias respuestas correctas;4. Preguntas de emparejamiento, que se presentan con dos co-

lumnas;5. Párrafos con espacios en blanco; el alumno de poner la palabra

adecuada o escoger entre las que se le ofrecen

Trataremos sobre todo, aunque no exclusivamente, de las pregun-tas de elección múltiple con una respuesta correcta, que es el modelo


más utilizado, posiblemente el mejor y que, como veremos, admitemuchas variantes.

Son muchos los temas que se pueden tratar a propósito de laspruebas objetivas; estos son los que, con desigual extensión, vamos aexponer:

01. Ventajas y limitaciones de las pruebas objetivas (visión de con-junto)

02. Cómo redactar preguntas objetivas de elección múltiple03. Número de respuestas04. Preguntas del tipo Verdadero-Falso05. Preguntas con varias respuestas correctas06. La adivinación en las pruebas objetivas07. Métodos de corrección que tienen en cuenta el conocimiento

parcial del alumno08. Ejemplos de preguntas objetivas09. Análisis de items en las pruebas objetivas10. Diversos usos de las pruebas objetivas11. En torno a la calificación: cómo establecer puntuaciones míni-

mas para el apto 12. Cómo combinar puntuaciones parciales en una media final13. Referencias bibliográficas

10 SERIE DIDACTICA


1. Ventajas y limitaciones de las pruebas objetivas

Limitaciones

1. La preparación es muy laboriosa; paraque estas pruebas sean un instrumen-to útil y eficaz de evaluación hay queprepararlas con cuidado, revisar mode-los de preguntas, etc.

2. Pueden condicionar negativamente loshábitos de estudio de los alumnos sino se preparan bien o se utilizan comométodo casi exclusivo: memorismo,falta de visiones de conjunto, etc.

3. Aunque la suerte en los temas pre-guntados influye menos, sí se puedeadivinar la respuesta correcta sin co-nocerla; tampoco se dificulta de ma-nera especial el copiar, transmitir larespuesta a otro, a no ser que se ha-gan varias ediciones paralelas (alteran-do el orden de las preguntas, de lasalternativas, etc.).

4. No comprueban objetivos importan-tes, como son todos los relacionadoscon:

a) la expresión escrita, estilo, etc.b) capacidad de organización, visio-

nes de conjunto, síntesis persona-les, etc.

c) juicios personales,.originalidad, etc.d) solución de problemas o aplicación

de normas y métodos en situacio-nes de mayor complejidad, o cuan-do se requiere justificación perso-nal, etc.

Algunos de los aspectos anteriores ysegún su complejidad, se pueden tam-bién comprobar en parte con pruebasobjetivas, pero en términos generalesy aunque se trate de preguntas de ca-lidad es un sistema limitado, que dejafuera cosas importantes, sobre todo sise utiliza como un método casi exclusi-vo y no está complementado por otros(como preguntas abiertas, trabajos he-chos en casa, etc.).

5. Puede ser un sistema caro, por la ne-cesidad de fotocopiar los cuadernosde preguntas y las hojas de respuesta.

Ventajas

01. Permiten evaluar sobre una base am-plia de conocimientos; se puede pre-guntar sobre muchos temas.

02. La suerte puede influir menos que enlas pruebas abiertas que tienen unnúmero más limitado de preguntas.

03. La fiabilidad es mayor: con otraspruebas similares los alumnos hubie-ran quedado ordenados de manerasimilar; diferencian adecuadamenteniveles de competencia entre losalumnos.

04. No hay lugar para ambigüedades enla respuesta o para que el alumnoresponda a lo que no se pregunta; lacorrección es muy objetiva.

05. La corrección es fácil y rápida; puedefacilitarse con cartones perforados ocon programas de ordenador, y tam-bién la puede corregir con objetivi-dad otra persona distinta del profe-sor.

06. Tienen gran variedad de aplicacionesy se pueden comprobar con nitidezobjetivos muy distintos: no sólo me-moria, sino también objetivos decomprensión, interpretación, análisis,etc.

07. Se presta a análisis estadísticos muyútiles que también pueden hacersecon programas de ordenador.

08. Tienen un valor diagnóstico de fácilinterpretación, identifican con clari-dad puntos no sabidos o no entendi-dos, etc.

09. Pueden condicionar un estudio inteli-gente si las preguntas son las ade-cuadas y los alumnos conocen el tipode pregunta para el que deben estu-diar.

10. Las mismas pruebas pueden utilizar-se en otras ocasiones o lugares, o re-sulta fácil modificar las ya existentes.

LAS PRUEBAS OBJETIVAS 11


2. Cómo redactar preguntas objetivas de elección múltiple

Las críticas que suelen hacerse a las pruebas objetivas son muchas,pero muchas de estas críticas no se derivan necesariamente del forma-to de las pruebas objetivas sino de la mala calidad de muchas de estaspruebas. Antes de preparar una prueba objetiva es útil repasar las nor-mas que la experiencia da como útiles. Haladyna y Downing (1989)han revisado 46 textos de evaluación que vienen a coincidir, entre unosy otros, en 43 normas para redactar buenas preguntas objetivas. Aquíresumimos las normas más importantes.

1. Lo importante en primer lugar es determinar qué se debe pre-guntar y cómo se debe preguntar. Es muy útil revisar modelos,de fácil adaptación a diversos niveles y asignaturas; hay muchosen buenas obras de evaluación. Esta revisión de modelos es im-portante si no hay práctica previa.

2. Las preguntas deben versar sobre algo que merezca la pena sa-ber. Las preguntas objetivas, si no se pone un cuidado especial,se prestan a comprobar nimiedades y pueden condicionar hábi-tos de estudio pobres, excesivamente memorísticos.Con estas preguntas se pueden comprobar con facilidad conoci-mientos de memoria, pero también comprensión, capacidad deanálisis, etc. (con los tests de inteligencia se pretende medir in-teligencia, y algo de eso se mide, y son pruebas objetivas). Auncuando la materia se preste sobre todo a un estudio básicamen-te de memoria, no es lo mismo comprobar el conocimiento dehechos y detalles específicos que de principios, leyes, generaliza-ciones, etc. Si hay objetivos previamente formulados, habrá quetenerlos en cuenta.

3. Es útil disponer de un plan previo (como las tablas de especifi-caciones o un plan similar) para que el conjunto sea equilibrado,y haya más preguntas de lo más importante; de lo contrariocabe preguntar más de lo que resulta más fácil preguntar. La ca-lificación dependerá normalmente del número de respuestas co-rrectas, y si hay muchas preguntas triviales, la nota dependeráde lo trivial, o de lo que es menos importante.

4. La pregunta completa tiene dos componentes, la pregunta pro-piamente dicha y las alternativas de respuesta. La pregunta pue-de formularse también en forma de frase incompleta que secompleta con las alternativas de respuesta. En cualquier caso elconjunto debe equivaler a una pregunta en sentido propio, demanera que las respuestas no equivalgan a una serie de afirma-

12 SERIE DIDACTICA


ciones inconexas. Los estudios experimentales sobre el uso deestos formatos (Crehan, 1989) muestran que no hay diferenciasimportantes entre los mismos.

5. La secuencia más lógica para redactar las preguntas objetivas es:

1.º Redactar la pregunta o frase incompleta,2.º Redactar la respuesta correcta;3.º Redactar las alternativas falsas;4.º Reordenar las respuestas para que la respuesta correcta vaya

variando de lugar.

6. Sobre la redacción de las preguntas (en forma de pregunta o defrase incompleta) se puede seguir este proceso (Williams y Ha-ladyna, 1982):

1.º El primer paso debe ser seleccionar la información que me-rece la pena preguntar, lo que al profesor le parece por al-guna razón importante; se puede empezar subrayando unafrase del texto, determinadas palabras, etc.; hay tener encuenta los objetivos si se han propuesto con claridad previa-mente, ejercicios hechos en clase, etc.

2.º Se selecciona información complementaria de la informa-ción ya señalada antes; pueden ser características, conse-cuencias, etc.; esta nueva información da cuerpo, completala idea señalada previamente;

3.º Se piensa en la tarea del alumno, qué tiene que hacer,cómo va a utilizar la información de la pregunta, qué verboqueremos que conjugue (y aquí será útil disponer de unaserie de sugerencias ya pensadas y que equivalen a objeti-vos operativos): identificar una reformulación correcta, pre-decir una consecuencia, evaluar unas conclusiones o inter-pretaciones, etc.

7. La pregunta propiamente dicha debe tener estas características:

a) Debe ser clara, que centre la atención del alumno. Puedecontener datos o información necesaria para la respuesta ypuede haber también datos comunes a varias preguntas.

b) Se debe evitar una formulación casi idéntica a la del texto,apuntes, etc. para evitar un excesivo memorismo.

c) No debe contener elementos irrelevantes para lo que se pideen las repuestas.

d) No debe contener pistas o información para responder co-rrectamente a otra pregunta del mismo test.



e) Debe incluir las expresiones que de lo contrario habría querepetir en cada alternativa.

f) No debe incluir en principio negaciones, al menos se debenutilizar con cautela preguntas negativas (con palabras comono, nunca) porque se prestan a equivocaciones aun cono-ciendo la respuesta; si se utilizan la partícula negativa debe irsubrayada, en MAYUSCULAS o en negrita (es decir, de ma-nera destacada) para evitar confusiones. Los items con for-mulación negativa suelen ser de hecho más difíciles, y estoparece confirmado con alumnos de enseñanza primaria y se-cundaria; con alumnos universitarios no está tan claro; lesafectan menos las deficiencias en la formulación de los items(Downing y otros, 1991; analizan las respuestas de unos18500 alumnos de medicina).

8. En la redacción de las respuestas se deben tener en cuenta, engeneral, estas normas:

1. Todas deben ser de una longitud aproximada (la respuestacorrecta no debe ser la más larga…);

2. Deben pertenecer al mismo ámbito conceptual; homogéneas,con terminología semejante;

3. Deben tener conexión gramatical y sintáctica con la preguntapropiamente dicha;

4. Si cabe una secuencia u orden lógico (por ejemplo orden cro-nológico, u orden alfabético) es preferible seguir este ordenen la presentación de las respuestas;

5. En el modelo habitual (y preferible en principio) debe haberuna única respuesta claramente correcta. A veces la respues-ta correcta es la mejor respuesta entre varias; en este caso,en el que varias respuestas pueden ser verdaderas en térmi-nos absolutos, debe quedar claro que la respuesta correcta loes en términos relativos (cuál es la característica más impor-tante, qué juicio expresa mejor la relevancia de… etc.). Endefinitiva la única respuesta correcta debe serlo con toda cla-ridad. La respuesta correcta no debe serlo en términos de laopinión personal del alumno.

9. Por lo que respecta a las respuestas incorrectas,

1.º Cómo buscarlas:

a) Una buena fuente de distractores son los errores comu-nes, las confusiones que por experiencia sabemos que

14 SERIE DIDACTICA


suelen ocurrir; estos distractores tienen un valor adicionaldiagnóstico porque ayuda a localizar los errores y darfeedback útil a los alumnos;

b) En las respuestas a preguntas abiertas se pueden tam-bién identificar errores y equívocos comunes que puedensugerir buenos distractores.

c) Si se han hecho análisis previos, se puede verificar quétipo de distractores funcionan mejor, cuáles convienemodificar.

2.º Qué se debe evitar en las respuestas incorrectas:

1. Alternativas falsas que engañan a los alumnos que re-almente saben y entienden (en los análisis posterioresse pueden detectar fallos en la redacción de estas pre-guntas).

2. Respuestas muy similares o sinónimas; si una es incorrec-ta, también lo será la otra;

3. Expresiones como siempre, nunca, etc.; generalmente setrata de respuestas falsas que el alumno que no sabe de-tecta con facilidad (sobre todo si se trata del tipo Verda-dero-Falso);

4. Respuestas ridículas o nada plausibles incluso para que elque no sabe nada;

5. Respuestas que dan pistas indebidas para responder aotras preguntas;

6. La respuesta todo lo anterior; si el alumno conoce queuna de las anteriores es verdadera, sólo tiene que esco-ger (o adivinar) entre dos (la que sabe que es correcta ytodas las respuestas anteriores)

7. En cambio ninguna de las anteriores puede utilizarseaunque no se debe abusar de esta respuesta. Los estu-dios experimentales sobre esta respuesta (Crehan, 1989,menciona unos 11) tienden a presentar las mismas con-clusiones: esta alternativa de respuesta hace que las pre-guntas sean:

1.ª más difíciles y en esto concuerdan casi todos los estu-dios experimentales,

2.ª ligeramente menos discriminantes;3.ª por lo que respecta al test completo, estas preguntas

hacen que la fiabilidad baje algo.



Esta respuesta (ninguna de las anteriores) se puedeaconsejar:

a) en lugar de distractores malos, a falta de otros mejores,b) en no más de una cuarta o quinta parte de los items,c) debe ser la respuesta correcta en una proporción simi-

lar (en la cuarta o quinta parte de los items que tienenesta opción),

d) en preguntas relativamente difíciles y en las que hayclaramente una única respuesta,

e) en items en los que no se preste a confusión la posi-ble respuesta correcta en alguna de las primeras pre-guntas, para que esta respuesta parezca creíble (Richy Johanson, 1990).

3. Número de respuestas

En general la relación entre número de alternativas en los items y elpoder discriminatorio de todo el test es la siguiente:

a) Dos alternativas (una correcta y otra incorrecta, verdadero-falso)discriminan mejor solamente en la parte alta de la distribución;quedan más diferenciados los que saben más (que son quienesmenos responden al azar) pero en el resto de la distribuciónquedan todos más indiferenciados.

b) Tres alternativas discriminan e informan mejor en el centro de ladistribución (los mejores y los peores quedan menos diferencia-dos entre sí).

c) Cuatro o más alternativas dan mejores resultados en la zonamás baja de la distribución, donde el adivinar es más frecuente ylas alternativas falsas pueden ser más plausibles; a mayor núme-ro de alternativas quedan peor, obviamente, los que menos sa-ben y tienden más a adivinar.

La mayoría de los textos recomiendan cuatro o cinco alternativas(una correcta y tres o cuatro falsas o distractores). La razón que sueleaducirse es que con un mayor número de alternativas disminuye la pro-babilidad de adivinar la respuesta correcta. El no recomendar más detres o cuatro alternativas incorrectas se debe a la dificultad de redactarrespuestas falsas y a la vez plausibles.

Son muchos los estudios que muestran que el número óptimo esde tres alternativas (Lord, 1997a, 1977b; Haladyna y Downing, 1985

16 SERIE DIDACTICA


que revisan 56 estudios experimentales sobre la redacción de lositems; Haladyna y Downing 1988, con N = 1.111 estudiantes de me-dicina; Trevisan y Sax, 1990, y Trevisan, Sax y Michael, 1994, quemuestran que la fiabilidad es prácticamente la misma entre tres y cin-co opciones, incluso cuando se controla la capacidad intelectual delos alumnos).

En conjunto el número óptimo es el de tres alternativas por todasestas razones avaladas por estudios experimentales:

1.º La fiabilidad tiende a aumentar al aumentar el número de alter-nativas (porque se discrimina mejor en la parte más baja de ladistribución), pero a partir de tres alternativas (o cuatro todo lomás) el aumento es mínimo y negligible.

2.º La eficiencia suele ser mayor con tres alternativas. Por eficienciase entiende aquí la razón tiempo/información obtenida. La má-xima información en menor tiempo se obtiene con tres, o inclu-so cuatro, alternativas. Más alternativas por item supone mástiempo de lectura y de contestar al test sin que compense la in-formación adicional obtenida.

3.º Al reducir la longitud del test se ahorra tiempo tanto en la pre-paración del test como en su administración.

4.º Con tres respuestas se pueden mantener las características de-seables en todo test (fiabilidad, información óptima sobre losexaminados). Por lo que respecta a la fiabilidad, es preferible te-ner más preguntas con menos alternativas que menos pregun-tas con más alternativas (cuatro preguntas con tres alternativasson preferibles a tres preguntas con cuatro alternativas).

5.º Una razón más para no incluir muchas alternativas incorrectases la dificultad en encontrar una tercera o cuarta alternativaque sea incorrecta y a la vez plausible, de manera que funcioneeficazmente como distractor. Es además lo que suele observarsecon mucha frecuencia cuando se analizan las respuestas: enmuchas preguntas hay distractores que nadie o casi nadie esco-ge, ni siquiera los que, a juzgar por el mismo test que se anali-za, saben menos. Cuando hay más de dos alternativas falsas,raramente funcionan más de dos, sobre todo en los niveles me-dios y superiores.

Aunque la investigación experimental nos dice que el número óp-timo es de tres alternativas, una correcta y dos incorrectas, el ponertres incorrectas (cuatro en total, como es práctica corriente) puede serprudente hasta que los análisis muestren qué alternativas incorrectasse pueden ir eliminando. La orientación de poner sólo dos respuestas



incorrectas supone que estas son funcionales, es decir (Haladyna yDowning, 1988):

1.º Son escogidos por más del 5 % de la muestra;2.º Tienen una correlación negativa con el total. Este análisis supo-

ne tratar cada alternativa como si fuera una pregunta, con res-puesta 0 ó 1. Esto lo que se hace habitualmente con la alterna-tiva correcta para determinar en qué grado discrimina cadaitem; además es útil hacerlo con cada posible respuesta porquenos dice en qué medida el escoger una alternativa falsa está re-lacionado con estar bien o mal en el conjunto del test.

4. Preguntas del tipo Verdadero-Falso

Estas preguntas son tan frecuentes como discutidas. Es normal juz-gar este tipo de preguntas como de peor calidad que las que tienenmás posibles respuestas.

1. Limitaciones de las preguntas del tipo Verdadero-Falso

Las limitaciones que suelen señalarse a estas preguntas son:

—El adivinar pesa mucho.Respondiendo al azar se puede responder correctamente al 50 %de las preguntas;

—Comprueban sobre todo conocimientos de memoria.Depende de cómo se formulen, aunque es verdad que son másfáciles de componer para comprobar conocimientos de memo-ria. Para autores de indudable prestigio y experiencia en estecampo, como Ebel (1977) estas preguntas pueden ser útiles, dis-criminantes y pueden además estimular la capacidad de pensardel alumno (thought provoking); cuando estas preguntas no sonbuenas preguntas se debe a que no están bien pensadas y redac-tadas más que al mismo formato de Verdadero-Falso.

—Con frecuencia son ambiguas.Esto quiere decir que no es tan fácil como puede parecer el re-dactarlas bien. Es verdad que muchas de estas preguntas (afir-maciones) son verdaderas o falsas según se den o no se den de-terminadas condiciones que no siempre se especifican, por loque pueden resultar ambiguas para muchos alumnos. Si se acla-ra mucho todo, pueden convertirse en evidentemente verdade-

18 SERIE DIDACTICA


ras o falsas. En definitiva es un problema de cuidado en la redac-ción de estas preguntas.

2. La dificultad de las preguntas con respuesta Verdadero-Falso

La dificultad de estas preguntas depende de dos factores:

1.º que la respuesta correcta sea verdadero o falso,2.º que el item esté formulado positivamente o negativamente.

Lo más claro parece ser que los items con formulación negativa sonde hecho más difíciles cuando la respuesta correcta es Verdadero. So-bre la formulación negativa, y por lo que respecta a cuestionarios so-ciológicos o sobre actitudes, los sujetos cambian con frecuencia su pri-mera respuesta cuando la formulación del item incluye no o nunca(Edvarson, 1980); estas confusiones son más frecuentes en niños(Marsh, 1986).

3. El poder discriminatorio de las preguntas Verdadero-Falso

Los items cuya respuesta correcta es Falso suelen ser más discrimi-nantes y tienen por lo tanto una fiabilidad mayor (considerados comoun sub-test) que los que tienen Verdadero como respuesta correcta.

La razón está en que cuando se responde con duda o ignoranciaintentando adivinar la respuesta correcta es más frecuente elegir Verda-dero como respuesta. Los que saben más y los que saben menos que-dan más diferenciados en las preguntas con respuesta correcta Falso ymás igualados cuando la respuesta correcta es Verdadero (por ejemploCronbach, 1942 y Grosse y Wright, 1985). Textos importantes de medi-ción educacional recomiendan por este motivo incluir más preguntas(hasta un 67 %) cuya respuesta correcta es Falso (Ebel, 1977).

4. Los tests del tipo Verdadero-Falso comparados con los de elecciónmúltiple

1.º Tienden a ser más fáciles (se acierta más adivinando), a ser me-nos discriminantes y tienen menor fiabilidad si se mantiene constanteel número de items. Esta menor fiabilidad de las dos alternativas conrespecto a tres respuestas o más (manteniendo constante el número depreguntas) está muy comprobada experimentalmente (por ejemplo



Straton y Catts, 1980; Grosse y Wright, 1985). A pesar de todo esto lostests con preguntas de sólo dos respuestas suelen tener con otros crite-rios correlaciones semejantes a las que tienen tests con preguntas demás respuestas (citas de Downing, 1992).

2.º Para conseguir una fiabilidad suficiente y reducir el influjo de laadivinación hacen falta más items (5 items Verdadero-Falso por cada 3de elección múltiple para obtener una fiabilidad comparable). Consólo dos alternativas (Verdadero-Falso u otro par de alternativas) sehan sugerido hasta 150 items para conseguir una fiabilidad lo sufi-cientemente adecuada como para tomar decisiones sobre los exami-nados (Downing, 1992).

3.º Se responden en un tiempo menor; típicamente se respondentres items del tipo Verdadero-Falso en el mismo tiempo en que se res-ponden dos de elección múltiple (Downing, 1992).

5. Conversión de los items Verdadero-Falso en preguntas de elecciónmúltiple

Cuando lo permite el tipo de pregunta, se puede evitar la dicoto-mía Verdadero-Falso al menos de dos maneras:

a) Proponiendo varias respuestas desde el claramente verdadero alclaramente falso, sobre todo a propósito de items (proposicio-nes) que tienen un cierto grado de complejidad, así las respues-tas podrían ser de estilo (recomendadas por Heywood, 1977,pero pueden ser otras más adecuadas):

A � Claramente verdadero C � Sin información suficiente para justificar su veracidad

B � Posiblemente verdadero D � Claramente falso

Las afirmaciones propuestas como preguntas pueden a vecesser verdaderas o falsas según las circunstancias, según los da-tos presentados para apoyar su supuesta veracidad, etc. y sepueden transformar en preguntas con más de dos alternati-vas.

b) Otra manera de formular estos items de manera que inviten aun adivinar inteligente, y evitar sólo dos respuestas, consiste enpresentar dos afirmaciones (con tal de que tenga sentido pre-

20 SERIE DIDACTICA


sentarlas juntas) con estas cuatro respuestas u otras semejantesque suponen conocer la relación entre las dos: (Eakin, 1977):

A � Las dos verdaderas C � Las dos falsasB � Sólo la 1.º verdadera D � Sólo la 2.º verdadera

También las respuestas podrían ser de estilo: la 1.ª contradicela 2.ª, la 2.ª es una conclusión de la 1.ª, etc.; se pueden estable-cer relaciones entre las dos afirmaciones según se den o no de-terminadas circunstancias, etc.

6. Preguntas de respuesta alternativa

Son preguntas con sólo dos respuestas pero distintas del Verdade-ro-Falso. Estas preguntas pueden considerarse como una variedad delVerdadero-Falso, pero preferimos destacarlas tratándolas por separado.Aunque coincidan con las preguntas del tipo Verdadero-Falso en quesólo hay dos respuestas, sus características son distintas, por eso con-viene distinguirlas.

Las respuestas Verdadero-Falso se pueden sustituir por otras dos al-ternativas formuladas de otra manera; por ejemplo:

Los eclipses de sol solamente pueden ocurrir en luna: � nueva� llena

en vez de

Los eclipses de sol solamente pueden ocurrir en luna nueva: � verdadero

� falso

Estas preguntas pueden ser una buena alternativa al Verdadero-Fal-so (Ebel, 1982, 1983):

a) Se puede evitar con más facilidad la ambigüedad inherente amuchas preguntas del tipo Verdadero-Falso porque permitencomparar las dos respuestas sin requerir un juicio absoluto sobrela falsedad o verdad de una proposición;

b) También posiblemente se redactan con mayor facilidad (no essiempre fácil redactar proposiciones absolutamente verdaderaso falsas);



c) Permiten con más facilidad comprobar conocimientos que noson de pura memoria.

Estas preguntas además suelen ser más discriminantes y conse-cuentemente los tests hechos con estas preguntas tienen una mayor fia-bilidad si los comparamos con los del tipo Verdadero-Falso (Downing,1992). Estas preguntas se asemejan más a las preguntas de elecciónmúltiple; en realidad son preguntas de elección múltiple con sólo dosrespuestas, e invitan menos a un adivinar ciego. De hecho en muchostests con preguntas de elección múltiple sólo hay uno o dos distracto-res funcionales (atractivos para el que no sabe). Naturalmente el pro-blema de acertar adivinando es el mismo que en las preguntas Verda-dero-Falso, por lo que hace falta un número mayor de items.

5. Preguntas con varias respuestas correctas

Este tipo de preguntas admite varios modos de presentación, talcomo aparece en los tres ejemplos puestos aquí.

A Varias Respuestas Correctas B Elección Combinada C Múltiple Verdadero-Falso

Las ventajas y limitaciones de estas maneras de presentar las pre-guntas con varias respuestas correctas han sido muy investigadas (porejemplo, Albanese, 1993).

Formato A Es el más difícil de los tres; no es fácil adivinar la combi-nación correcta de respuestas

Formato B Se mantiene una única respuesta correcta (ventajas decorrección), pero fácilmente se dan pistas para eliminaralguna opción; se tarda más en responder y requierenmás atención; son más fáciles que el formato A pero másdifíciles que las convencionales de una única respuesta

Estaban integradas en laantigua Yugoeslavia…

1. Albania � Verd.� Falso

2. Eslovaquia � Verd.� Falso

3. Eslovenia � Verd.� Falso

4. Croacia � Verd.� Falso

De las siguientes regioneso repúblicas ¿Cuales esta-ban integradas en la anti-gua Yugoeslavia?

a) Albania b) Eslovaquiac) Eslovenia d) Croacia

A � a y b C � sólo dB � a, b y c D � c y d

En la antigua Yugoeslaviaestaban integradas… (pue-de haber más de una res-puesta correcta)

A Albania �B Eslovaquia �C Eslovenia �D Croacia �

22 SERIE DIDACTICA


correcta y menos eficientes (relación tiempo requerido/in-formación aportada). Puede ser un buen recurso cuandoresulta difícil encontrar opciones falsas y plausibles.

Formato C Múltiple Verdadero-Falso: se considera el bloque comouna única pregunta aunque se responde a cada alter-nativa de manera independiente. Este formato suele re-sultarle a los alumnos más fácil que el A. Admite clavesde corrección más matizadas (por ejemplo todo bien = 1;un error = .50, más de un error = 0…).

6. La adivinación en las pruebas objetivas

Una de las críticas más comunes a las preguntas de elección múlti-ple es la posibilidad de responder correctamente respondiendo al azar.El adivinar en las pruebas objetivas puede considerarse un problemaequiparable o análogo a la suerte en las preguntas abiertas. Si se pue-de adivinar la respuesta en estas preguntas, puede haber suerte en lasotras (importante en la medida en que hay pocas preguntas). Todos losmétodos tienen sus limitaciones.

1. El adivinar no tiene siempre la misma importancia; tiene un pesomenor:

a) Cuando hay muchas preguntas; cuántas son muchas preguntases difícil de precisar, pero en la medida en que su número esmayor el efecto de las respuestas al azar es menor.

b) Cuando hay más alternativas de respuesta; no es lo mismo adi-vinar entre dos respuestas que adivinar entre tres o cuatro;

c) Cuando hay más de una respuesta correcta (un número variablede respuestas correctas).

2. Para neutralizar los efectos del azar en las respuestas, o para di-suadir a los alumnos de intentar adivinar la respuesta correcta, se hanpropuesto bastantes fórmulas correctoras (puede verse Urosa, 1995).La fórmula habitual para corregir los efectos del adivinar es:

–

–1

número de respuestas que tiene la pregunta

Cuando no todas las respuestas tienen idénti-co número de respuestas, cada respuesta in-correcta tiene un valor igual a:

número de respuestas incorrectas

número de alternativas en cada pregunta – 1

número de respuestas correctasNuevo Total =



3. Esta fórmula parte de unos supuestos que no suelen ser ciertos:o hay conocimiento perfecto y seguro y se escoge la respuesta correc-ta, o no lo hay y se responde al azar. El adivinar puro, la respuesta to-talmente al azar casi nunca se da. En la mayoría de los casos, cuando elalumno no sabe con seguridad cuál es la respuesta correcta, evalúa lasdiversas alternativas y escoge la más probable para él. Por lo general elque escoge una respuesta al azar, lo hace entre menos de las respues-tas propuestas. Los aciertos cuando se responde al azar pueden reflejarciencia insegura.

4. Estas fórmulas no corrigen los efectos del azar; simplementepenalizan las respuestas incorrectas; se supone que a menos ciencia,más tendencia a responder al azar. Esta fórmula no hace que los re-sultados sean más genuinos y no se puede afirmar que los totales co-rregidos representan lo que cada uno sabe una vez eliminados losefectos del azar.

5. Con esta fórmula se evitan respuestas al azar (se evitan erroresaleatorios), pero posiblemente se introducen errores sistemáticos por-que se penaliza a determinados tipos de alumnos:

a) a los alumnos que por temperamento tienden a pensar más, alos más cautos y con menos capacidad de riesgo (algunos estu-dios muestran que las alumnas tienden a omitir más en caso deduda Ben-Shakhar y Sinai, 1991, y otros estudios mencionadospor Budescu y Bar-Hillel, 1993).

b) a los alumnos que saben más, que por lo general salen ganandocuando adivinan. Muchos estudios experimentales muestranque los mejores alumnos salen ganando cuando adivinan aun-que se penalicen las respuestas incorrectas; las normas que sedan en estos casos (en caso de duda es preferible abstenerse)más bien les perjudican. Cuando se utiliza esta fórmula, un adi-vinar inteligente favorece a los buenos alumnos (Budescu y Bar-Hillel, 1993).

c) En general cuando se aplica la fórmula de corrección por adivi-nación no se tiene en cuenta la ciencia parcial e insegura; cuan-do los buenos alumnos aciertan respondiendo con inseguridadsus respuestas correctas reflejan ciencia parcial o insegura. Mu-chos estudios muestran que cuando los alumnos reconsideranpreguntas inicialmente omitidas y escogen lo más probable, losaciertos son más de los que se podría esperar por azar (porejemplo, Albanese, 1986, 1988).

6. Cuando se aplica esta fórmula, el orden relativo de los alumnossuele ser el mismo que cuando no se aplica (Frary, 1988; sobre todo si

24 SERIE DIDACTICA


todos responden a todo y apenas hay respuestas omitidas). En exáme-nes escolares, donde se espera que la mayoría responda a casi todo,esta fórmula no tiene ventajas claras con respecto al procedimientomás sencillo de utilizar el número de respuestas correctas. Los estudiosexperimentales indican que que no hay ventajas psicométricas claras(fiabilidad, validez) derivadas de aplicar o no aplicar la fórmula (porejemplo, Bliss, 1980; Frary, 1982).

7. Posiblemente es preferible no aplicar esta fórmula e invitar a losalumnos a un adivinar inteligente en caso de duda (también se evitauna cierta tensión durante el examen). Es muy improbable que unalumno que no estudia habitualmente lo suficiente pueda salir a flotesólo con la suerte. Si se va aplicar la fórmula, conviene advertir que losque tengan conciencia de saber, posiblemente acertarán si escogen lomás probable. No se puede hablar de una postura unánime sobre laconveniencia de utilizar esta fórmula: religión, política y la fórmula decorrección por adivinación son áreas en las que dos personas bien in-formadas mantienen con frecuencia posturas opuestas con gran segu-ridad (Lord, 1975).

8. Existen otros procedimientos y claves de corrección (incluida ono la penalización de respuestas incorrectas), menos conocidos y me-nos utilizados, que tienen en cuenta el conocimiento parcial del alum-no y que en conjunto aportan mejores resultados.

9. En el uso de esta fórmula pueden influir las mismas actitudes delprofesor. Hay profesores que se sienten incómodos ante la posibilidadde que algún alumno, o algunos alumnos en particular, puedan tenerun mejor resultado adivinando algunas preguntas, y les importa menosque otros, que saben y estudian, queden perjudicados por exceso deprudencia.

10. Esta fórmula puede ser más útil en determinadas circunstan-cias:

a) Cuando hay muy pocas preguntas, o sólo dos alternativas porpregunta;

b) Cuando hay poco tiempo para responder; en este caso hay másrespuestas al azar y salen ganando los más audaces.

c) En tests difíciles (o poca preparación en muchos de los exami-nados) o cuando los requisitos para el apto son más bien bajoscomo puede ser el caso en algunas pruebas de selección pocoexigentes. En general la fórmula es útil cuando presumiblemen-te muchos alumnos no van a saber responder a muchas pre-guntas.



7. Métodos de corrección que tienen en cuenta el conocimientoparcial del alumno

Uno de los problemas asociados a las pruebas objetivas es, como yahemos notado, el del conocimiento parcial o ciencia insegura de los alum-nos. Con frecuencia no están seguros de cuál es la respuesta correcta,pero sí saben que algunas opciones son incorrectas. Con frecuencia cuan-do adivinan y aciertan, y esto es algo que también suele suceder, se debea que realmente sí saben aunque no están muy seguros de su respuesta.

Por lo general cuando un profesor corrige estas pruebas, suele pen-sar solamente en estas alternativas:

1.º utilizar como puntuación directa el número de respuestas co-rrectas;

2.º aplicar la fórmula de corrección por adivinación.

Sin embargo otros métodos menos conocidos que se han propues-to buscan simultáneamente:

a) reducir o eliminar las respuestas al azar,b) tener en cuenta el conocimiento parcial del alumno.

En estos métodos las instrucciones para responder son distintas: encaso de duda o eliminar todo lo probablemente falso o escoger todo loprobablemente verdadero, adecuando la clave de corrección al númerode respuestas que el alumno considera probablemente correctas.

Estos métodos se basan en el supuesto de que un adivinar inteli-gente está de hecho mostrando ciencia aunque insegura. Para Billing(1974) que propone una serie de métodos de preguntar y corregir paramedir el adivinar inteligente (y que pueden verse en Heywood, 1977),el adivinar inteligente es una habilidad distinta del conocimiento y muyútil en la vida. Tampoco se trata siempre y necesariamente de un adivi-nar inteligente cuando se responde con estas normas. Lo que se le pideal alumno es que señale todas las respuestas probablemente correctaso que elimine todas las respuestas probablemente incorrectas. Estasinstrucciones además contribuyen a eliminar la tensión y ansiedad quea veces producen las pruebas objetivas.

Exponemos dos métodos que son equivalentes (tratados en exten-sión por Urosa, 1995)

1. Eliminar todas las respuestas probablemente falsas

1.º En vez de escoger la respuesta correcta, al alumno se le instruyepara que elimine todas las alternativas que a su juicio pueden ser falsas

26 SERIE DIDACTICA


(ver por ejemplo Collet, 1971). La corrección se hace así (k = númerode alternativas en cada item):

Cada eliminación correcta tiene un valor =

Si se elimina la respuesta correcta, el item tiene un valor = –1

Por lo tanto si el item tiene: Valor de cada eliminación correcta

5 alternativas, 1 correcta y 4 falsas: = 0.25



Siempre que se elimine la alternativa correcta el valor del item es: –1

Si se eliminan todas las alternativas falsas, el valor del item es: –1

Lo seguro para el alumno es eliminar solamente las respuestas falsasde las que está seguro que son falsas. Si se arriesga y elimina la respuestacorrecta, tiene mucho que perder. Se elimina la dicotomía acertar/equivo-carse del todo (que tampoco es real en la vida ordinaria, fuera de los exá-menes) y el alumno puede manifestar lo que sabe, y obtener crédito porello, aunque su saber sea incompleto. Además se elimina la odiosidad ymal clima que suele generar el uso de la fórmula de corrección por adivi-nación (y que a fin de cuentas tampoco corrige los efectos del azar).

Collet (1971, y otros autores que cita) encuentra con este sistemauna mayor fiabilidad que cuando se aplica la fórmula convencional decorrección por adivinación o se ponderan las respuestas falsas segúndeterminados criterios según su importancia (y pueden tener un valorde 0,50, 0, –0,50 ó –1). La razón parece estar en que se evita mejor eladivinar y se tiene en cuenta el conocimiento parcial del alumno.

2. Escoger todas las respuestas probablemente verdaderas

En un método similar al anterior (Jaradat y Sagawed, 1986), sepide al alumno que en caso de duda escoja todas las alternativas

1

3 – 1

1

4 – 1

1

5 – 1

1

k – 1



que a su juicio son probablemente verdaderas. La corrección es eneste caso así:

Si la alternativa correcta: Valor del itemestá entre las escogidas k (número de alternativas) menos

como probables: número de alternativas elegidas

no está entre las escogidas se resta el número de alternativas como probables: escogidas

Por ejemplo, y en el caso de 4 alternativas (k = 4),

Si el alumno escoge: Valor del item

4 alternativas, (incluida la correcta necesariamente) 4 – 4 = 03 alternativas, incluida la correcta: 4 – 3 = 12 alternativas, incluida la correcta: 4 – 2 = 21 alternativa, que es la correcta: 4 – 1 = 31 alternativa, que no es la correcta: –12 alternativas, sin incluir la correcta: –23 alternativas, sin incluir la correcta: –3

Con esta clave de corrección la puntuación total máxima sería igualal número total de respuestas falsas en el test. En un test de 10 pre-guntas, cada una con tres respuestas falsas y una correcta, la puntua-ción máxima sería 30. Si queremos que la puntuación máxima coincidacon el número de items, basta dividir los valores anteriores por el nú-mero de respuestas falsas en cada item.

Jaradat y Sawaged (1986) muestran en su estudio que los coefi-cientes de fiabilidad y validez (correlación con pruebas equivalentes)son mayores que cuando se aplica la fórmula de corrección por adivi-nación, o se suman sin más las respuestas correctas.

De manera semejante a lo que sucede con el método anterior, loseguro para el alumno es no escoger como respuesta correcta lo queprobablemente es falso. El que este procedimiento (escoger lo que pro-bable o ciertamente se piensa que es verdadero) sea preferible al ante-rior (eliminar lo que probable o ciertamente se juzga que es falso) esalgo que se puede investigar. Los dos métodos al menos disuaden alalumno de un adivinar ciego y por otra pare le animan a mostrar susconocimientos aunque sean incompletos. La hipótesis que parece pro-bada es que el mejor funcionamiento de estas claves se debe a la dis-

28 SERIE DIDACTICA


minución de las respuestas al azar y a tener en cuenta la ciencia parcialdel alumno; los alumnos que saben más o que saben menos, o conmayor o menor seguridad, quedan mejor diferenciados.

La dificultad de corrección que pueden presentar estos métodoses sólo aparente pues se trata de procedimientos fácilmente progra-mables.

8. Ejemplos de preguntas objetivas

Introducción

1. Las preguntas que presentamos aquí están tomadas de diversasfuentes y autores. El presentar preguntas (o esquemas de preguntas)de diversos autores tiene una doble finalidad. Por una parte se trata depreguntas que se prestan a comentarios útiles, y pueden servir comosugerencia para pensar en otras distintas. Por otra parte es una manerade llamar la atención sobre la abundante bibliografía que hay sobre es-tos temas. Esta selección es muy limitada, pero en las fuentes origina-les, y en otras muchas, pueden verse otros modelos.

2. Estas preguntas son todas de múltiple elección de respuesta conuna única respuesta correcta; el formato más usual. El que los conteni-dos de las preguntas no coincidan ni con el área ni con la asignatura oel nivel que a un profesor concreto le puedan interesar no tiene aquíespecial importancia: se trata de presentar esquemas aplicables a mu-chas otras situaciones. El esquema formal de estas preguntas puedeservir para objetivos y materias muy distintas. Modos de preguntar queen los ejemplos se refieren al nivel universitario pueden ser válidos enniveles inferiores y viceversa. Cuando se examinan estas fuentes y mo-delos hay que hacerlo con cierta creatividad e imaginación, pues ejem-plos muy ajenos a la propia situación pueden ser muy sugeridores enotros niveles y materias.

1. Preguntas basadas en la interpretación de datos o informaciónnueva con idénticas respuestas en todas las preguntas

Estos dos ejemplos constan de una información que se da a losalumnos seguida de una serie de interpretaciones; cada interpretaciónes una pregunta distinta que el alumno debe valorar eligiendo una delas cinco respuestas ofrecidas. Estas respuestas son comunes a todas laspreguntas.



Este primer ejemplo está tomado de la taxonomía de los objetivoseducacionales de Bloom, Hastings y Madaus (1973, la edición citada), yque es una excelente fuente de preguntas de todo tipo y pensadaspara evaluar objetivos muy distintos.

«Teniendo en cuenta únicamente los datos de este gráfico, clasifi-que las siguientes afirmaciones según crea que se trata de una inter-pretación…»

Respuestas comunes a todas las preguntas

A. Evidentemente ciertaB. Probablemente ciertaC. Ni cierta ni falsa; los datos presentados no son suficientes para

determinar el grado de veracidad o falsedad de la afirmaciónD. Probablemente falsaE. Indudablemente falsa

Afirmaciones (preguntas)

23. La gente gozaba de más comodidades en 1932 que en 1949.24. Desde 1918 hasta la actualidad, el dólar alcanzó su mejor mo-

mento en 1933.25. En el período comprendido entre 1932 y 1949 fueron más los

precios que ascendieron que los que bajaron.

80

100

120

140

160

180

80

100

120

140

160

180

Indice de precios del consumidor, 1918-49(1935-39 = 100)

Tanto por ciento

Tomado de: Departamento de Trabajode EE.UU. Oficina de Estadística Laboral

Tanto por ciento

22 24 26 28 30 32 34 36 38 40 42 44 46 48 50201918

30 SERIE DIDACTICA


Y siguen más afirmaciones-preguntas del mismo estilo. Pregun-tas semejantes pueden verse en otra obra de los mismos autores(Bloom, Madaus, y Hastings, 1981) de título muy expresivo: evalua-ción para mejorar el aprendizaje. En esta obra pueden encontrarsepreguntas mucho más complejas para comprobar capacidad de aná-lisis crítico, etc.

La información ofrecida al alumno no tiene que ser cuantitativa ne-cesariamente. Puede tratarse del texto de un autor (o de la prensa,etc.) relacionado con los conceptos manejados en clase.

Un ejemplo de este tipo es el ofrecido aquí, tomado también de lataxonomía de Bloom y colaboradores. Del texto inicial puesto comobase para las preguntas reproducimos solamente el final.

Respuestas comunes a todas las preguntas

A. La afirmación es cierta y su certeza está confirmada por la infor-mación ofrecida en los párrafos anteriores

B. La afirmación es cierta pero esta certeza no está confirmada porla información ofrecida

C. La afirmación es falsa y su falsedad está corroborada por los da-tos presentados en estos párrafos

D. La afirmación es falsa, pero esta falsedad no está demostradapor la información que se da en el texto anterior.


49. Los productores marginales se ven menos afectados por un im-puesto sobre la venta que por el que se carga sobre la renta.

50. A los productores no marginales les e difícil transferir un im-puesto sobre la renta líquida a cargo del consumidor bajo la

«…un impuesto sobre las ventas por otra parte, provoca un alza en loscostos de producción de los productores marginales, despertando enellos cierta tendencia a abandonar la producción, a no ser que sea posi-ble transferir dicho impuesto al consumidor bajo la forma de un alza deprecios. Si llega a producirse un abandono de la producción, disminuiránlas existencias y aumentarán los precios hasta absorber los impuestos so-bre la renta.» (Tomado de Introduction to Social Science, de Atterberry,Auble, Hunt y otros).



forma de una elevación de precios, porque en tal caso los con-sumidores tenderían a acudir a los productores marginalespara efectuar sus compras.

En la obra original siguen más preguntas de este estilo. Se puedenpreparar preguntas parecidas, como preguntas propiamente dichas ocomo ejercicio para la clase, sin más objetivo que verificar la compren-sión de un texto, reforzar la capacidad lectora o de lectura comprensi-va, etc. En las obras que citamos, y en otras, pueden verse muchosejemplos de este tipo.

En las respuestas se combinan realmente dos respuestas: Afirma-ción cierta o no, y probada o no en la información aducida.

En los dos ejemplos siguientes (de un seminario en la Universidadde Deusto) las preguntas también se basan en una información previa.

1. Información común a varias preguntas: (se describe una situa-ción legal y una crítica a la misma).

Preguntas relacionadas con la información anterior, cada una con las mismas respuestas

«Preste atención a las afirmaciones que a continuación se hacen(cada afirmación es una pregunta) y coloque en el paréntesis puestodelante de cada afirmación.»

El favorecimiento personal disfruta en el CP de un tratamiento privile-giado con relación al real, pues éste se castiga en todos los casos y el per-sonal sólo se da una de estas circunstancias: a) abuso de funciones públi-cas o b) ser el delincuente reo de alguno de los delitos que taxativamentese enumeran en el n.º 2 del 3.º del art. 17, donde se incluye también elser reo conocidamente habitual de otros delitos. Algunos autores consi-deran que no hay motivo para esta diferencia de trato.

El esquema de estas preguntas es el mismo:

— Información nueva, datos, etc.— Interpretaciones (o conclusiones, etc., que son las preguntas presenta-

das al alumno)— Repuestas comunes a todas estas preguntas.

32 SERIE DIDACTICA


Respuestas comunes

A. si considera que esa afirmación apoya la postura del CP,B. si considera que esa afirmación no tiene significación ninguna

ni a favor ni en contra de la posición del Código,C. si considera que esa afirmación podría llevarnos a negar la posi-

ción del CP.


1. La selección de delitos que hace el Código Penal en el n.º 2 del3.º del art. 17 es insuficiente.

2. La relación entre el delincuente y el encubridor, en este tipo defavorecimiento, es más humana y personal que en el favoreci-miento real.

3. Este tipo de favorecimiento revela menos peligrosidad en el quelo realiza.

4. Este tipo de favorecimiento es más fácil de realizar que el otro.5. Sólo hay que castigar el favorecimiento personal en aquellos ca-

sos en que los delitos son de gran entidad, o bien en aquellosdelitos que, por razones de política criminal, interesa perseguirespecialmente en un momento determinado.

6. Esto puede llevar que al no ser castigado el favorecimiento per-sonal mas que en ciertos casos, se incremente el número de es-tos delitos.

7. Esto es una cuestión de política criminal no susceptible de discu-sión doctrinal.

8. El Derecho Penal no debe castigar todo lo malo, sino únicamen-te lo peor.

En este otro ejemplo ejemplo tenemos una información y una con-clusión; podríamos aumentar el número de preguntas añadiendo másconclusiones; el esquema es básicamente el mismo.

Información: Según el artículo 420 del CP es reo de lesiones «el que hi-riere, maltratare o golpeare de obra a otro». Según este ar-tículo únicamente será responsable penalmente el que hacausado materialmente las lesiones.

Conclusión: Por lo tanto quedaría impune la persona que motiva y con-vence a otra para que lleve a cabo un delito de lesiones



«Señale la respuesta correcta, y referida a la conclusión.»

A. Es cierto, pues el tipo penal de las lesiones no preve este su-puesto, y por lo tanto no se puede castigar.

B. Es cierto, pues la mera ayuda o consejo, sin intervención en loshechos, no se castiga.

C. No es cierto porque la jurisprudencia interpreta que el que con-vence a otro para cometer un delito debe ser castigado.

D. No es cierto, porque en el libro I del CP se preve la responsabili-dad del inductor y según ello aquí sería de aplicación.

E. Es cierto, pues aunque se establezca en el libro I del CP respon-sabilidad al que induce, no entra en juego cuando en el tipo sedescribe claramente la conducta que ha de ser castigada.

Observaciones sobre este tipo de preguntas

a) Los autores mencionados ponen estas preguntas como ejemplopara evaluar objetivos de interpretación. No se trata de que el alumnoconozca interpretaciones, sino de que él interprete. En estos ejemplospuede verse el por qué del énfasis en los verbos que implican una ma-nifestación de aprendizaje al formular objetivos didácticos (qué verbosobligamos a conjugar a nuestros alumnos). Al alumno que estudiapara responder a este tipo de preguntas no le basta con conocer dememoria las definiciones de los conceptos implicados. Tiene que en-tenderlos.

b) Las respuestas son en algunos casos dobles respuestas: el alum-no debe decidir si la interpretación puesta en cada pregunta es correctao no es correcta y además debe decidir si esta primera respuesta estáprobada, o apoyada, por los datos o información ofrecida.

c) Las respuestas comunes se pueden simplificar según el tipo dedatos ofrecidos y el nivel de los alumnos (interpretación o conclusióncierta, faltan datos o no tiene que ver con los datos, falsa…)

d) Se supone que los datos, o la información, son en cierta medidanuevos para el alumno, pero que obviamente pertenecen al ámbito delo que se ha estudiado.

e) Es relativamente sencillo formular bastantes preguntas de estetipo (muchas interpretaciones, muchas conclusiones derivadas de losdatos), con lo que se pueden comprobar con mucha fiabilidad (seguri-dad) objetivos muy concretos (en este caso evaluar interpretaciones de-rivadas de unos datos o de una determinada información, interpretardatos…).

34 SERIE DIDACTICA


f) Con preguntas de este estilo se salva, o se minimiza, una de las li-mitaciones inherentes a las pruebas objetivas: la de presentar las pregun-tas descontextualizadas, estimulando un estudio, y un aprendizaje, untanto alejado de situaciones reales. Es cierto que a veces el contexto pue-de facilitar la respuesta, pero esta mayor facilidad puede ser legítima.

g) El mismo formato de la pregunta se presta para hacer buenaspreguntas abiertas (justificar la respuesta elegida…)

h) Estas preguntas pueden constituir un buen ejercicio para la clase,al margen de su uso en exámenes convencionales.

2. Preguntas basadas en el uso de textos, citas, casos: una informacióncomún a preguntas distintas con respuestas distintas

En muchas asignaturas hay que estudiar y conocer escuelas de pen-samiento, teorías, períodos históricos, procesos, etc. Las preguntas obje-tivas en esas materias son con frecuencia muy memorísticas: el alumnotiene que escoger un nombre, una fecha, un título, una característica,etc. Los ejemplos reproducidos aquí sugieren otras posibilidades, seacercan más a la comprensión que a la memoria y condicionan en elalumno un estudio más inteligente.

Estas preguntas las tomamos o adaptamos de Heenan (1961) quetiene un capítulo sobre la evaluación de las humanidades en la impor-tante obra de Dressel (1961) que a pesar de su antigüedad es una re-ferencia de calidad para la evaluación en educación superior. Aunquelas preguntas puestas aquí tienen que ver con épocas, se puede pensaren preguntas análogas para evaluar conocimiento y comprensión deescuelas, estilos, etc. Este tipo de preguntas pueden ser útiles en todaslas materias del área social y en todas en las que se manejen ideas quepuedan estar reflejadas en un texto o cita.

En las preguntas siguientes el alumno debe asociar descripcionescon períodos históricos. Estas descripciones no deberían ser tomadasliteralmente del texto.

Pregunta: Identifica la época histórica descrita en cada una de estasdescripciones:

Cada descripción (las reproducimos parcialmente) es una pregunta.

1. El individualismo y la violencia conformaron el estilo de la épo-ca. Con frecuencia el individualismo tomó la forma de una pa-sión criminal por conseguir el poder político. Pero también habíaviolencia en la pasión con que los hombre de letras se dedicaronal estudio del latín y del griego…



2. Lo característica de este período fué la búsqueda de libertad: li-bertad frente a la superstición, frente a la intolerancia… la filo-sofía fué suplantada por la ciencia…

3. En esta época se buscaba la glorificación de Dios, y se considerabaque la vida sólo era una peregrinación o camino para ir a la otra…

Estas descripciones (más amplias en el texto original) contienen ac-titudes, ideales… que los alumnos deben asociar con determinadostiempos y períodos.

Respuestas comunes a todas las descripciones

A. La Edad de Oro de GreciaB. Comienzos de la Edad MediaC. El RenacimientoD. La IlustraciónE. Comienzos del siglo XIX

Estas descripciones se prestan a hacer más preguntas sobre estosperíodos, por ejemplo:

—¿Cual de los siguientes personajes refleja mejor los ideales de laépoca reflejada en la descripción n.º 2?

—¿Cual de estas escuelas filosóficas floreció en la época que co-rresponde a la descripción n.º 3?

De manera análoga, en lugar de describir épocas, se pueden ponercitas que expresan determinadas visiones del mundo, posturas filosófi-cas, teorías económicas, etc.

Una misma descripción puede servir de base para hacer varias pre-guntas:

—¿Qué autor estaría de acuerdo con lo dicho en el párrafo 2…?—¿Cuál es el principio subyacente que habría que aceptar para

sostener como verdadero lo dicho en…?—¿Cuál de estas consecuencias es coherente con lo afirmado

en…?

Las preguntas siguientes (Heenan, 1961) son de filosofía, pero sepuede pensar en preguntas análogas en otras áreas. La informaciónprevia consiste en una cita o texto, desconocido para el alumno, querefleja una determinada escuela filosófica. El texto está reproducido demanera aproximada, como ilustración del tipo de preguntas que sepueden hacer. El alumno debe conocer algo más que una serie de ca-racterísticas memorizadas.

36 SERIE DIDACTICA


Preguntas en torno a la cita anterior

La cita anterior refleja la postura filosófica de los…

A. EmpiricistasB. EscolásticosC. PlatónicosD. RealistasE. Epicúreos

¿Cuál de estos autores estaría más inclinado a aceptar la cita ante-rior como una afirmación verdadera?…

A. PlatónB. SócratesC. DescartesD. LockeE. Santo Tomás de Aquino

La escuela filosófica caracterizada por esa cita cree que la fuente denuestras ideas es…

A. La revelación divinaB. La ExperienciaC. La feD. El estudioE. Lo desconocido

En asignaturas en las que son importantes las ideas, escuelas depensamiento, etc., no es difícil encontrar citas que son nuevas para elalumno, pero en las que debe reconocer ideas centrales, autores repre-sentativos, etc. si ha estudiado con cierta seriedad. No son necesaria-mente preguntas de comprensión o análisis (también podrían serlo),pero quedan más alejadas de la memoria fácil.

«…los sentidos dejan entrar al principio ideas particulares que van amue-blando el todavía vacío armario, y la mente se va haciendo gradualmentefamiliar con algunas de ellas; algunas quedan fijadas en la memoria y reci-ben un nombre…de esta manera la mente se va enriqueciendo con ideasy con el lenguaje, materiales con los que puede ejercer su facultad discur-siva…el uso de la razón se va haciendo más visible al ir aumentando losmateriales que permiten su ejercicio…»



Ejemplos de preguntas semejantes pero pensadas para verificarcomprensión y capacidad de análisis de citas literarias pueden verse enlas obras de Bloom, Hastings y Madaus, (1973, 1974, 1981).

El uso de casos brevemente expuestos también se presta a compo-ner preguntas de distinta índole para comprobar conocimientos, capa-cidad de análisis, de aplicación, etc.

Un mismo caso o situación se presta a formular distintas preguntasque, según la materia o ámbito (psicología, derecho, etc.), pueden serde este estilo: identificar los datos esenciales, identificar el problema,valorar estrategias de solución, seleccionar estrategias según distintassoluciones, finalidades o circunstancias, identificar datos necesariospara la solución pero todavía no conocidos, etc.

3. Preguntas basadas en una doble información o combinando dos elementos en las respuestas

En algunas de las preguntas anteriores en las respuestas se combi-nan dos respuestas: por ejemplo decidir sobre la veracidad de unaconclusión y decidir si esta veracidad o falsedad está probada en la in-formación aportada. El presentar dobles informaciones o dobles res-puestas puede ser un buen recurso para formular preguntas que re-quieren al menos pensar más: comparar, decidir. Pueden ser preguntasque se pueden responder de memoria, pero también se prestan a pre-guntas más de comprensión o análisis.

Estos dos esquemas de preguntas los abstraemos de ejemplos pre-sentados por Bloom, Hastings y Madaus (1981).

1.º Información dada al alumno:

Se le da en cada pregunta una doble información:

— Información A: teoría de un autor concreto.— Información B: una meta de política económica (redistribuir la riqueza, disminuir

la inflación, etc.).

Preguntas: serie de medidas económicas brevemente expuestas, (aumentar de-terminados impuestos, subir salarios en determinadas circunstancias,etc.).

Respuestas (comunes a todas las preguntas).

� Compatible con A y sin conflicto � Restringe A y sin conflicto con Bcon B

� Compatible con A pero � Restringe A pero entraen conflicto con B en conflicto con B

38 SERIE DIDACTICA


(una o varias informaciones tipo A se pueden combinar con una o va-rias informaciones tipo B)

El uso de preguntas con una doble información se presta a formu-lar otros tipos de preguntas; con frecuencia miden comprensión aun-que no necesariamente. A veces son un buen recurso para evitar pre-guntas del tipo verdadero-falso.

Estas dos preguntas son de ciencias y las tomamos de Nelson(1961); en ellas se combinan una afirmación con una condición o unarazón y son adaptables a otros tipos de materias.

Preguntas: todas siguen el mismo esquema, contienen dos elementos:

1.º una afirmación2.º una condición,

Por ejemplo:

Condición

Si la partícula negativa tiene la carga mayor

C. La afirmación es verdadera si se daesa condición

D. La afirmación es verdadera indepen-dientemente de la condición

E. No se puede responder sin más da-tos.

Afirmación

Una partícula con carga negativa repelea otra partícula con carga positiva

Respuestas comunes a todas las pre-guntas:

A. La afirmación es falsa si se cumplela condición

B. La afirmación es falsa indepen-dientemente de la condición

2.º Información dada al alumno: se describe una ley y dos tipos de personas, A y B

Preguntas de dos tipos:

1. ¿Qué responderían…? (lista de autores).2. ¿Qué responderían teniendo en cuenta…? (una norma constitucional, una de-

cisión del Tribunal Supremo, etc.).

Respuestas comunes a todas las preguntas:

� Adecuada para A y para B � Inadecuada para A y para B� Adecuada para A, pero no para B � Adecuada para B, pero no para A



Preguntas con un esquema similar; se presenta 1.º una afirmación y2.º una razón.

4. Preguntas relacionadas con cronologías

En muchas materias, y no sólo en Historia, hay una dimensión his-tórica. En los tests objetivos se ve a veces una sobreabundancia de fe-chas que los alumnos van a olvidar pronto. Puede ser también intere-sante, y a veces más que conocer fechas concretas, el saber ordenar,situar un acontecimiento antes y después de otros, conocer secuencias,conocer quién es contemporáneo de quién o de qué, etc. Estas pre-guntas (tomadas también de Heenan, 1961) presentan diversos ejem-plos para evaluar esta dimensión temporal.

Los tres modos de evaluar conocimiento de cronologías sin pregun-tar años exactos presentados aquí son situar entre acontecimientos, si-tuar entre determinados años y escoger el orden cronológico correctode una serie de acontecimientos.

a). Se establece una línea del tiempo, señalando ac ontecimientosimportantes que limitan determinados períodos; el alumno debe indi-car el período (o entre qué acontecimientos) que corresponde a cadapregunta. Los cinco intervalos son las respuestas comunes a una seriede preguntas.

1 2 3 4 5

Batalla Muerte Fin de las Establecimiento de Maratón de Sócrates guerras púnicas del Imperio romano

Razón

El mármol es una roca ígnea metamorfoseada

C. La afirmación es verdadera pero larazón es falsa

D. La afirmación es falsa y la razón ver-dadera (e irrelevante)

E. La afirmación y la razón son falsas.

Afirmación

En el mármol rara vez se encuentran fósiles


A. La afirmación y la razón son verda-deras, pero sin relación de causa aefecto

B. La afirmación y la razón son verda-deras, y hay relación de causa aefecto

Razón

El mármol es una roca ígnea metamorfoseada

C. La afirmación es verdadera pero larazón es falsa

D. La afirmación es falsa y la razón ver-dadera (e irrelevante)

E. La afirmación y la razón son falsas.

Afirmación

En el mármol rara vez se encuentran fósiles


A. La afirmación y la razón son verda-deras, pero sin relación de causa aefecto

B. La afirmación y la razón son verda-deras, y hay relación de causa aefecto

40 SERIE DIDACTICA


Preguntas: señala el intervalo que indica el período en el que…

1. Aristóteles estableció el Liceo2. Se edificó el Partenón3. Pablo de Tarso aceptó la fe cristiana4. El rey David unió a los hebreos en una única nación

b). La respuestas comunes a varias preguntas del mismo tipo tam-bién se pueden presentar en forma de intervalos temporales señaladoscon fechas, no con acontecimientos:

Indica entre qué años se produjeron los acontecimientos históricospuestos a continuación.

Respuestas:

A. Entre el año 100 y el año 499B. Entre el año 500 y el año 799C. Entre el año 800 y el año 1099D. Entre el año 1100 y el año 1399E. Entre el año 1400 y el año 1650

c) Señala la respuesta que expresa el orden cronológico correcto deestos acontecimientos, personas o documentos.

Respuestas comunes a las cuatro preguntas:

1: Las 95 tesis de Lutero A: 1-2-3-42: Los cuentos de Canterbury de Chaucer B: 2-1-4-33: La Consolación de la Filosofía de Boecio C: 3-4-2-14: Las sentencias de Pedro Lombardo D: 4-2-1-3

Esquemas para formular pruebas objetivas

El cuadro adjunto puede servir de sugerencia para pensar en esque-mas de preguntas adaptados al propio nivel y a la propia asignatura.Estos esquemas pueden ser una ayuda para pensar en posibles pregun-tas objetivas. La columna de posibles respuestas podría por supuestoser distinta.

Aunque un cuadro de este tipo lo haga un profesor para su propiouso personal, debería entenderlo como un esquema que le puede faci-litar su tarea, no como un esquema fijo del que no se debe salir. Estetipo de esquemas son con frecuencia útiles al principio, y ayudan apensar en las posibilidades de la propia asignatura.



Algunos esquemas para formular preguntas objetivas(énfasis en la comprensión e interpretación)

Estímulo:información presentada en la pregunta

Respuestas

—un texto o más de uno, citas;—descripción de un fenómeno o de una

situación,—representación gráfica, dibujo, esque-

ma, etc,—serie de datos, estadísticas, etc.,—ejemplos, casos, etc., etc.

La información puede presentarse:

1. En un bloque único,2. Dividida en partes numeradas para

identificarlas con más facilidad;

La información puede ser:

1. Idéntica o muy parecida a la del texto,explicación, ejercicios, etc.

2. Diferente a la vista en el texto o enclase

—El que este tipo de preguntas, basadasen una información previa, compruebecomprensión, capacidad de interpretar,de analizar, etc. dependerá no sola-mente del tipo de respuesta, sino de lanovedad relativa de la información.

—A propósito de la misma informaciónpueden hacerse varias preguntas de lamisma categoría (como evaluar inter-pretaciones) o de distintas categorías(preguntas sucesivas: escoger escuela,autor, supuestos implícitos, conclusio-nes, etc.)

—Estas dos columnas se pueden invertir:los textos, datos, citas, ejemplos, etc.,pueden ser categorías de respuesta.

—Estas preguntas-tipo equivalen a objeti-vos específicos y se pueden adaptar adiversos temas, asignaturas,etc.

elección entre varias alternativas, referida:

—o a toda la información presentada;—o a una parte de la información

01. Identificar resumen síntesis o explica-ción,

02. Identificar ejemplo de lo dicho en eltexto,

03. Identificar categoría de clasificaciónen la que puede encuadrarse la in-formación o parte de élla (teoría, es-cuela, clase, tipo, etc.),

04. Identificar interpretación,05. Identificar expresión equivalente (si-

nónimo, reformulación, forma verbalequivalente),

06. Identificar representación gráficaadecuada,

07. Identificar consecuencias, conclusio-nes; extrapolar,

08. Identificar premisas, supuestos implí-citos, causas, motivaciones implíci-tas, etc. (lo que no se dice pero sesupone, etc.),

09. Identificar juicio sobre toda o partede la información (verdadero, proba-ble, falso, etc.) o sobre determinadasconsecuencias;

10. Identificar pregunta a las que res-ponde la información,

11. Identificar datos esenciales, o los ne-cesarios para una determinada con-clusión, etc.,

12. Identificar relaciones (semejanzas,prioridades, subordinación, efecto-causa, etc.) entre las partes de la in-formación, o valorar (verdadera, fal-sa, etc.) determinadas relaciones,etc.

13. Identificar orden, secuencia apropia-da a los elementos de la información(orden cronológico, lógico…)

42 SERIE DIDACTICA


Observaciones

1. Otros textos de evaluación que presentan numerosos ejemplosde tipos de preguntas, además de los que hemos ido citando (y que fi-guran en las referencias bibliográficas) son Ebel (1977) y Ebel y Frisbie(1991) , y pueden encontrarse otros autores con facilidad.

2. Hay que recordar siempre que las buenas preguntas objetivassiempre dejan fuera cosas importantes: el alumno no se expresa, no or-ganiza ideas, etc. y esto hay que tenerlo siempre en cuenta; las prue-bas objetivas son difícilmente defendibles como sistema único de eva-luación.

Estas preguntas sin embargo también pueden comprobar capaci-dades que podemos llamar superiores (interpretar, analizar) pero sonmás difíciles de construir, de ahí la necesidad de disponer de modelosvariados y sugerentes. Recordemos que con los tests de inteligenciase pretende medir inteligencia (capacidad de abstraer, de relacionar),podemos decir modestamente que algo de eso miden, y son pruebasobjetivas. En conjunto un sistema de evaluación ecléctico puede serlo más conveniente. Al alumno se le estimula de muchas manerasdistintas.

Lo que sí parece incuestionable es que si de hecho se utilizanpruebas tipo test (porque tenemos muchos alumnos, por las dificulta-des de corrección de las pruebas abiertas, por las ventajas que pro-porcionan la lectura óptica, los ordenadores, etc.) hay que preparar-los lo mejor posible, pues pueden condicionar en el alumno un tipode estudio muy negativo si no se preparan bien (sólo o casi sólo estu-dio de memoria, de información descontextualizada, de detalles irre-levantes, etc.).

3. Cuando las preguntas son fundamentalmente de memoria (lasmás fáciles de preparar), hay que pensar también qué se puede y debepreguntar. Es fácil limitarse a hechos, fechas, nombres, características,etc. Se puede pensar también en grandes generalizaciones, tendencias,abstracciones, juicios, etc. Es importante que el profesor se pregunte así mismo qué merece la pena estudiar y recordar después…

4. Una pregunta de evaluación debe ser eso, una pregunta de eva-luación, no un jerolífico. El profesor debe preguntarse siempre si mere-ce la pena estudiar para responder a esta pregunta. Las preguntas apa-rentemente complicadas deben ser preguntas diáfanas y claras… parael alumno que sabe, piensa y estudia bien.

5. Una última observación. Muchas de estas preguntas pueden sermuy difíciles. Los ejemplos puestos aquí no son precisamente de losmás difíciles.



Sobre la dificultad de las preguntas podemos hacer dos observa-ciones.

1.º Si lo que se pretende es que el alumno aprenda (aprenda apensar, a diferenciar, a relacionar, etc.) será siempre convenien-te algún ejercicio previo en esta línea. Las preguntas de un exa-men no deben ser una absoluta sorpresa. El alumno estudia enfunción del tipo de pregunta esperado, y el profesor debe con-dicionar con su evaluación un estudio inteligente.

2.º La dificultad pretendida por el profesor (para estimular, paraque los alumnos se habitúen a pensar o estudiar en profundi-dad y no memorizando apuntes, para localizar a los mejores,etc.) no tiene por qué incidir necesariamente en un aumento delos fracasos. El profesor puede siempre tener en cuenta el nivelde dificultad que él mismo ha pretendido al establecer sus crite-rios de calificación. Lo que sí parece discutible es disminuir elnúmero de fracasos con una excesiva facilidad en las preguntas.Además puede también poner un número suficiente de pre-guntas más fáciles.

El alumno debe saber cómo debe estudiar, y no solamente quédebe estudiar. Por ahí va la diferencia entre contenidos y objetivos, oentre qué saber y cómo saberlo. Por otra parte la dificultad va disminu-yendo cuando el alumno se va habituando a que no todo es recordar yreconocer, y se va ejercitando en diversas capacidades. Lo aprendidopodrá olvidarse, pero las habilidades estimuladas quedarán. Y muchosalumnos se sentirán gratificados al comprobar que sus profesores creende verdad que pueden ser tratados y evaluados como personas inteli-gentes, capaces de pensar y no sólo de repetir.

9. Análisis de items en las pruebas objetivas

Las pruebas objetivas se prestan a hacer una serie de análisis de in-terés. Por qué puede ser de interés el analizar las pruebas objetivas:

1.º Para ir mejorando su calidad. Estos análisis aportan informaciónno ya sobre los alumnos, sino sobre cada una de las preguntas.El hacer una buena prueba objetiva, incluso una mala pruebaobjetiva, supone un tiempo y un esfuerzo que hay que hacerrentables. Si acumulamos experiencia sin hacer nunca ningúnanálisis, podemos estar haciendo pruebas objetivas de calidadmuy mediocre. La información que nos dan estos análisis nos

44 SERIE DIDACTICA


permite ir mejorando las pruebas sucesivas que vayamos ha-ciendo.

2.º Algunos de estos análisis aportan información útil para comen-tarla con los mismos alumnos, y darles un feedback matizadosobre su aprendizaje. También hay datos que pueden influir in-directamente en nuestros criterios de calificación; al menos dis-ponemos de una información más completa y fácil de entender.

Por otra parte todos estos análisis son fácilmente programables, y siutilizamos una hoja de respuestas de lectura óptica y un programa ade-cuado de ordenador (programas que es fácil preparar), casi sin darnoscuenta podemos acumular una información muy útil, incluso para tra-bajos de investigación.

Caben en primer lugar los cálculos y análisis estadísticos más con-vencionales y referidos a todo el test, como es el de coeficiente de fia-bilidad (que indica en qué medida en exámenes semejantes los alum-nos hubieran quedado ordenados de manera parecida) y el error típico(que viene indicar el margen probable de oscilación de las puntuacio-nes de unas ocasiones a a otras). Aquí prescindimos de este tipo deanálisis y nos limitamos a los análisis más frecuentes y sencillos quesuelen hacerse con cada pregunta o item.

9.1. Análisis de las diversas alternativas

Este análisis es muy sencillo y aporta una información de interésque se interpreta con mucha facilidad y de manera intuitiva. Posible-mente es el análisis en principio más útil para el profesor. Se trata deorganizar las respuestas de manera que permitan una reflexión rápidasobre las preguntas y los alumnos.

El proceso es el siguiente:

1.º Se ordenan los sujetos de más a menos según su puntuacióntotal en la prueba (número de respuestas correctas, no por no-tas) y se seleccionan el 25 % con puntuación total más alta(grupo superior) y el 25 % con puntuación total más baja (gru-po inferior).

2.º Se tabulan las respuestas de estos dos grupos en cada item, demanera que se pueda ver cuántos de cada grupo, superior e in-ferior, han escogido cada opción.

Esta tabulación de las respuestas se presta ya a muchas observacio-nes de interés para el profesor que ha redactado los items. Lo veremosmejor con un ejemplo ficticio.



En este ejemplo suponemos que tenemos 40 alumnos, de los quehemos escogido 10 con el total más alto y los 10 con el total más bajo.En la tabla adjunta tenemos cómo se han distribuido las respuestas en-tre las cuatro opciones de cada pregunta: en el supuesto numeradortenemos el número de alumnos del grupo superior que ha escogidocada opción, y debajo el número de alumnos del grupo inferior que haescogido esa misma opción; la respuesta correcta está señalada con unasterisco.

Esta mera tabulación de frecuencias se presta ya una serie de consi-deraciones:

Item n.º 1: La alternativa correcta (la A) la han escogido todos y so-los los del grupo superior: se trata de una pregunta que discrimina muybien. Los del grupo inferior se han ido casi todos a la opción D: es unabuena alternativa incorrecta, que atrae al que no sabe o no entiende;sabemos dónde o porqué fallan los que saben menos (qué confundencon qué…). Esta presentación de los datos puede tener un claro valordiagnóstico. La alternativa C no la escogido nadie, ni siquiera de losque menos saben. En otra edición convendrá modificarla, y si observa-mos que con frecuencia hay alguna opción que no la escoge nadie, po-dremos pensar en pasar de cuatro a tres alternativas.

Item n.º 2: Los que más saben se distribuyen entre dos alternativas,la B (correcta) y A. Es posible que las dos sean correctas, que la pregun-ta sea ambigua…La opción C también es un buen distractor que atraea los que no saben.

Item n.º 3: Aquí tenemos un resultado anómalo: los que aciertanson sobre todo los que menos saben. El grupo superior prefiere la op-

Alternativas (la respuesta correcta se indica con un *)

Preguntas A B C D

Item n.º 1

Item n.º 2

Item n.º 3

10*

0

0

2

0

0

0

8

5

1

5*

0

0

7

0

2

6

1

0

1

2

0

2*

8

46 SERIE DIDACTICA


ción A (incorrecta). Pregunta que podemos hacernos: ¿estará mal laclave de corrección? En cualquier caso una pregunta que favorece a losque menos saben es en principio una mala pregunta y habrá que exa-minarla.

Naturalmente no hay interpretaciones automáticas, pero esta tabu-lación puede decir mucho al profesor que conoce sus propias pregun-tas. Lo mismo para comentar resultados en clase, como para ir mejo-rando sus items, esta simple tabulación de las respuestas puede sermuy informativa.

9.2. Indices de dificultad y discriminación

Estos índices no se calculan con toda la muestra sino, como en elcaso anterior, con el 25 % con una puntuación total más alta en todoel test y con el 25 % con una puntuación total más baja. El número desujetos en ambos grupos es por lo tanto el mismo; sólo se analizan lasrespuestas del 50 % de los alumnos.

Indice de dificultad

Indica la proporción de aciertos (tanto por ciento si multiplicamospor 100) en la muestra de alumnos que estamos utilizando (el 50 % deltotal, los dos 25 % con puntuaciones totales extremas).

Este índice es la media de este 50 %. También la media del item,obtenida con toda la muestra, nos indica el grado de dificultad (media

Df = AS + AI

N + N

Símbolos utilizados:

N = número de sujetos en uno de los dos grupos (los dos grupostienen idéntico número de sujetos)

N + N = número total de sujetos analizadosAS = número de acertantes en el grupo superior (con puntuación to-

tal más alta)AI = número de acertantes en el grupo inferior (con puntuación to-

tal más baja)



más alta, ítem más fácil), sin embargo este índice suele utilizarse rutina-riamente junto con los índices de discriminación.

El término índice de dificultad se presta a equívocos: un índice ma-yor indica una pregunta más fácil (mayor proporción de aciertos), nomás difícil.

Indice de discriminación 1

Es el índice más utilizado y equivale a una estimación de la correla-ción item-total. Indica la diferencia entre dos proporciones: proporciónde aciertos en el grupo superior (AS/N) menos proporción de aciertosen el grupo inferior (AI/N). Indica hasta qué punto la pregunta discrimi-na, establece diferencias, contribuye a situar a un sujeto en el gruposuperior o inferior.

Si todos responden correctamente (pregunta muy fácil), tendremosque

= 0

Si todos se equivocan (pregunta muy difícil) tendremos que

= 0

Las preguntas muy fáciles o muy difíciles no discriminan, no esta-blecen diferencias; nos dicen que todos saben o no saben la pregunta,pero no quién sabe más y quién sabe menos.

Si todos y solos los del grupo superior aciertan la pregunta, tendre-mos que:

= 1

Si acertaran solamente los del grupo inferior tendríamos que

= –10 – N

N

N – 0

N

0 – 0

N

N – N

N

Dc1 =AS – AI

N

AS – AI

N

48 SERIE DIDACTICA


Por lo tanto 1 y -1 son los valores máximos de este índice. Las pre-guntas con discriminación negativa favorecen al grupo inferior y enprincipio deberían ser revisadas (posibilidades: mal formuladas, ambi-guas, error en la clave de corrección, etc.)

Las preguntas que discriminan mucho (diferencian bien a los quesaben más de los que no saben menos) tienden a ser de dificultadmedia. En el caso anterior (discriminación máxima porque aciertansólo y todos los del grupo superior) tendríamos que el índice de difi-cultad sería:

Df = = ,50

Una limitación de este índice está en que el valor máximo de 1 sólose alcanza cuando aciertan todos los del grupo superior y se equivocantodos los del grupo inferior. Puede haber preguntas que discriminanbien pero son difíciles ( y fallan algunos del grupo superior) o son fáci-les (y las aciertan algunos el grupo inferior). Por estas razones algunosprefieren el otro índice de discriminación que exponemos a continua-ción (Dc2), aunque se pueden programar y utilizar los dos.

Indice de discriminación 2

Este índice indica la proporción de aciertos en el grupo superior conrespecto al número total de acertantes. Puede considerarse satisfacto-rio si es superior a .50: más de la mitad de los acertantes pertenecen algrupo que sabe más.

Este índice es independiente del grado de dificultad de la pregunta;con el índice anterior nunca se llega al valor de 1 si falla alguno del gru-po superior (preguntas más difíciles); en cambio este índice llega a 1 sitodos los acertantes, aunque sean pocos, pertenecen al grupo superior.

9.3. Valoración de estos índices

1.Estos índices describen cómo ha funcionado una pregunta en unasituación dada; no hay que asociar necesariamente juicios de valor sobrela pregunta al valor de estos índices. Preguntas muy fáciles o muy difíciles,

Dc2 =AS

AS + AI

N – 0

N + N



por ejemplo, no son discriminantes y tienen su lugar. Otra cosa es cuandoestos índices nos sorprenden porque no esperábamos estos resultados.

2. Las preguntas muy discriminantes (que no suelen ser las más difí-ciles o las más fáciles) nos indican dónde fallan, sobre todo, los que tie-nen malos resultados; pueden incluso indicar por qué fallan cuando va-rias preguntas muy discriminantes tienen alguna relación entre sí.

3. La discriminación supone diferencias (lo mismo que la fiabilidadcalculada con todo el test) y el que haya diferencias no es necesaria-mente un buen resultado, por ejemplo cuando las preguntas son enprincipio fáciles, versan sobre objetivos mínimos, etc. Sí es, en cambio,importante que las preguntas discriminen cuando se trata de clasificar,de seleccionar, etc.

En exámenes amplios, en los que se pregunta de todo, con gruposrelativamente numerosos, la no discriminación (lo mismo que una fiabi-lidad muy baja) puede indicar que no se detectan diferencias que dehecho existen. En este tipo de exámenes habrá preguntas que no dis-criminen porque son fáciles, o son importantes y todos las han estudia-do; casi todos las responden bien y éste será un buen resultado; otrasno serán discriminantes porque son muy difíciles y ya se contaba conello (y tampoco tiene que valorarse como un mal resultado); pero en elconjunto del examen y para poder calificar con cierto matiz, debe ha-ber preguntas de dificultad media que discriminen bien.

4. Las preguntas muy discriminantes (que nunca serán las más difí-ciles) pueden ser útiles en exámenes de segunda convocatoria, prescin-diendo de lo muy fácil y de lo muy difícil; con exámenes más cortos ob-tenemos la información suficiente. Claro está que puede haber otroscriterios para seleccionar estas preguntas (temas u objetivos determina-dos, al margen de que las preguntas discriminen mucho o poco).

5. Para extrapolar los resultados harían falta muestras grandes (N = 400,ó unos 100 en los grupos extremos; estas muestras se pueden obteneracumulando datos); sin embargo la experiencia da que los índices obteni-dos con grupos pequeños, si se mantiene constante el tipo de sujetos,dan una buena idea de lo que se puede esperar en grupos similares.

6. No hay que olvidar, cuando se calculan e interpretan estos índices,que en principio una pregunta es buena si es clara y está bien formulada,si permite comprobar el objetivo deseado y condiciona un tipo de estu-dio inteligente o al menos deseable. Estos índices describen cómo hanfuncionado en una muestra y situación concretas y son útiles para eva-luar las preguntas, sugerir qué se puede revisar, etc., pero malas pregun-tas (triviales, que no comprueban nada importante, que condicionan unestudio poco inteligente, etc.) pueden tener índices que podrían conside-rarse como óptimos (por ejemplo pueden discriminar muy bien).

50 SERIE DIDACTICA


10. Diversos usos de las pruebas objetivas

Asociamos las pruebas objetivas a exámenes, pero estos sistemaspueden tener otros muchos usos. Puede suceder que las pruebas tipotest no nos interesen como modalidad de examen, pero pueden intere-sar con otras finalidades. En el cuadro adjunto enumeramos una seriede usos de este tipo de preguntas.

1.º Test o examen convencional, con un número más o menos grande de preguntas; lo que sehace habitualmente.

2.º Pocas preguntas de cierta dificultad (y de preparación no tan fácil) para evaluar objetivosmuy específicos, como capacidad de análisis, de interpretación, etc. (y para condicionar uncierto tipo de estudio en profundidad, etc.). Estas pocas preguntas pueden ser comple-mento de otras preguntas de respuesta abierta .

3.º Preguntas objetivas con respuesta abierta (comentar todas las alternativas, escoger la co-rrecta y justificar la elección, etc.). En sentido propio ya no se trata de una prueba objetiva,pero el formato de la pregunta puede ser válido para orientar la respuesta del alumno enla dirección deseada.

4.º Pruebas objetivas sencillas, (pueden ser del tipo Verdadero-Falso) como ejercicio de autoe-valuación rápida; el profesor no recoge los tests ni califica; da la respuesta correcta en pú-blico y cada alumno se corrige a sí mismo. Util para verificar comprensión de lo que se aca-ba de explicar, al comienzo de la clase como repaso de lo visto en la clase precedente, alcomienzo de un nuevo tema para ver qué saben ya los alumnos, qué piensan, etc.

5.º Pruebas relativamente cortas y sencillas de evaluación formativa: no se trata de calificarsino de dar información al profesor y a los alumnos, reforzar el aprendizaje, clarificar, etc.Las pruebas objetivas sencillas, y relativamente cortas, llevan poco tiempo de preparación ycorrección, se prestan a devolver los datos organizados y comentados, etc.

6.º Pocas preguntas bien pensadas utilizadas para dar estructura a actividades en la misma cla-se. La finalidad no es evaluar o comprobar sino facilitar el aprendizaje (análisis de casos y ac-tividades similares). Un proceso posible para dar estructura a una actividad puede ser éste:

1.º Respuesta individual a las preguntas;2.º Discusión y respuesta en pequeños grupos; como ya ha habido antes un breve trabajo

individual se facilita la participación de todos, que al menos tendrán que comunicar surespuesta inicial;

3.º Puesta en común e intervención del profesor para dar las respuestas correctas, respon-der a las dificultades, etc.

7.º Preguntas objetivas orientadas a facilitar el estudio reflexivo de un texto (o varios); se tratapreparar material didáctico de usos múltiples, viene a ser un estudio dirigido; por ejemplo:Lo dicho en el párrafo 1.º de la página 25 comparado con lo dicho en el párrafo 2.º de lapágina 23:

[A] lo contradice [B] es una consecuencia[C] es una prueba [D] no tiene nada que ver

8.º Adaptación de la enseñanza programada: se formulan una serie de preguntas objetivasque cubren por orden todo un tema de especial interés o dificultad; al final de cada pre-gunta se indica la página del texto (o textos) donde se encuentra la solución correcta paraque el mismo alumno se vaya autocorrigiendo. Este material escolar puede ser útil para ga-rantizar el estudio o repaso de determinados puntos, como recurso en caso de suplencias,para recuperaciones, etc. Si hay una hoja separada para las respuestas, el cuadernillo depreguntas se puede utilizar en otras ocasiones.



11. En torno a la calificación: Cómo establecer puntuaciones mínimas para el apto

El problema de cómo establecer una puntuación mínima para elapto lo vamos a exponer sobre todo teniendo en cuenta los tests ypruebas objetivas, pues es aquí donde sobre todo se ha planteado; mu-chas de las soluciones o procedimientos propuestos se refieren a estetipo de pruebas y es también donde más se han investigado estos pro-cedimientos, pero los mismos métodos y principios pueden de algunamanera adaptarse a las pruebas abiertas. En definitiva se trata de lacuestión de cómo calificar, y sobre todo de dónde poner el aprobado.

Como tema complementario trataremos después sobre cómo combi-nar puntuaciones parciales (diversos exámenes, tests, o diversas partes deun examen, diversos ejercicios y trabajos, etc.) en una puntuación final.

No se puede decir que haya un único método para determinardónde se pone el aprobado; de hecho se han propuesto bastantes(puede verse una exposición y comentario crítico en Berk, 1986, querevisa 38 procedimientos, y en Jornet y Suárez, 1989). Métodos distin-tos llevan a puntuaciones mínimas distintas, e incluso un mismo métodopuede dar resultados distintos a personas distintas, por lo que siempretendrá que intervenir un juicio prudencial en la elección del método. Entodo caso la adopción de un método, en función de su aplicabilidad ydel sentido que en él se vea, puede mejorar procedimientos arbitrarioso no bien pensados.

Tratando específicamente de criterios de calificación (y no simple-mente de dónde poner el apto), es normal clasificar los diversos enfo-ques en dos grandes categorías:

1.º Criterios relativos al grupo (Norm-Referenced)2.º Criterios referidos a un criterio, o nivel absoluto (Criterion-Re-

ferenced)

Estos criterios o enfoques desembocan en métodos y procedimien-tos específicos. Casi todos los procedimientos que se han desarrolladopertenecen básicamente a la segunda categoría: cómo calificar sin te-ner al grupo como norma o referencia. En la práctica ambos enfoquespueden complementarse; se puede calificar en principio según nivelesabsolutos, o según objetivos conseguidos, pero sin perder de vista loque el grupo es capaz de hacer. O se puede tener un criterio absolutopara aprobar y un criterio más relativo al grupo para asignar las califica-ciones superiores al aprobado.

Los distintos métodos que vamos a exponer son más o menos los quepodemos considerar que están en el mercado: ninguno puede considerar-

52 SERIE DIDACTICA


se como el método adecuado, pero todos pueden aportar sugerencias vá-lidas para distintas situaciones. Los estructuramos en estas categorías:

1. Métodos relativos al grupo2. Métodos basados en una proporción predeterminada de res-

puestas correctas3. Métodos basados en objetivos conseguidos (o teniendo en

cuenta preguntas específicas)4. Métodos basados en el análisis de los items por medio de varios

jueces

En el cuadro adjunto presentamos una serie de ideas que se puedenconsiderar acerca de los enfoques básicos en la calificación: criterios re-lativos al grupo y criterios independientes del rendimiento grupal.

Sobre criterios de calificación…

Criterios relativos al grupo…

Según niveles previamente establecidos…

— Cuando los niveles mínimos para el apto no dependen del rendimiento de los demás,sino que son establecidos previamente: hay que determinar y comunicar previamenteobjetivos y criterios mínimos, qué es más y menos importante, etc.

— Estos criterios son más importantes para diferenciar el apto del no apto…— Necesidad de establecer objetivos claros (contenidos y objetivos)— Si hay un número mínimo predeterminado de respuestas correctas…

• Se debe preguntar más de lo más importante, de lo que es necesario para apro-bar…

• Peligro de que haya muchas preguntas triviales…programar la evaluación…

— Se pueden evaluar por separado los objetivos mínimos para el apto…— En las pruebas objetivas se pueden explorar diversos métodos para establecer las pun-

tuaciones mínimas para el apto…

Aspectos cuestionables…

— Tomados literalmente: a cada uno se lecalifica no por lo que sabe él, sino por loque saben los demás…

— El que sabe más perjudica al que sabemenos…

— Los que más saben pueden no saber losuficiente…y los que menos saben pue-den saber lo suficiente…

— Se desmotiva a los que no pueden com-petir…

— Se pueden favorecer actitudes negati-vas… competitividad, no ayudar a losdemás, no prestar apuntes o material…

Sin embargo…

— Es interesante disponer de los datos detodos antes de calificar, comprobar quées lo que se puede exigir a un determi-nado grupo…

— Los criterios relativos al grupo son másdefendibles (e incluso recomendables)para establecer calificaciones superioresal apto, o las calificaciones máximas…



11.1. Métodos relativos al grupo

Algunos de los métodos para establecer la puntuación mínima parael apto (y para calificar en general) toman como referencia los resulta-dos globales del grupo. Son los métodos de calificación según la curva,como suele decirse informalmente. En estos casos el suspenso se sueleponer donde hay una clara inflexión en la distribución de frecuencias.También son métodos relativos al grupo los que se basan en los per-centiles o en las puntuaciones típicas.

Estos métodos pueden tener varios inconvenientes.

1.º No se juzga a los sujetos por lo que saben ellos, sino por lo quesaben los demás, y el criterio de calificación (sobre todo para si-tuar el aprobado) puede oscilar mucho según sea el grupo. Almenos como hipótesis puede suceder que en ocasiones el quesabe más no sepa lo suficiente y otras veces el que sabe menospuede saber lo suficiente.

2.º Los criterios de calificación relativos al grupo pueden crear acti-tudes no deseables entre los alumnos, pues los que más estu-dian, o los más inteligentes, elevan el nivel de la clase y perjudi-can a los menos capaces o menos estudiosos. Se puede crearun clima de competitividad no deseable. En general si se calificacon un criterio grupal, se desmotiva a los alumnos que habi-tualmente van peor y tienen más problemas, pues saben queestán casi condenados al fracaso (siempre hay alguien que estáen el último lugar…)

3.º Con los criterios relativos al grupo se prescinde de manera ex-plícita de los objetivos del curso y de los contenidos de los pre-guntas; lo que determina la calificación es el cuántas preguntasse responden correctamente, y no qué preguntas se respondencorrectamente.

Este inconveniente de los criterios relativos al grupo (en los quepesa la cantidad y pasa más desapercibida la calidad de la pregunta) noes exclusivo de los criterios de grupo y tampoco es exclusivo de laspruebas objetivas; también se utilizan criterios de grupo con preguntasabiertas, pero cuando se utilizan preguntas objetivas, la tentación deceñirse a un criterio de grupo, al margen de la calidad de las pregun-tas, es mayor. Posiblemente la alternativa más sencilla al mero criteriode grupo es la de tener en cuenta, al menos para el apto o no apto,una serie de preguntas específicas previamente pensadas (como se ex-pone con más detalle en el apartado 11.3).

54 SERIE DIDACTICA


Si se va a utilizar un método de calificación relativo al grupo, nohay un método claro sobre cómo hacerlo. El resultado mínimo paraaprobar depende siempre del juicio prudencial del profesor. Normal-mente se hace primero una distribución de frecuencias y se observadónde hay saltos en la distribución; dónde empiezan los resultados másbajos, etc.

Las puntuaciones típicas aportan más información que las puntua-ciones directas; indican al menos qué casos se apartan con más clari-dad de lo que es normal en un grupo. Una vez establecido el nivel mí-nimo, se puede dividir el resto de la clase en segmentos iguales (porejemplo cada media desviación típica) para asignar las calificaciones su-cesivas. Cabe siempre combinar un criterio absoluto (lógico, por objeti-vos conseguidos, etc.) para situar el apto, y un criterio relativo al grupopara asignar el resto de las calificaciones.

Aunque no se califique con criterios de grupo, siempre es útil tenera la vista, como referencia general, los resultados de todo el grupo.

11.2. Métodos basados en una proporción predeterminada derespuestas correctas

Hay muchos métodos para determinar cuál debe ser el número mí-nimo para el apto; exponemos los más utilizados.

1. Es frecuente predeterminar un número mínimo sin más considera-ciones que el juicio personal del profesor, que puede tener encuenta el nivel de dificultad de la prueba. En general suele poner-se el apto en torno a un 65 ó 70 % de respuestas correctas, e in-cluso más alto. Con preguntas del tipo verdadero-falso la propor-ción para el apto deberá ser mayor. Naturalmente al determinarun número mínimo de respuestas correctas para aprobar, convie-ne pensar en la dificultad percibida o pretendida del examen.

2. El apto hay que ponerlo al menos por encima de la media quese puede esperar por azar, que es igual al número de preguntasdividido por el número de respuestas en cada pregunta.

3. También se ha propuesto situar el apto en el punto intermedioentre lo que se puede esperar por azar y la media ideal, que asu vez es el punto intermedio entre el azar y la puntuación máxi-ma posible (Ebel 1977).

Un ejemplo práctico de cómo se sitúa esta puntuación mínima es elque figura en el cuadro 1 (en dos exámenes de 80 preguntas, uno concuatro respuestas y otro con dos respuestas solamente):



Cuadro 1

Este sistema puede dar una puntuación mínima demasiado baja, ypuede ser preferible utilizar como puntuación mínima el promedio en-tre la media real, la obtenida de hecho, y la puntuación media por azar.En el caso anterior (cuadro 1) si la media real (obtenida) fuera 68 ten-dríamos:

Puntuación mínima con cuatro respuestas con dos respuestas

= 44 = 54

Así se tiene en cuenta la dificultad real del examen. Todos estosmétodos son siempre discutibles, pero pueden servir de ayuda en mu-chos casos, sobre todo cuando faltan de hecho alternativas mejores.Estos métodos, y los que vamos a seguir exponiendo, permiten ademásel poder justificar y comunicar con qué criterios se ha puesto el resulta-do mínimo para el apto.

Una referencia que es siempre útil, al menos para comunicarla,puede ser el número máximo de preguntas que se pueden respondercorrectamente por azar. Naturalmente por azar se pueden responder co-rrectamente todas las preguntas, pero esto es muy improbable que su-ceda. Se puede poner como límite la puntuación que solamente un5 % hubiera obtenido (o sobrepasado) respondiendo al azar. Esta pun-tuación podemos situarla en 1.64 desviaciones típicas por encima de lamedia; en la distribución normal sólo nos quedarían por encima el 5 %de los casos. Para hacer este cálculo necesitamos conocer los valores dela media y de la desviación típica respondiendo al azar.

68 + 40

2

68 + 20

2

media real + media por azar

2

número de items = 80

4 respuestas 2 respuestas

A: puntuación máxima posible = número de preguntas 80 80

B: puntuación media por azar = = 20 = 20

C: puntuación media ideal = = 20 = 20

D: puntuación mínima para aprobar = = 20 = 20

número de preguntas

número de alternativas por respuesta

80

4

80

4

máxima posible + media azar

2

80 + 20

2

80 + 20

2

media ideal + media azar

2

80 + 20

2

80 + 20

2

56 SERIE DIDACTICA


La media ( –x ) cuando se responde al azar es igual al número de pre-guntas dividido por el número de alternativas. La desviación típica esigual a la raíz cuadrada del número de preguntas (n) por la probabili-dad de responder correctamente a una pregunta (simbolizado comop = 1/número de alternativas) por la probabilidad de responder inco-rrectamente a una pregunta (simbolizado como q = número de alterna-tivas falsas/número de alternativas); la fórmula es σ = Ìnpq .

Por ejemplo, la puntuación máxima probable por azar (sólo un 5 %la superarían) en un examen de 80 preguntas sería:

80 preguntas con 4 alternativas: 80 preguntas con 2 alternativas:

Por lo general el número máximo de respuestas correctas por azarsuele ser inferior al que, cuando se utilizan otros criterios, suele deter-minarse para establecer la puntuación mínima para el apto .

11.3. Métodos basados en objetivos conseguidos, (o teniendo en cuenta preguntas específicas)

Lo normal es sumar a cada sujeto su número de respuestas correctas(aplicando o sin aplicar la fórmula de corrección por adivinación) y a partirde ahí calificar. Pero se puede tener en cuenta el que no todas las pregun-tas tienen igual importancia, y que por lo tanto no todas deberían pesar lomismo en la calificación, al menos en la calificación mínima para aprobar.

Entre otros sistemas que se pueden pensar, hay al menos tres queson de fácil aplicación. En los dos primeros se tiene en cuenta sobretodo el determinar el número mínimo para el apto; en el tercero sepone el énfasis en disponer de varias puntuaciones distintas según sehayan conseguido determinados objetivos, se conozcan determinadostemas, etc.: se corrige y puntúa el examen por partes, que pueden te-ner una importancia desigual, y no todo puede pesar de idéntica ma-nera para conseguir el aprobado u otras notas superiores. En estos mé-todos se excluyen en principio los criterios relativos al grupo; lacalificación de cada alumno depende exclusivamente de lo que sabe él,y no de lo que saben los demás o del nivel de la clase.

11.3.1. Incluir más preguntas de lo más importante

Se puede preparar el examen de manera que haya un número ma-yor de preguntas de aquello que se considera más importante. En

+ × × =( )80

2(1,64) 80 0,50 0,50 47,33= + × × =( )80

4(1,64) 80 25 0,75 26,35



cualquier caso es útil tener más información de aquello que es másimportante, y para conseguir esto es muy útil preparar la prueba se-gún una tabla de especificaciones que sirva de guía en la preparaciónde las preguntas (pueden verse numerosos ejemplos en Dressel, 1961y en Bloom y col., 1974, 1981).

Estas tablas de especificaciones pueden simplificarse mucho, yayudan a preparar una prueba objetiva equilibrada, en la que no sepregunta más de lo que es fácil preguntar, cualquiera que sea su im-portancia. Si las preguntas necesarias para el apto son bastantes (porejemplo un 30 % o más), también pesarán más en la suma final, que sepuede tomar como punto de partida para calificar, con una mayor se-guridad de que lo más importante está pesando más en esa puntua-ción final.

11.3.2. Incluir preguntas específicas para el apto y corregirlas por separado

Independientemente del número total de respuestas correctas, sepuede tener en cuenta para el apto la suma de respuestas correctas so-lamente del subconjunto de preguntas que se han puesto expresamen-te para aprobar. Estas preguntas para aprobar deberían ser suficientesen número y se puede exigir casi el 100 % de repuestas correctas enesas preguntas (con un razonable margen de tolerancia). El sumar acada alumno dos totales, uno de las respuestas correctas básicas y otrocon las demás preguntas (o de todas), es fácil programarlo si se hace lacorrección con ordenador.

11.3.3. Diferenciar, en la preparación y corrección del examen,bloques distintos de preguntas

De la misma manera que el aprobado puede depender de una seriede preguntas puestas precisamente con esta finalidad, todo el examense puede dividir en diversas partes o bloques según correspondan a de-terminados objetivos, temas, habilidades, niveles de dificultad o impor-tancia o como se quieran conceptualizar las diversas partes en las quese puede dividir un examen tipo test. A falta de otro criterio más claro,la división más sencilla es por temas (que pueden tener importanciadesigual) o por tipos de preguntas (de memoria, de comprensión, deaplicación; o preguntas más teóricas y preguntas basadas en casos, enuna información nueva, etc.).

En este caso la corrección se hace por bloques o subconjuntos depreguntas, y cada alumno, además de tener una puntuación total, tie-

58 SERIE DIDACTICA


ne además una puntuación en cada bloque. El profesor determina des-pués sus criterios de calificación. El estar muy bien en un bloque y nomuy mal en otro puede ser suficiente para aprobar, el estar bien enotros puede suponer un notable, etc.

A primera vista el problema inicial de este método es que complicala tarea de corrección, y es ésta una buena objeción. Sin embargo utili-zando hojas de respuesta de lectura óptica y preparando los programasde ordenador adecuados, estos inconveniente dejan de serlo, y estossistemas pueden facilitar tanto la calificación (que ya no depende sim-plemente de un número de respuestas correctas sino de la calidad delas preguntas) como la información posterior que se puede dar a losalumnos sobre sus resultados.

Lo normal es que cada profesor divida su propio examen en las par-tes que quiera y según su propio criterio. Sin embargo puede interesarque esta asignación de las preguntas a determinados objetivos, la ha-gan varios profesores. Esta práctica puede ser conveniente por diversosmotivos, por ejemplo en exámenes de especial transcendencia (de ad-misión, determinados exámenes finales, etc.) o porque se trata de unatarea cooperativa de un departamento, o porque se quiere potenciar laobjetividad y hacerla más transparente y comunicable, etc.

En estos casos cada profesor o juez (en la terminología habitual eneste campo) de manera independiente expresa en qué grado cadapregunta corresponde, es coherente con un determinado objetivo pre-viamente identificado. Una práctica recomendada es asignar a cadapregunta una de estas tres valoraciones: no corresponde al objetivopropuesto, adscripción dudosa y correspondencia clara; estos juiciospueden expresarse así en números: –1 (no), 0 (dudoso) y +1 (sí).

A partir de estas valoraciones se ha desarrollado un índice de cohe-rencia, que se calcula en cada pregunta (Osterlind, 1989):

I =

I = índice de coherencia item/objetivo de cada itemN = número de objetivos o de partes en las que se ha dividido el

testn = número de juecesΣx = suma de las valoraciones de los jueces en cada item

Los valores extremos de estos índices son +1 (todos los jueces estánde acuerdo en una clara relación item/objetivo) y –1 (ningún juez opinaque un determinado item es coherente con sólo uno de los objetivos).

(N – 1) Σx + NΣx – Σx

2(N – 1)n



Estos índices permiten comparar unos items con otros, verificar cuálespodrían ser reformulados o suprimidos, etc. También se puede calcularun índice óptimo en términos absolutos: por ejemplo el índice resultan-te si 7 de 10 jueces están de acuerdo en la coherencia item/objetivo (ysu juicio en números es de 1) y ninguno cree es que es incoherente(simplemente dudan y la codificación en números de este juicio es 0).Estos índices son también útiles en estudios de investigación, de clarifi-cación de objetivos, etc., y siempre que interese comprobar, comunicar,justificar, etc. la calidad de un examen (y consecuentemente justificarde una manera más razonable y aceptable las decisiones que se tomenen función de los resultados).

11.4. Métodos basados en el análisis de los items por medio de variosjueces

Estos métodos buscan lo mismo, determinar el número mínimo depreguntas para el apto teniendo en cuenta lo que deberían saber lossujetos para el aprobado. Son métodos que se basan también en unanálisis de las preguntas del test o examen y se prescinde totalmentede los criterios de grupo. Su fundamento está en los juicios cualitati-vos que se hacen sobre cada pregunta. Cuando no ha habido un planprevio en la confección del examen, estos métodos son especialmenteútiles.

Se emplean con más frecuencia en exámenes de especial relevan-cia, como son los exámenes de selección o en exámenes finales paracertificar la competencia de los sujetos (aunque esta certificación nodependa solamente de una prueba objetiva). Precisamente porque seutilizan en estas situaciones se han hecho numerosas investigacionesempíricas sobre su calidad y eficacia.

Todos estos métodos siguen una serie de pasos comunes, aunquemás adelante se diversifican. Estos pasos comunes son los siguientes(Livingston y Zieky, 1982; Jaeger, 1989):

1.º Seleccionar los jueces. Aunque este proceso lo puede llevar acabo cada profesor particular en su propio examen, los queproponen estos métodos, y es también lo que de hecho se hacenormalmente, recomiendan que los que analizan y juzgan laspreguntas sean varias personas competentes. Aun así recorda-mos que estos procedimientos pueden ser también útiles paraun único profesor en su propia asignatura, sobre todo si no en-cuentra alternativas mejores.

60 SERIE DIDACTICA


El número de jueces recomendado suele ser de cinco o más,que deben trabajar de manera independiente, sin comunicarseentre sí.

2.º Definir o describir el conocimiento o preparación que deben te-ner los sujetos que están bordeando el apto (borderline, limítro-fe). Los jueces pueden llegar a un acuerdo, o se les puede darhecho el perfil del apto. Este punto es importante porque losjueces tienden a pensar en el alumno medio, no en el mínima-mente competente (Bowers y Shindoll, 1989).

3.º Normalmente se requiere alguna sesión de entrenamientopara evaluar los items, y a la vez clarificar el perfil del apto, ypor supuesto suficiente información sobre la asignatura y esteperfil del apto. En la medida en que se llegue a un acuerdosobre el mínimo requerido, e incluso haya revisiones de la ta-rea antes de terminarla, el sistema tendrá una mayor fiabili-dad.

4.º Recoger las opiniones de los jueces en relación a las preguntas.Sobre el qué hay que opinar exactamente o qué hay que juzgar,depende ya del método que se escoja, y que expondremos acontinuación. Los procedimientos de Nedelsky (1954) y de An-goff (1971) son los más conocidos y utilizados (existe una am-plia bibliografía sobre estos procedimientos).

5.º Combinar los diversos juicios sobre las preguntas para determi-nar la puntuación mínima del apto.

Algunos autores proponen ponderar los items de diversas maneras,sin embargo los análisis experimentales hechos muestran que estosmétodos no tienen tienen ninguna ventaja definitiva sobre el más sen-cillo de sumar las estimaciones de los jueces (Plake y Kane, 1991).

11.4.1. Método de Nedelsky

El método de Nedelsky (1954) es uno de los primeros en incluir enel proceso la valoración de las preguntas por un grupo de jueces y aunhoy es ampliamente utilizado.

1. Los jueces identifican qué alternativas incorrectas eliminaría elalumno mínimamente competente.

2. La puntuación esperada en cada item es igual a 1 dividido por elnúmero de alternativas entre las que tendría que adivinar (o nú-mero total de alternativas menos número de alternativas identi-ficadas en el paso anterior).



3. La suma de todas las puntuaciones esperadas de cada preguntaes el resultado esperado del sujeto mínimamente competentepara cada juez.

4. Se calcula la media de las puntuaciones aportadas por cadajuez.

En el cuadro 2 tenemos un ejemplo hipotético de los resultadosde un juez al evaluar un test de cinco preguntas. La respuesta correc-ta aparece con un asterisco; las alternativas tachadas son las que ajuicio de este juez debería no escoger un alumno con una competen-cia mínima.

Cuadro 2

De cada juez se obtiene un total, y de estos totales se obtiene lamedia (o la mediana) que constituirá la puntuación mínima para elapto.

No siempre se calcula la media aritmética; para evitar un peso exce-sivo de los jueces más extremos, se puede calcular la mediana (la pun-tuación central, que divide a todos los sujetos en dos mitades iguales),o la media pero calculada con el 50 % central de jueces.

11.4.2. Método de Angoff

De estos métodos el que posiblemente se ha popularizado más esel de Angoff (1971), pues simplifica el método de Nedelsky y es mássencillo y rápido. Es adaptable también a exámenes o pruebas no ob-jetivas.

En su forma más simple lo que hace cada juez (o el profesor) esexaminar cada pregunta e identificar qué preguntas debería responder

Pregunta Respuestas Número de respuestas Puntuación esperadano eliminadas

n.º 1 A B* C 2 1/2 = 0,50n.º 2 A* B C 1 1/1 = 1n.º 3 A B* C 3 1/3 = 0,33n.º 4 A B C* 2 1/2 = 0.50n.º 5 A* B C 2 1/2 = 0,50

Total = 3,83

62 SERIE DIDACTICA


correctamente el aprobado muy justo. El número de preguntas resul-tante es la puntuación mínima para el apto y si son varios los jueces(deberían serlo) se calcula la media o quizás mejor la mediana (paraneutralizar a los jueces con valoraciones muy extremas).

El procedimiento, tal como lo propone Angoff, requiere de los jue-ces el estimar, para cada pregunta, la probabilidad de que la respondacorrectamente un sujeto que esté en el límite del apto. Otra manera deexpresarlo, es juzgar el tanto por ciento (o proporción, de 0 a 1) de es-tas personas que están en el límite, que respondería correctamente.

En una de las modalidades de este método, los jueces no expresanlibremente esta probabilidad, sino que escogen una entre siete proba-bilidades que les ofrecen, incluso disponen en este caso de la opciónno sé (Cross y otros, 1984). La suma de estas probabilidades es la pun-tuación mínima establecida por cada juez.

Un ejemplo de los resultados de un juez evaluando una prueba de10 preguntas, podría ser el del cuadro 3

Cuadro 3

En este ejemplo hipotético, el juez estima que las preguntas 1, 2 y3, y en parte la 7, son fáciles y la mayoría de los sujetos con un aptojusto las responderían correctamente. La 9 y la 10 son juzgadas como

Pregunta Probabilidad de que responda correctamente el apto mínimo

n.º 1 0,90n.º 2 0,80n.º 3 0,95n.º 4 0,30n.º 5 0,25n.º 6 0,25n.º 7 0,75n.º 8 0,50n.º 9 0,05n.º 10 0,00

Suma = 4,75

Puntuación mínima esperada = 4,75(ó 5 redondeando)



muy difíciles, y nadie o casi nadie de este grupo las respondería correc-tamente.

Si el juicio es, en este caso, de una sola persona (el profesor), el mí-nimo para aprobar es de 5 preguntas; si son varios los jueces el 4,75entrará en el cálculo de la media o mediana final.

Si las preguntas tuvieran una probabilidad de ser respondidas co-rrectamente por el 100 % de los alumnos (probabilidad de 1), la pun-tuación mínima sería de 10, habría que responder correctamente a to-das las preguntas.

Al hacer estos juicios sobre los items, a veces se sobrestima la ca-pacidad de los mínimamente aptos y se pone el nivel muy alto; otrasveces se infravalora esta capacidad y se baja el nivel; por esta razón serecomienda que los jueces dispongan, en la sesión previa de entrena-miento, de datos sobre la dificultad de los items (media obtenida enotras ocasiones) si los hay (Fabrey, 1988). En general cuando los juecesdisponen de las medias de los items obtenidos en otras ocasiones,tienden a ser más realistas y baja la puntuación requerida para el apto(Bowers y Shindoll, 1989).

11.4.3. Método de Ebel

El método propuesto por Ebel (1977) requiere que los jueces eva-lúen los items con dos criterios, 1.º relevancia (esencial, importante,aceptable y cuestionable) y 2.º dificultad (difícil, dificultad media y fá-cil), con lo que se obtienen 12 grupos o categorías de items. Los juecesespecifican la proporción de aciertos exigible en cada grupo de itemspara el apto (el método lo. El procedimiento es algo más complicado(Livingston y Zieky, 1982, lo explican bien), pero es importante el intro-ducir de manera explícita el criterio de relevancia.

11.4.4. Otros métodos

Livingston y Ziecky (1982) presentan otros muchos métodos parasituar el apto. Otros métodos no se centran en el análisis de las pre-guntas, sino de los examinados. Por ejemplo:

1.º Se identifican los sujetos dudosos (ni claramente aprobados niclaramente suspendidos a juzgar por su actuación);

2.º Se establece, como puntuación mínima para aprobar, la media-na de este grupo en duda (la puntuación que divide al grupoen dos mitades con igual número de sujetos).

64 SERIE DIDACTICA


11.4.5. Valoración de estos procedimientos basados en el juicio de expertos

Sobre cuál de estos métodos es preferible, no hay resultados expe-rimentales claros. Se han comparado sobre todo los métodos de Ne-delsky y Angoff; en general parece que el método de Angoff pone elnivel mínimo más alto que el método de Nedelsky, y es también mássencillo y para muchos es el que tiene propiedades psicométricas mejo-res (Cross y otros, 1984). Sin embargo los numerosos estudios compa-rativos que se han hecho no se decantan de manera clara por ningunode los dos (Jaeger, 1989 y Kane, 1994, donde pueden verse un ampliocomentario sobre estos y otros métodos).

Cuando se trata de exámenes finales, y sobre todo de certificar lacompetencia de un candidato para una determinada profesión, y cuyaposible incompetencia puede ser perjudicial para los demás, es social-mente más peligroso el riesgo de aprobar incompetentes que el de sus-pender competentes. En estos casos, y sobre todo en el caso de segun-das convocatorias (en las que va aumentando la oportunidad de quepasen los incompetentes) se recomienda aumentar el número de prue-bas, y tener en cuenta la adivinación al establecer el nivel mínimo (Mill-man, 1989). Suponemos también que las decisiones importantes no sebasan solamente en los resultados de un test.

Estos métodos para situar el nivel mínimo (para el apto, para eladmitido) basados en la valoración de cada pregunta por parte de va-rios jueces, y según procedimientos establecidos, tienen la ventaja deque los criterios resultantes pueden ser más presentables y defendi-bles, y de más fácil aceptación, ya que no dependen del criterio deun solo profesor que puede ser visto como arbitrario y discutible.Además la responsabilidad de decidir quién llega al apto no es ya deuna sola persona, sino que queda diluida en un comité de expertos.Aunque el resultado final, la puntuación mínima o criterio, sea discu-tible, siempre podrá serlo, seguramente el criterio al que se llegue esmás objetivo y realista si es el resultado de un trabajo cooperativo.Por otra parte la misma valoración de las preguntas puede ser una ta-rea útil en sí misma.

12. Cómo combinar puntuaciones parciales en una media final

Un problema que se presenta con frecuencia es cómo combinarpuntuaciones parciales en una puntuación final. Aquí nos referimos so-bre todo a pruebas objetivas y tests, pero estos principios y métodos



son aplicables, o adaptables, a cualquier otro sistema. El problema pue-de ser de mayor importancia cuando se trata de una serie de tests quese utilizan como método de selección, o de pruebas distintas que con-tribuyen a una nota final e importante.

En principio cuando sumamos o calculamos la media de varios exá-menes parciales, o de varios tests, no todos pesan o influyen lo mismoen esta puntuación final (a partir de la cual calificamos, o tomamos de-cisiones). Podemos tener en cuenta tres variables que influyen o pue-den influir en la puntuación final:

1. la desviación típica de cada examen (es decir la variabilidad delos resultados)

2. la fiabilidad del examen;3. la importancia de cada examen o parte del examen.

En la práctica habitual, la fiabilidad (entendida en términos psico-métricos) no se suele tener en cuenta; la importancia sí suele tenerseen cuenta y se da distinto valor a unos ejercicios u otros según su im-portancia. Pero el peso real de cada examen depende mucho de su va-riabilidad (expresada, cuantificada mediante la desviación típica), y sino se neutraliza este factor, el ponderar según importancia puede dis-torsionar los resultados, o al menos no quedan realmente ponderadossolamente según su importancia.

1. La contribución de un test o examen parcial, o parte de un exa-men, a la suma o media total depende de su desviación típica: a mayordesviación típica, mayor peso en la suma final. El mismo problema pue-de existir cuando son varios los examinadores; cada uno puede consi-derarse como un test, y no todos van a pesar necesariamente en idénti-co grado en la puntuación final (el calificador más homogéneo pesamenos y el calificador que diferencia más, pesa más en la suma o me-dia final).

El influjo en el peso de la desviación típica (o de la variabilidad) seda solamente cuando se utilizan, aunque sea parcialmente, criterios degrupo en la evaluación: los exámenes o pruebas en los que las diferen-cias entre los sujetos son mayores contribuyen más a situar a los suje-tos en la cabeza o cola de la distribución; cuando los resultados en to-dos los alumnos son los mismos o casi los mismos, el test o prueba nocontribuye a establecer diferencias.

Cuando el énfasis está en los métodos referidos a un criterio, lavariabilidad del grupo no influye. En estos casos el combinar puntua-ciones no ofrece mayor problema: se pueden sumar y promediar losporcentajes de aciertos, o una información equivalente, de los distin-

66 SERIE DIDACTICA


tos exámenes. De todas maneras, aunque se utilicen criterios másabsolutos que en principio no dependen del resultado global (objeti-vos conseguidos, un número predeterminado de respuestas o ejer-cicios bien hechos, etc.) el grupo, el resultado del conjunto, siempreestá presente como una referencia importante, influya o no influyaconscientemente en el criterio del calificador, por eso conviene caeren la cuenta de los factores que influyen en las diferencias inter-indi-viduales.

Hay varios métodos (puede verse una síntesis en Oosterhof, 1987)para que todos los datos parciales pesen inicialmente lo mismo neutra-lizando el peso de la desviación típica (se pueden después ponderar se-gún sea su importancia).

1.1. En principio si se utilizan puntuaciones típicas, tendremosque todos los tests o exámenes parciales tendrán media = 0 y desvia-ción típica = 1. Se pueden promediar las puntuaciones típicas y nin-guna parte influye más que otras en la puntuación final. Esto se pue-de hacer con todo tipo de pruebas y ejercicios, no solamente conpruebas objetivas. Cualquier puntuación típica o tipificada, normali-zada, etc. cumple este propósito: ningún parcial pesa más que otroen principio. Un método cómodo puede ser el uso de estaninos (pun-tuaciones tipificadas normalizadas): el grupo queda dividido en nuevesegmentos o puntuaciones (que no corresponden a notas necesaria-mente).

Por otra parte con las puntuaciones típicas todos los datos que-dan reducidos a un mismo tipo de puntuación, y todos son compa-rables directamente entre sí, cualquiera que sea la escala original.Esta suma (o media) de puntuaciones típicas (o similares, como lastipificadas), hay que traducirlas después a una calificación conven-cional.

1.2. Un método más sencillo y equivalente al anterior (Guilford yFruchter, 1973) es multiplicar cada puntuación parcial por 1/σ (σ es ladesviación típica de cada test parcial), o, lo que es lo mismo, se dividecada puntuación por la desviación típica. Esta práctica es más recomen-dable si todos los subtests tienen idéntica fiabilidad. Esto supone dar atodas las puntuaciones parciales, como punto de partida, idéntica im-portancia.

En la práctica se puede simplificar este proceso dando al test conuna desviación típica mayor un peso de 1, y a los demás un peso deσm/σ, donde σm es la desviación típica mayor y σ la desviación típica decada test. Estos pesos se pueden redondear. Tenemos un ejemplo en elcuadro 4.



Cuadro 4

2. Con estos sistemas conseguimos que todos los tests influyan lomismo, al menos como punto de partida: la distinta variabilidad en losresultados no hace que un examen o prueba influya más que otro en lamedia o suma final. Si pensamos que no todos deben pesar lo mismo,porque unos tienen mayor importancia que otros, podemos asignar acada test una puntuación en importancia (con criterios lógicos, estu-dios previos, juicio de expertos, etc.), con lo que al peso anterior (queiguala a todos los tests) le podemos multiplicar su peso en importancia.

Este coeficiente de importancia podemos aplicarlo cuando se tratade tests o exámenes distintos. Dentro de un mismo examen se podríantambién ponderar items o preguntas, pero no es una práctica recomen-dable; al menos es cuestionable. Siempre será preferible tener más da-tos de lo más importante (y que el peso venga dado por el número dedatos) que dar más importancia a un único dato o a unos pocos datos.

En el cuadro 4, si queremos ponderar los tests o exámenes por suimportancia, lo que hacemos es multiplicar la importancia por el pesosin redondear, y este el peso final que podemos redondear eliminandolos decimales.

3. También se puede tener en cuenta la fiabilidad de cada test oexamen (simbolizada como r11), de manera que pesen más los exáme-nes o tests con mayor fiabilidad.

Un coeficiente alto de fiabilidad lo que indica es que en exámenessucesivos o paralelos, los sujetos hubieran quedado ordenados de ma-nera parecida. Dar mucha importancia (o la misma importancia que atodos los demás) a un test o examen con una fiabilidad muy baja, pue-de distorsionar los resultados, porque con exámenes semejantes los re-sultados hubiesen diferido bastante. Tener en cuenta el coeficiente defiabilidad de cada examen o componente de la puntuación final puedemerecer la pena cuando los coeficientes de fiabilidad son muy dispares.

Si queremos incorporar la fiabilidad de cada test al peso que debetener en la puntuación final, habrá que multiplicar la puntuación de

Test A Test B Test C

Desviación típica (σ) de cada test 17,5 4,6 10,6

Peso de cada test: = = 1 = 3,8 = 1,62

Peso redondeado (sin decimales): 1 4 2

σm

σ

17,5

σ

17,5

17,5

17,5

4,6

17,5

10,6

68 SERIE DIDACTICA


cada test por la raíz cuadrada de su fiabilidad (Îr11 ). Este valor se de-nomina índice de precisión y equivale al coeficiente de correlaciónentre las puntuaciones observadas (las que hemos obtenido) con lasverdaderas (las que se hubieran obtenido con un test o examen com-puesto por todo el universo de items del que nuestro examen sólocontiene una muestra).

Podemos tener por lo tanto tres pesos distintos (en realidad unosólo porque los multiplicamos entre sí), por los que podemos multipli-car cada resultado individual, para que el peso de cada examen sea elque realmente desea el profesor:

1.º Peso para neutralizar la distinta variabilidad de cada examen (ouso de puntuaciones típicas u otras equivalentes). Esta neutrali-zación es probablemente la más importante, sobre todo si se vaa calificar con criterios de grupo, o la referencia al grupo va aser importante al asignar calificaciones. Es claro que cuando ladispersión o variabilidad es distinta, el examen parcial con ma-yor dispersión pesa más automáticamente que los demás encómo quedan ordenados los alumnos, y esto es independientede la importancia del examen. Este peso diferencial de los dis-tintos exámenes puede ser más problemático cuando se tratano de exámenes distintos sino de examinadores distintos (porejemplo en un tribunal): el profesor que influye más en el ordenen que quedan situados los alumnos (al calcular las medias delos distintos miembros del tribunal) es el que evalúa diferen-ciando más a unos de otros.

2.º Peso para que cada examen o nota parcial influya según su im-portancia.

3.º Peso para que influya cada examen según su fiabilidad; los másfiables (en los que obtendrían resultados más semejantes enocasiones y exámenes semejantes) pesarán más. Esto es impor-tante cuando se percibe que la fiabilidad puede diferir muchode un examen a otro (la fiabilidad tiende a ser mayor cuandoaumenta el número de preguntas, el número de alumnos y lasdiferencias entre los alumnos). El ponderar los exámenes segúnsea su fiabilidad tiene más interés cuando los exámenes sonpruebas objetivas y el procedimiento está facilitado por progra-mas de ordenador.



13. Referencias bibliográficas

ALBANESE, MARK A., (1986), «The Correction for Guessing: A Further Analysis ofAngoff and Schrader», Journal of Educational Measurement, 23, 225-236.

ALBANESE, MARK A., (1988), «The Projected Impact of the Correction for Guessingon Individual Scores», Journal of Educational Measurement, 25, 149-157.

ALBANESE, MARK A., (1993), «Type K and Other Complex Multiple-Choice Items:An Analysis of Research and Item Properties», Educational Measurement:Issues and Practice, 12 (1), 28-33.

ANGOFF, WILLIAM H., (1971), «Scales, Norms and Equivalent Scores», en THORNDI-KE, R. L., (Ed.), Educational Measurement (2nd. ed.), Washington D.C.,American Council on Education; (reeditado como publicación indepen-diente, (1984), Princeton, New Jersey, Educational Testing Service).

BEN-SHAKHAR, G. and SINAI, Y., (1991), «Gender differences in multiple-choicetests: The role of differential guessing tendencies», Journal of EducationalMeasurement, 12, 428-454.

BERK, RONALD A., (1986), «A Consumer’s Guide to Setting Performance Stan-dards on Criterion-Referenced Tests», Journal of Educational Research,56 (1), 137-172.

BILLING, D.E., (1974), «The Effect of Guessing on the Results of Objective Tests:A Novel Approach», Research into Tertiary Science Education, London, So-ciety for Research into Higher Education.

BLISS, L.B., (1980), «A Test of Lord’s Assumption Regarding Examinee GuessingBehavior on Multiple-Choice Tests Using Elementary School Students»,Journal of Educational Measurement, 17, 147-152.

BLOOM, BENJAMIN.S. HASTINGS, J. THOMAS Y MADAUS, GEORGE F. (1973), Taxonomíade los objetivos de la educación, Tomos I (conocimientos) y II (dominioafectivo), Alcoy, Marfil,

BLOOM, BENJAMIN S., HASTINGS, J. THOMAS y MADAUS, GEORGE F., (1974), Evaluacióndel aprendizaje, cuatro tomos, Buenos Aires, Troquel

BLOOM, BENJAMIN S., MADAUS, GEORGE F. and HASTINGS, J. THOMAS, (1981), Evalua-tion to Improve Learning, New York, McGraw-Hill.

BOWERS, JOHN J. and SHINDOLL, RUSSELYN R., (1989), A Comparison of the Angoff,Beuk, and Hofstee Methods for Setting a Passing Score, Iowa City, ACTReport Series.

BUDESCU, DAVID and BAR-HILLEL, MAYA, (1993), «To Guess or not to Guess: A De-cision-Theoretic View of Formula Scoring», Journal of Educational Measu-rement, 30, (4), 277-291.

COLLET, L.S., (1971), «Elimination Scoring: An Empirical Evaluation», Journal ofEducational Measurement, 8, 209-214

CRONBACH, L.J., (1942), «Studies of Acquiescence as a Factor in the True-False andMultiple Choice Items», Journal of Educational Psychology, 33, 401-415.

CROSS, LAWRENCE H.; IMPARA, JAMES C.; FRARY, ROBERT B. AND JAEGER, RICHARD M.,(1994), «A Comparison of Three Methods for Establishing Minimum Stan-dards on the National Teacher Examinations», Journal of Educational Mea-surement, 21, (2), 113-131.

70 SERIE DIDACTICA


CHREHAN, KEVIN (1989), The Validity of Two Item-Writing Rules, ponencia pre-sentada en el congreso anual de la American Educational Research Asso-ciation, San Francisco.

DOWNING, STEVEN M., (1992), «True-False, Alternate-Choice, and Multiple-Choi-ce Items», Educational Measurement: Issues and Practice, 11 (3), 27-30.

DOWNING, STEVEN M; DAWSON-SAUNDERS, BETH; CASE, SUSAN M. and POWELL, ROBIN D.,(1991), The Psychometric Effects of Negative Stems, Unfocussed Questions,and Heterogeneous Options on the National Board of Medical ExaminersPart I and Part II Item Characteristics, ponencia presentada en el congresoanual del National Council on Measurement in Education, Chicago.

DRESSEL, PAUL L., (1961), Evaluation in Higher Education, Boston, HoughtonMifflin.

EAKIN, R.R., (1977), «Dodging the Dilemma of True-False Testing», Educationaland Psychological Measurement, 37, 659-663.

EBEL, ROBERT L., (1977), Fundamentos de la medición educacional, BuenosAires, Editorial Guadalupe.

EBEL, ROBERT L., (1982), «Proposed Solutions to Two Problems of Test Construc-tion», Journal of Educational Measurement, 19, 267-278.

EBEL, ROBERT L., (1983), «The Practical Validation of Tests of Ability», Educatio-nal Measurement: Issues and Practice, 2 (2), 7-10.

EBEL, ROBERT L. AND FRISBIE, DAVID A., (1991), Essentials of Educational Measu-rement, 5th Edit., Englewood Cliffs, Prentice Hall.

EDVARSON, B., (1980), «Effect of Reversal of Response Scales in Questionnai-res», Perceptual and Motor Skills, 50, 1125-1126.

FABREY, LAWRENCE J., (1988), Adjustment of Angoff Passing Points, ponenciapresentada en el congreso anual de la American Educational ResearchAssociation, New Orleans.

FRARY, R.B., (1982), «A Simulation Study of Reliability and Validity of Multiple-Choice Test Scores Under Six Response-Scoring Modes», Journal of Educa-tional Statistics, 7, 333-351.

FRARY, R.B., (1988), «Formula Scoring of Multiple-Choice Tests (Correction forGuessing)», Educational Measurement: Issues and Practice, 7, n.º2, 33-37.

GROSSE, M.E. and WRIGHT, B.D., (1985), «Validity and Reliability of True-FalseItems», Educational and Psychological Measurement, 45, 1-13.

GUILFORD, JOY P. and FRUCHTER, BENJAMIN, (1973), Fundamental Statistics in Psy-chology and Education, New York, McGraw-Hill.

HALADYNA, T. M. and DOWNING, S.M., (1985), A Quantitative Review of Researchon Multiple-Choice Item-Writing, ponencia presentada en el congresoanual de la American Educational Research Association, Chicago.

HALADYNA, T. M. and DOWNING, S.M., (1988) Functional Distractors: Implicationsfor Test-Item and Test Design, ponencia presentada en el congreso anualde la American Educational Research Association, New Orleans.

HALADYNA, T.M. and DOWNING, S. M., (1989), «A Taxonomy of Multiple-ChoiceItem-writing Rules», Applied Measurement in Education, 2,(1), 37-50.

HEENAN, DAVID K., (1961), «Evaluation in Humanities», en DRESSEL, PAUL L., Eva-luation in Higher Education, Boston, Houghton Mifflin, 157-191



HEYWOOD, JOHN, (1977), Assessment in Higher Education, London, John Wiley.JAEGER, RICHARD M., (1989), «Certification of Student Competence», in LINN, RO-

BERT L., (Ed.), Educational Measurement, Third Edition, New York, Ameri-can Council on Education/Macmillan, 485-514.

JARADAT, D. and SAWAGED, S., (1986), «The Subset Selection Technique for Mul-tiple Choice Tests: An Empirical Inquiry», Journal of Educational Measu-rement, 23, 369-376.

JORNET, JESÚS M., y SUÁREZ, JESÚS M., (1989), «Conceptualización del dominioeducativo desde una perspectiva integradora en evaluación referida al cri-terio (ERC)», Bordón, 41 (2), 238-324.

KANE, MICHAEL, (1994), «Validating the Performance Standards Associated WithPassing Scores», Review of Educational Research, 64, 3, 425-461

LEVINE, M. V. and DRASGOW, F., (1983). «The Relation Between Incorrect OptionChoice and Estimated Ability», Educational and Psychological Measu-rement 43, 675-685.

LIVINGSTON, SAMUEL A. and ZIEKY, MICHAEL J., (1982), Passing Scores, A Manualfor Setting Standards of Performance on Educational and OccupationalTests, Princeton, Educational Testing Service.

LORD, F.M., (1975), «Formula Scoring and Number-Right Scoring», Journal ofEducational Measurement, 12, 7-11.

LORD, F.M., (1977a), «Optimal Number of Choices per Item: A Comparison ofFour Approaches», Journal of Educational Measurement, 14, 33-38.

LORD, F.M., (1977b), «Reliability of Multiple-Choice Tests as a Function of Num-ber of Choices per Item», Journal of Educational Psychology, 35, 175-180.

MARSH, H.W., (1986), «The Bias of Negatively Worded Items in Rating Scalesfor Young Children: A Cognitive-Developmental Phenomenon», Develop-mental Psychology, 22, 37-49.

MILLMAN, JASON, (1989), «If at First You Don’t Succeed, Setting Passing ScoresWhen More Than One Attempt is Permitted», Educational Researcher, 18,6, 5-10.

NEDELSKY, L., (1954), «Absolute Grading Standards for Objective Tests», Educa-tional and Psychological Measurement, 14, 3-19.

NELSON, CLARENCE H., (1961), «Evaluation in the Natural Sciences», en DRESSEL,PAUL L., and Associates, Evaluation in Higher Education, Boston, HoughtonMifflin, 113-156.

OOSTERHOF, ALBERT C., (1987), «Obtaining Intended Weights When Combining Stu-dents’ Scores», Educational Measurement, Issues and Practice, 6, (4), 29-37

OSTERLIND, STEVEN J., (1989), Constructing Test Items, Boston/Dordrecht/London,Kluwer Academic Publishers.

PLAKE, BARBARA S. and KANE, MICHAEL T., (1991), «Comparison of Methods forCombining the Minimum Passing Levels for Individual Items Items into aPassing Score for a Test», Journal of Educational Measurement, 28, (3),249-256.

RICH, CHARLES E. and JOHANSON, GEORGE A., (1990), An Item-level Analysis of«None of the Above», ponencia presentada en el congreso anual de laAmerican Educational Research Association, Boston.

72 SERIE DIDACTICA


STRATON, R.G. and CATTS, R.M., (1980), «A Comparison of Two, Three andFour-Choice Items Tests Given a Fixed Total Number of Choices», Educa-tional and Psychological Measurement, 40, 357-365.

TREVISAN, MICHAEL S. and SAX, GILBERT, (1990), Reliability and Validity of Multiple-Choice Examinations as a Function of the Number of Options per Item andStudent Ability, ponencia presentada en el congreso anual de la AmericanEducational Research Association, Boston.

TREVISAN, MICHAEL S.; SAX, GILBERT and MICHAEL, WILLIAM B., (1994), «Estimatingthe optimum number of options per item using an incremental option pa-radigm», Educational and Psychological Measurement, 54, 1, 86-91.

UROSA, BELÉN, (1995), La adivinación en las pruebas objetivas: alternativas a lafórmula de corrección clásica, tesis doctoral, Madrid, Universidad PontificiaComillas.

WILLIAMS, REED G. and HALADYNA, THOMAS M., (1982), «Logical Operations forGenerating Intended Questions (LOGIQ): A Typology for Higher Level TestItems», en ROID, GALE H. and HALADYNA, THOMAS M., A Technology for Test-Item Writing, New York, Academic Press.



Cuadernosmonográficosdel ICE

Universidad de Deusto

• • • • • • • •

Las pruebas objetivas

Documents

Transcript of Las pruebas objetivas