Il test oggettivo
Scopo dell'articolo
è affrontare il problema del test oggettivo, soprattutto dei test a scelta
multipla, soffermarsi sulle modalità di costruzione dei test, individuarne la componente
soggettiva, specificando quali sono le decisioni soggettive che intervengono al
momento della sua costruzione e spiegare le non semplici operazioni da svolgere
se si desidera che il test possa essere utilizzato in modo proficuo nella
classe. Per test oggettivo s'intende ogni tipo di test che presenti quesiti
con risposte tra le quali si deve scegliere quella esatta e che, per questo
motivo, può essere corretto in base a una griglia di correzione predisposta,
che non lascia spazio alla soggettività d'interpretazione dei singoli
correttori, e può essere corretto anche da un computer fornito di lettore
ottico e programma adeguato. I test a scelta multipla, che sono parte molto
importante dei test oggettivi, sono nati come risposta alla necessità di rilevare
le caratteristiche comportamentali in vari soggetti in ambito psicometrico per
dare una descrizione quantitativa, e perciò scientifica, dei fatti psichici ed
hanno conosciuto grande diffusione negli Stati Uniti soprattutto tra gli anni
Venti e Quaranta.
1. I test standardizzati
La diffusione in campo educativo delle teorie comportamentistiche ne
hanno favorito l'introduzione per misurare l'apprendimento e in quest'ambito
sono tuttora largamente utilizzati negli Stati Uniti e in gran parte del mondo
anglosassone sotto forma di test standardizzati, cioè tarati, attraverso una
fase di somministrazione iniziale, al fine di conferire loro la possibilità di
adattarsi a un utilizzo il più possibile generalizzato, fornendo dati depurati
dalle variabili interne al gruppo valutato.
I test standardizzati necessitano di particolari elementi per assolvere
alla loro funzione. Prima di tutto sono legati alla nozione di campionamento
perché un buon test deve coprire un campione rappresentativo della popolazione
che sarà poi sottoposta a test; i suoi risultati, espressi in punteggi grezzi,
vengono considerati come punto di riferimento per la valutazione dei risultati
del test, risultati che possono collocarsi al di sotto della media del campione
– nel primo quartile (cioè tra quelli raggiunti dal primo 25% i più bassi) o nel secondo quartile, (tra
quelli raggiunti dal secondo 25%) oppure al di sopra della media – nel terzo o
nel quarto quartile; se si vuole essere più precisi si possono collocare i
risultati all'interno di decili; in questo caso i risultati del gruppo campione
vengono divisi in dieci fasce, in ordine dal più alto al più basso.
Si può anche fare riferimento ai centili: in questo caso il punteggio del
test verrà rapportato a una scala che va da uno a cento. Il favore che i test
obiettivi incontrano presso gli esaminatori professionali è dovuto alla loro "oggettività"
e affidabilità di correzione. In particolare quando, in tempi brevi,
bisogna sottoporre ad esame un grande numero di soggetti e si desidera che
tutti non solo siano sottoposti allo stesso tipo di esame ma, ciò che più conta
(e che rende invalide le nostre prove di maturità che sono uguali per tutti dal
punto di vista del compito da svolgere, ma si differenziano spesso
diametralmente in seguito ai diversi criteri di valutazione adottati dalle
varie commissioni), siano corretti allo stesso modo e valutati usando gli
stessi criteri, i test a scelta multipla riflettono una scelta economica in
termini di sforzo di correzione e della relativa spesa che comporta la
costruzione.
Naturalmente i test standardizzati sono usati solo su scala nazionale o,
quanto meno, somministrati a popolazioni molto ampie, ad esempio per esami di
accesso alle università o per esami finali, e non possono essere utilizzati per
controllare l'apprendimento di aspetti specifici inseriti nella programmazione.
Infatti gli scopi educativi che un insegnante si prefigge sono sempre peculiari
al suo ambiente scolastico, anche se prende come punto di riferimento programmi
fissati a livello nazionale. In questo caso, se non si può pensare di
raggiungere una vera e propria standardizzazione, si può tentare di individuare
un gruppo di riferimento per la validazione delle prove obiettive da
somministrare in classe.
2. Requisiti e procedure di produzione
Requisito necessario per ogni tipo di test è l'attendibilità, che
comporta assenza di errore casuale dovuto a fattori esterni al test e di
ripetibilità degli stessi risultati se somministrato a popolazioni con le
stesse caratteristiche, anche se si può prevedere una certa quantità di scarto
(la correlazione non dovrebbe essere inferiore allo 0,75), dovuto alle
alterazioni quotidiane dei soggetti. Quanto maggiore è il numero dei quesiti
inclusi nel test, tanto maggiore sarà la sua attendibilità. Il concetto di
validità di un test è abbastanza complesso ed è stato oggetto di profonde
ricerche e conseguenti discussioni.
Secondo Flores D'Arcais la validità si riferisce al grado di
corrispondenza del test con lo scopo per cui viene prodotto; perciò è valido se
si riferisce alla variabile per cui è stato costruito, riducendo al massimo
l'errore di misura. Gli interrogativi che sorgono relativamente alla validità
di test a scelta multipla non sono molto diversi da quelli che si dovrebbero formulare
per qualsiasi altra tipologia di test. Passiamo ora ad esaminare concretamente
qual'è il procedimento ottimale per la costruzione di un test a scelta
multipla. La preparazione di un test specifico si impernia principalmente su
due fattori: la natura delle decisioni richieste dagli stimoli e la natura
delle alternative che vengono offerte per ciascun item. E' importante ricordare
che la questione della validità del test va tenuta presente al momento della
costruzione dello stesso e non in quello della sua elaborazione statistica
e dovrebbe essere applicata sin dalle prime fasi della sua costruzione. Perciò
il primo passo nella costruzione di un test è individuare chiaramente le
abilità o le conoscenze che si vogliono sottoporre ad esame e chiedersi se
possono essere misurate mediante un test a scelta multipla. Purtroppo molti
degli item presenti, sia in test costruiti artigianalmente da docenti, sia in
test costruiti da specialisti e inclusi nei test standardizzati, non sono
sottoposti a questa valutazione iniziale. Se questo primo punto non è
rispettato, tutte le altre qualità che il test può possedere perdono di
importanza.
Il passo successivo è produrre gli item migliori possibili del
tipo precedentemente definito, facendo una ricognizione dei vari elementi da
includere nel test.
Durante la produzione, ogni item deve essere valutato per l'appropriatezza
del contenuto. Ci si deve chiedere se l'item tende a verificare il possesso di
informazioni o di abilità rilevanti nel particolare ambito, se la risposta
richiesta mette in atto l'abilità che il test nel suo complesso vuole misurare
e se veramente rispecchia la risposta che potrebbe essere data da qualcuno che
possegga appieno la conoscenza o l'abilità specifica. Si eviterà di formulare
quesiti che si riferiscono all'informazione contenuta nella risposta corretta
di altri item, e si porrà cura a comporre un insieme di item bene equilibrati
in modo da formare un test coerente.
Il terzo punto è costruire item con distrattori adatti in ogni
gruppo di alternative.
Innanzitutto bisogna verificare che i distrattori rappresentino risposte
che potrebbero essere date da qualcuno che non possegga appieno l'abilità o la
conoscenza in oggetto e che non siano alternative assurde. E' inutile produrre
un numero elevato di distrattori quando questi verranno eliminati
automaticamente dalla rosa delle possibili scelte perché fuori linea con
l'argomento trattato. Bisogna inoltre fare attenzione che tra le alternative vi
sia la risposta corretta e che non vi sia più di una risposta possibile. In
questo caso va segnalato che si deve scegliere solo la risposta più
appropriata. E inoltre opportuno fare attenzione a non includere distrattori
che offrano indizi non intenzionali. Si cercherà perciò di non formulare
alternative che rappresentino l'opposto della risposta esatta. I distrattori
dovranno di massima essere in linea con la risposta corretta che non dovrà
essere né troppo più lunga o più corta, né avere una struttura formalmente
diversa da tutte le altre. Se si costruiscono item per verificare la
comprensione in un testo bisognerà accertarsi che l'item non richieda risposta
a tutti non presenti nel testo proposto o non chiaramente inferibili nello
stesso.
3. Validazione del test
A questo punto,
dopo aver costruito il test, se si vuole avere uno strumento abbastanza
affidabile, è bene procedere alla validazione: somministrarlo cioè a un
numero significativo di studenti e poi procedere all'analisi degli item. Se il
test è di tipo formativo si può individuare un gruppo per la validazione
all'interno dell'istituto, se è sommativo sarebbe bene fare riferimento a un
collega di un altro istituto o di un'altra città per evitare che diventi
pubblico prematuramente. Certamente l'operazione di validazione del test
comporta molto impegno e si giustifica solamente se il test può essere
somministrato più di una volta e non da un solo docente. La produzione di un
test obiettivo dovrebbe comunque essere un lavoro collegiale e non del singolo
insegnante perché la costruzione di un buon test è sufficientemente ardua e
difficile da renderla impraticabile per i bisogni di una sola classe in un solo
momento. Il grosso problema tecnico dell'analisi degli item eseguita senza il
supporto di appositi programmi informatici si dimostrerà purtroppo un deterrente
non secondario all'uso del test a scelta multipla. Tuttavia ciò che i test a
scelta multipla richiedono a livello di difficoltà e laboriosità di
preparazione è ampiamente compensato dalla affidabilità e facilità di
somministrazione e di correzione che offrono, se vengono costruiti e validati
in modo corretto. Questo procedimento è comunque un passo importante e
necessario per la preparazione di buoni test a risposta multipla e per questo è
bene che ogni docente che li usa conosca le modalità di validazione dei test:
come si esegue, che cosa significa.
4. Grado di facilità degli item
Dopo aver somministrato il test ai gruppo campione, si procede a
individuare il grado di difficoltà di ogni singolo item. Questa è una
operazione statistica di base e tende a stabilire il livello di difficoltà che
gli studenti hanno incontrato nelle risposte. Un item che si sia rivelato
troppo facile o troppo difficile non ci può dire nulla sulle differenze tra gli
studenti sottoposti al test; di conseguenza dal test andrebbero
immediatamente eliminate le domande cui hanno risposto tutti e quelle cui non
ha risposto nessuno. Dobbiamo tuttavia rapportare questa affermazione
all'obiettivo del test. Se il test mira a valutare gli studenti in modo che
emergano le differenze di preparazione tra di loro, questa operazione è del
tutto legittima e necessaria. Se l'obiettivo è invece di carattere formativo e
il docente si aspetta che tutti gli studenti possano dimostrare di aver
raggiunto gli obiettivi minimi e rispondano tutti in modo corretto almeno a un
certo numero di item, non si dovranno eliminare questi item dal test, ma solo
quegli item che, rivelandosi troppo difficili, possono produrre un effetto
demotivante sugli studenti, senza nel contempo dare indicazioni significative
al docente.
La facilità dell'item (F.I.) viene computata come valore medio
delle risposte di tutti gli studenti che hanno affrontato il test. È chiaro che
in questo caso la risposta omessa va calcolata come risposta sbagliata.
La F.I. viene generalmente espressa come valore percentuale o come
decimale che indica il numero degli studenti che hanno risposto in modo
corretto all'item. Il valore percentuale si otterrà dividendo il numero di
studenti che hanno risposto in modo corretto per il numero totale degli
studenti che hanno affrontato la prova e moltiplicando per 100.
L'indice di massima facilità sarà 100, quello di massima difficoltà sarà
0.
Se l'obiettivo è verificare il diverso grado di preparazione degli studenti
si preferisce scegliere item che abbiano una varianza che si colloca
nella gamma tra 15 e 85, cioè che abbiano ricevuto un numero di risposte esatte
non inferiore a 15 e non superiore a 85 su cento; un item cui tutti rispondono
in modo corretto non ci dice nulla sulla sua varianza tra gli studenti
relativamente alla dimensione misurata dal test. I valori cui si dovrebbe
tendere sono quelli che cadono circa a metà, cioè intorno al 50 per cento.
5. Grado di discriminazione degli item
Un altro problema fondamentale di ogni test è quello della discriminazione.
Anche se si ha l'obiettivo di misurare e di dimostrare la padronanza di un
certo argomento o di una certa abilità, anche al fine di fissare l'obiettivo
del recupero, nella maggioranza degli studenti, il test dovrebbe poter
discriminare tra gradi diversi di ciò che tende a misurare.
Nel test scolastico è importante definire se la varianza prodotta da un
item differenzia veramente chi è più preparato da chi è meno preparato. Ciò che
è necessario dunque è un indice di validità dell'item in rapporto a ciò che
l'item stesso vuole misurare. Se, all'interno di un test, i diversi item hanno
come obiettivo di misurare lo stesso campo di conoscenze o la stessa abilità,
dovrebbero produrre la stessa varianza, dovrebbero cioè aver almeno un certo
grado di correlazione tra loro.
In questo caso la correlazione va intesa come un indice della loro
affidabilità o della loro consistenza interna. Inoltre, se, oltre a correlare
tra loro, gli item correlassero con altri criteri esterni, la correlazione
starebbe a significare il grado di validità del test nel suo complesso.
Esistono diversi metodi per verificare la validità dei singoli item, ma
il più semplice è rapportare il risultato del singolo item al punteggio totale
dello stesso test. Naturalmente, il risultato del confronto è vero nella misura in cui il test è di per
sé valido. Se il test non è valido, non
misura cioè ciò che intende misurare, allora alti valori di discriminatività
degli item ci dicono solamente che il test sta misurando in modo affidabile un
certo campo di conoscenze o di abilità e non necessariamente quello che ci
interessa. Il metodo proposto si basa sulla correlazione del punteggio di ogni
singolo item col punteggio generale del test. Come si è già detto, utilizzando
un programma informatico, la verifica è molto semplice: è sufficiente digitare
tutti i risultati del test, affidando al programma l'elaborazione dei dati; se
invece il calcolo si fa manualmente, il lavoro è molto lungo e defatigante. Per
semplificarlo si può ricorrere alla tecnica del confronto interno (tecnica
necessaria quando il numero degli studenti è inferiore a 30); i confronti
possono essere compiuti tra i soggetti classificatisi nella prima metà, nel
primo terzo, nel primo quarto o nel primo 27% in graduatoria
rispettivamente con soggetti classificati nella seconda metà, nell'ultimo
terzo, nell'ultimo quarto o nell'ultimo 27% della graduatoria.
Flanagan suggerisce di seguire il seguente metodo: dopo aver
somministrato il test a un campione significativo di studenti (preferibilmente
tra 50 e 100) facendo in modo che le condizioni di somministrazione siano
identiche, si correggono i test riportando su ciascuno il punteggio grezzo e si
ordinano dal punteggio più alto al punteggio più basso. Si conta poi il 27% dei
test con punteggio superiore, (27 test se il campione è composto di 100
studenti). Questo gruppo starà a rappresentare i punteggi alti. Allo stesso
modo si procederà iniziando dal test con punteggio inferiore e si otterrà il
gruppo di 27 test con punteggio basso.
Il principio della correlazione ci dice che, se i punteggi di un singolo
item sono correlati col punteggio totale, per ogni item dovrebbero aver dato
risposta corretta un numero maggiore di studenti appartenenti al gruppo alto,
rispetto alle risposte date dagli studenti appartenenti al gruppo basso.
Perciò per ogni item si conterà il numero di risposte corrette dei test a
punteggio alto e il numero di risposte corrette dei test a punteggio basso. La
caratteristica che si vuole ricavare è un indice del grado in cui ogni item
tende a differenziare il gruppo alto da quello basso allo stesso modo dei
punteggi totali. Per ogni item l'indice di discriminabilità (DI) sarà ricavato
nel modo seguente:
DI = numero di test del gruppo alto con
risposta corretta, meno numero di test del gruppo basso con risposte corrette
diviso per il 27% del gruppo sottoposto a test:
A = gruppo alto
B = gruppo basso
N = numero gruppo alto = gruppo basso (i due
gruppi devono essere costituiti dallo stesso numero di soggetti).
È ovvio che si dovrebbero ottenere valori alti di DI, perché naturalmente
ogni item dovrebbe avere un buon grado di correlazione col test nel suo
complesso. Più alta è la correlazione e più affidabile è il test. Si ritiene
generalmente che il limite minimo di discriminabilità accettabile per ogni item
si aggiri tra lo 0,25 e lo 0,35. Al di sotto di questi valori l'item deve
essere modificato o eliminato.
6. Distribuzione delle risposte
Un ulteriore elemento di ricerca al momento della validazione del test è
volto a individuare la frequenza di distribuzione delle risposte per verificare
la capacità di distrazione dei vari distrattori. Per fare ciò basta contare
quanti studenti hanno scelto un determinato distrattore. Una tecnica che dà
risposte abbastanza significative consiste nell'eseguire la ricognizione
all'interno di ogni gruppo (alto, medio e basso); le risposte date a ogni item
verranno inserite in una tabella di questo tipo:
Item X |
A |
B |
C |
D |
Omesse |
Gruppo alto |
27 |
0 |
0 |
0 |
0 |
Gruppo medio |
15 |
10 |
10 |
11 |
0 |
Gruppo basso |
0 |
9 |
7 |
8 |
3 |
Sempre considerando
un campione di 100 studenti da questa tabella e sapendo che l'alternativa
corretta è rappresentata dalla lettera in grassetto A (prima colonna) si può
valutare sia la FI (facilità dell'item) sia la DI. Si calcola la prima sommando
le cifre nella colonna A, che corrispondono al numero di risposte corrette date
dal campione a questo item:
27 + 15 = 42; 42 : 100 = 0,42; 0,42 x 100 = 42.
Si evince che il
grado di difficoltà dell'item è ottimale perché si aggira intorno ai valori medi;
infatti il suo indice è 42. La discriminabilità dell'item è pure ottimale,
perché la risposta corretta è stata data da tutti gli studenti del primo
gruppo, da un numero inferiore di studenti del gruppo medio e da nessuno
studente del gruppo basso. La DI è conseguentemente uguale a 1, infatti avremo:
In base a questa
statistica si può dire che l'item è valido. Inoltre possiamo dire che tutti i
distrattori sono stati utilizzati e perciò hanno svolto la loro funzione. La
costruzione di un buon test richiede una notevole mole di lavoro, perciò
difficilmente il docente singolo potrà produrlo per l'uso in una sola classe.
Il lavoro è giustificato solo se si coinvolgono docenti diversi per produrre
materiali da usare soprattutto come test formativi che potranno essere
utilizzati anche in anni successivi. A questo proposito teniamo presente che,
quando esiste una buona base, non è necessario ripartire da zero per formulare
nuovi test, ma è possibile modificare e/o adattare test già prodotti.
Per l'uso come test
sommativo, al fine di evitare che possa essere copiato con troppa facilità
durante la somministrazione, è consigliabile produrre diverse versioni dello
stesso test, cambiando l'ordine dei quesiti e/o l'ordine delle alternative; naturalmente
bisognerà poi produrre tante griglie di correzione quante sono le versioni
utilizzate e marcare ciascuna versione con un simbolo opportunamente scelto.
7. Obiezioni
mosse al test oggettivo
Come avviene spesso
in ambito metodologico, anche nel caso del testing obiettivo, dopo un periodo
iniziale di accettazione incondizionata e di applicazione generalizzata, si è
passati ora al momento del rifiuto totale e talvolta irrazionale, conseguente a
posizioni teoriche che, nel campo dell'apprendimento, non possono essere
adottate completamente né rigettate globalmente con un rifiuto spesso più
emotivo che razionale. Come tutti gli strumenti didattici, anche le prove
obiettive hanno dei limiti, che è bene conoscere al fine di poter valutare, se,
quando e come utilizzarle al meglio. Una delle obiezioni mosse ai test a scelta
multipla deriva dalla possibilità di dare risposte che potrebbero risultare
esatte solo per caso. Se questa obiezione si può accettare nei confronti dei
test vero/ falso, che offrono la possibilità di dare una risposta giusta nel
cinquanta per cento dei casi, è difficilmente sostenibile se si tratta di
risposte multiple con cinque o anche con quattro alternative. Se il numero
delle domande è abbastanza elevato, come dovrebbe essere per rendere il test
affidabile, la possibilità che la risposta casuale esatta possa incidere sulla
misura totale in modo decisivo è abbastanza lontana.
Esistono tuttavia
degli accorgimenti per rettificare le risposte date a caso.
Il primo si applica quando
si vuole scoraggiare la risposta casuale, che dà il venticinque per cento di
possibilità (qualora si abbiano 4 scelte) di rispondere in modo corretto.
Si rassicurano gli
studenti che la risposta che avrebbero dato casualmente verrà loro accreditata
secondo un calcolo statistico: per rettificare le omissioni si aggiungerà al
punteggio totale un punteggio corrispondente al numero delle risposte omesse
diviso quattro. Se in un test di 50 item le risposte corrette sono 30, quelle
errate sono 8 e quelle omesse sono 12, il punteggio totale sarà:
Se invece il
punteggio fosse quello riportato sotto ci troveremmo a dover gestire dei numeri
non interi, il che potrebbe crearci delle complicazioni:
Per ovviare a ciò
si attribuisce ad ogni risposta esatta il punteggio equivalente al numero delle
scelte di ogni risposta più un punto per ogni item omesso. Nel caso sopra
riportato lo studente avrebbe ottenuto il seguente punteggio per le risposte
corrette: 28 x 4 = 112.
A questo si
aggiungerà il punteggio per le risposte omesse ottenendo: 112+ 14 = 126.
Il secondo modo propone
un'altra possibilità di rettifica: in questo caso bisogna avere l'avvertenza di
comunicare agli studenti che dovranno comunque dare una risposta, in modo
casuale, anche se non la conoscono, perché nel caso contrario risulterebbero
penalizzati. Questa forma di rettifica si basa sull'assunto (non da tutti
condiviso) che, maggiore è il numero delle risposte sbagliate, maggiore è la
possibilità che quelle che risultano corrette siano dovute al caso. Quindi al
punteggio si sottrae il numero degli item sbagliati diviso il numero delle
alternative meno una (quella giusta). Ad esempio, se il numero delle risposte
corrette e 32 e 18 sono le risposte sbagliate, si calcolerà:
Un'altra obiezione si basa sul fatto che in
questa, come in tutte le altre prove obiettive (test vero/falso, test di
corrispondenza, test di completamento), la misurazione riesce a cogliere solo
il prodotto finale e perde di vista il processo che ha portato a quel prodotto.
Si può rispondere a questa obiezione facendo presente che nella scuola solo
parte della verifica viene effettuata in base a test obiettivi, mentre esistono
tutta una serie di accertamenti e verifiche realizzate per cogliere i processi
mentali dell'allievo. Una reazione abbastanza forte contro i test a scelta
multipla è dovuta al fatto che questo tipo di test è costruito in base ad
alternative scelte in modo da trarre in inganno il discente al momento della
soluzione del test. E spesso a essere tratto in inganno è lo studente meno
preparato, il più debole e sprovveduto, mentre il compito dell'educatore è di
evitare qualsiasi occasione di confusione proponendo sempre solo modelli
corretti o accettabili. Si può rispondere a questa obiezione sostenendo che, se
si pone particolare attenzione nella scelta di distrattori capaci di
evidenziare ipotizzabili tipologie di deficit nell'apprendimento e se, al
momento della correzione, non ci si limita a utilizzare la griglia in modo
automatico, ma si vanno ad analizzare le risposte sbagliate, queste possono
consentire al docente una diagnosi articolata su cui costruire interventi di
recupero circoscritti e pertanto efficaci e economici.
Un ulteriore limite
di cui il docente deve rendersi conto e che è insito in qualsiasi prova
obiettiva, ad eccezione forse dei test di completamento, è il fatto che questo
tipo di test è volto a verificare non tanto le capacità di produzione quanto le
capacità di riconoscimento, perché la decisione di scegliere tra risposte
già date non coinvolge la memoria rievocativa, ma si limita alla memoria
di riconoscimento. Questo è vero non solo quando le alternative danno
risposte a domande fattuali, ma anche qualora vengano date, in campo
matematico, fisico o scientifico, formule che non possono essere meccanicamente
riconosciute, richiedendo capacità di ragionamento. Infatti la rievocazione
(del percorso logico) non avviene spontaneamente, ma è agevolata dalla presenza
della formula già strutturata. Questi limiti delle prove obiettive sono stati
esplicitati non per sminuire la validità dell'utilizzo di queste prove nella
scuola, ma perché il docente conosca esattamente non solo i vantaggi, in
termini di facilità di somministrazione e di correzione, di oggettività
assoluta della correzione, di attendibilità e di coerenza interna misurabile,
ma anche gli svantaggi che ne derivano e le limitazioni che presentano,
affinché il test sia usato nel momento adeguato e per la verifica di quelle
competenze che si prestano ad essere misurate in questo modo.
8. Procedimento per la costruzione di un test a scelta multipla.
Si elencano i principali punti da seguire per costruire correttamente un
test a scelta multipla.
1.
specificare l'obiettivo della verifica;
2.
scegliere contenuti appropriati da verificare in ogni item;
3.
individuare distrattori verosimili;
4.
sottoporre la lettura del test a un collega competente per individuare le
ambiguità, le mancanze di precisione, la presenza di due risposte ugualmente
accettabili, ecc.;
5.
sottoporre il test a un gruppo campione;
6.
eseguire la validazione del test secondo le modalità indicate nel testo;
7.
eliminare o riformulare gli item che si sono rivelati troppo facili o
troppo difficili o con basso valore discriminante;
8.
sostituire i distrattori che non hanno ricevuto nessuna risposta;
9.
far svolgere il test e, se opportuno, riprendere alcuni punti finché si
sono raggiunti livelli ottimali di affidabilità e di validità.