Il test oggettivo

Scopo dell'articolo è affrontare il problema del test oggettivo, soprattutto dei test a scelta multipla, soffermarsi sulle modalità di costruzione dei test, individuarne la componente soggettiva, specificando quali sono le decisioni soggettive che intervengono al momento della sua costruzione e spiegare le non semplici operazioni da svolgere se si desidera che il test possa essere utilizzato in modo proficuo nella classe. Per test oggettivo s'intende ogni tipo di test che presenti quesiti con risposte tra le quali si deve scegliere quella esatta e che, per questo motivo, può essere corretto in base a una griglia di correzione predisposta, che non lascia spazio alla soggettività d'interpretazione dei singoli correttori, e può essere corretto anche da un computer fornito di lettore ottico e programma adeguato. I test a scelta multipla, che sono parte molto importante dei test oggettivi, sono nati come risposta alla necessità di rilevare le caratteristiche comportamentali in vari soggetti in ambito psicometrico per dare una descrizione quantitativa, e perciò scientifica, dei fatti psichici ed hanno conosciuto grande diffusione negli Stati Uniti soprattutto tra gli anni Venti e Quaranta.

1. I test standardizzati

La diffusione in campo educativo delle teorie comportamentistiche ne hanno favorito l'introduzione per misurare l'apprendimento e in quest'ambito sono tuttora largamente utilizzati negli Stati Uniti e in gran parte del mondo anglosassone sotto forma di test standardizzati, cioè tarati, attraverso una fase di somministrazione iniziale, al fine di conferire loro la possibilità di adattarsi a un utilizzo il più possibile generalizzato, fornendo dati depurati dalle variabili interne al gruppo valutato.

I test standardizzati necessitano di particolari elementi per assolvere alla loro funzione. Prima di tutto sono legati alla nozione di campionamento perché un buon test deve coprire un campione rappresentativo della popolazione che sarà poi sottoposta a test; i suoi risultati, espressi in punteggi grezzi, vengono considerati come punto di riferimento per la valutazione dei risultati del test, risultati che possono collocarsi al di sotto della media del campione – nel primo quartile (cioè tra quelli raggiunti dal primo 25% i più bassi) o nel secondo quartile, (tra quelli raggiunti dal secondo 25%) oppure al di sopra della media – nel terzo o nel quarto quartile; se si vuole essere più precisi si possono collocare i risultati all'interno di decili; in questo caso i risultati del gruppo campione vengono divisi in dieci fasce, in ordine dal più alto al più basso.

Si può anche fare riferimento ai centili: in questo caso il punteggio del test verrà rapportato a una scala che va da uno a cento. Il favore che i test obiettivi incontrano presso gli esaminatori professionali è dovuto alla loro "oggettività" e affidabilità di correzione. In particolare quando, in tempi brevi, bisogna sottoporre ad esame un grande numero di soggetti e si desidera che tutti non solo siano sottoposti allo stesso tipo di esame ma, ciò che più conta (e che rende invalide le nostre prove di maturità che sono uguali per tutti dal punto di vista del compito da svolgere, ma si differenziano spesso diametralmente in seguito ai diversi criteri di valutazione adottati dalle varie commissioni), siano corretti allo stesso modo e valutati usando gli stessi criteri, i test a scelta multipla riflettono una scelta economica in termini di sforzo di correzione e della relativa spesa che comporta la costruzione.

Naturalmente i test standardizzati sono usati solo su scala nazionale o, quanto meno, somministrati a popolazioni molto ampie, ad esempio per esami di accesso alle università o per esami finali, e non possono essere utilizzati per controllare l'apprendimento di aspetti specifici inseriti nella programmazione. Infatti gli scopi educativi che un insegnante si prefigge sono sempre peculiari al suo ambiente scolastico, anche se prende come punto di riferimento programmi fissati a livello nazionale. In questo caso, se non si può pensare di raggiungere una vera e propria standardizzazione, si può tentare di individuare un gruppo di riferimento per la validazione delle prove obiettive da somministrare in classe.

2. Requisiti e procedure di produzione

Requisito necessario per ogni tipo di test è l'attendibilità, che comporta assenza di errore casuale dovuto a fattori esterni al test e di ripetibilità degli stessi risultati se somministrato a popolazioni con le stesse caratteristiche, anche se si può prevedere una certa quantità di scarto (la correlazione non dovrebbe essere inferiore allo 0,75), dovuto alle alterazioni quotidiane dei soggetti. Quanto maggiore è il numero dei quesiti inclusi nel test, tanto maggiore sarà la sua attendibilità. Il concetto di validità di un test è abbastanza complesso ed è stato oggetto di profonde ricerche e conseguenti discussioni.

Secondo Flores D'Arcais la validità si riferisce al grado di corrispondenza del test con lo scopo per cui viene prodotto; perciò è valido se si riferisce alla variabile per cui è stato costruito, riducendo al massimo l'errore di misura. Gli interrogativi che sorgono relativamente alla validità di test a scelta multipla non sono molto diversi da quelli che si dovrebbero formulare per qualsiasi altra tipologia di test. Passiamo ora ad esaminare concretamente qual'è il procedimento ottimale per la costruzione di un test a scelta multipla. La preparazione di un test specifico si impernia principalmente su due fattori: la natura delle decisioni richieste dagli stimoli e la natura delle alternative che vengono offerte per ciascun item. E' importante ricordare che la questione della validità del test va tenuta presente al momento della costruzione dello stesso e non in quello della sua elaborazione statistica e dovrebbe essere applicata sin dalle prime fasi della sua costruzione. Perciò il primo passo nella costruzione di un test è individuare chiaramente le abilità o le conoscenze che si vogliono sottoporre ad esame e chiedersi se possono essere misurate mediante un test a scelta multipla. Purtroppo molti degli item presenti, sia in test costruiti artigianalmente da docenti, sia in test costruiti da specialisti e inclusi nei test standardizzati, non sono sottoposti a questa valutazione iniziale. Se questo primo punto non è rispettato, tutte le altre qualità che il test può possedere perdono di importanza.

Il passo successivo è produrre gli item migliori possibili del tipo precedentemente definito, facendo una ricognizione dei vari elementi da includere nel test.

Durante la produzione, ogni item deve essere valutato per l'appropriatezza del contenuto. Ci si deve chiedere se l'item tende a verificare il possesso di informazioni o di abilità rilevanti nel particolare ambito, se la risposta richiesta mette in atto l'abilità che il test nel suo complesso vuole misurare e se veramente rispecchia la risposta che potrebbe essere data da qualcuno che possegga appieno la conoscenza o l'abilità specifica. Si eviterà di formulare quesiti che si riferiscono all'informazione contenuta nella risposta corretta di altri item, e si porrà cura a comporre un insieme di item bene equilibrati in modo da formare un test coerente.

Il terzo punto è costruire item con distrattori adatti in ogni gruppo di alternative.

Innanzitutto bisogna verificare che i distrattori rappresentino risposte che potrebbero essere date da qualcuno che non possegga appieno l'abilità o la conoscenza in oggetto e che non siano alternative assurde. E' inutile produrre un numero elevato di distrattori quando questi verranno eliminati automaticamente dalla rosa delle possibili scelte perché fuori linea con l'argomento trattato. Bisogna inoltre fare attenzione che tra le alternative vi sia la risposta corretta e che non vi sia più di una risposta possibile. In questo caso va segnalato che si deve scegliere solo la risposta più appropriata. E inoltre opportuno fare attenzione a non includere distrattori che offrano indizi non intenzionali. Si cercherà perciò di non formulare alternative che rappresentino l'opposto della risposta esatta. I distrattori dovranno di massima essere in linea con la risposta corretta che non dovrà essere né troppo più lunga o più corta, né avere una struttura formalmente diversa da tutte le altre. Se si costruiscono item per verificare la comprensione in un testo bisognerà accertarsi che l'item non richieda risposta a tutti non presenti nel testo proposto o non chiaramente inferibili nello stesso.

3. Validazione del test

A questo punto, dopo aver costruito il test, se si vuole avere uno strumento abbastanza affidabile, è bene procedere alla validazione: somministrarlo cioè a un numero significativo di studenti e poi procedere all'analisi degli item. Se il test è di tipo formativo si può individuare un gruppo per la validazione all'interno dell'istituto, se è sommativo sarebbe bene fare riferimento a un collega di un altro istituto o di un'altra città per evitare che diventi pubblico prematuramente. Certamente l'operazione di validazione del test comporta molto impegno e si giustifica solamente se il test può essere somministrato più di una volta e non da un solo docente. La produzione di un test obiettivo dovrebbe comunque essere un lavoro collegiale e non del singolo insegnante perché la costruzione di un buon test è sufficientemente ardua e difficile da renderla impraticabile per i bisogni di una sola classe in un solo momento. Il grosso problema tecnico dell'analisi degli item eseguita senza il supporto di appositi programmi informatici si dimostrerà purtroppo un deterrente non secondario all'uso del test a scelta multipla. Tuttavia ciò che i test a scelta multipla richiedono a livello di difficoltà e laboriosità di preparazione è ampiamente compensato dalla affidabilità e facilità di somministrazione e di correzione che offrono, se vengono costruiti e validati in modo corretto. Questo procedimento è comunque un passo importante e necessario per la preparazione di buoni test a risposta multipla e per questo è bene che ogni docente che li usa conosca le modalità di validazione dei test: come si esegue, che cosa significa.

4. Grado di facilità degli item

Dopo aver somministrato il test ai gruppo campione, si procede a individuare il grado di difficoltà di ogni singolo item. Questa è una operazione statistica di base e tende a stabilire il livello di difficoltà che gli studenti hanno incontrato nelle risposte. Un item che si sia rivelato troppo facile o troppo difficile non ci può dire nulla sulle differenze tra gli studenti sottoposti al test; di conseguenza dal test andrebbero immediatamente eliminate le domande cui hanno risposto tutti e quelle cui non ha risposto nessuno. Dobbiamo tuttavia rapportare questa affermazione all'obiettivo del test. Se il test mira a valutare gli studenti in modo che emergano le differenze di preparazione tra di loro, questa operazione è del tutto legittima e necessaria. Se l'obiettivo è invece di carattere formativo e il docente si aspetta che tutti gli studenti possano dimostrare di aver raggiunto gli obiettivi minimi e rispondano tutti in modo corretto almeno a un certo numero di item, non si dovranno eliminare questi item dal test, ma solo quegli item che, rivelandosi troppo difficili, possono produrre un effetto demotivante sugli studenti, senza nel contempo dare indicazioni significative al docente.

La facilità dell'item (F.I.) viene computata come valore medio delle risposte di tutti gli studenti che hanno affrontato il test. È chiaro che in questo caso la risposta omessa va calcolata come risposta sbagliata.

La F.I. viene generalmente espressa come valore percentuale o come decimale che indica il numero degli studenti che hanno risposto in modo corretto all'item. Il valore percentuale si otterrà dividendo il numero di studenti che hanno risposto in modo corretto per il numero totale degli studenti che hanno affrontato la prova e moltiplicando per 100.

L'indice di massima facilità sarà 100, quello di massima difficoltà sarà 0.

Se l'obiettivo è verificare il diverso grado di preparazione degli studenti si preferisce scegliere item che abbiano una varianza che si colloca nella gamma tra 15 e 85, cioè che abbiano ricevuto un numero di risposte esatte non inferiore a 15 e non superiore a 85 su cento; un item cui tutti rispondono in modo corretto non ci dice nulla sulla sua varianza tra gli studenti relativamente alla dimensione misurata dal test. I valori cui si dovrebbe tendere sono quelli che cadono circa a metà, cioè intorno al 50 per cento.

5. Grado di discriminazione degli item

Un altro problema fondamentale di ogni test è quello della discriminazione. Anche se si ha l'obiettivo di misurare e di dimostrare la padronanza di un certo argomento o di una certa abilità, anche al fine di fissare l'obiettivo del recupero, nella maggioranza degli studenti, il test dovrebbe poter discriminare tra gradi diversi di ciò che tende a misurare.

Nel test scolastico è importante definire se la varianza prodotta da un item differenzia veramente chi è più preparato da chi è meno preparato. Ciò che è necessario dunque è un indice di validità dell'item in rapporto a ciò che l'item stesso vuole misurare. Se, all'interno di un test, i diversi item hanno come obiettivo di misurare lo stesso campo di conoscenze o la stessa abilità, dovrebbero produrre la stessa varianza, dovrebbero cioè aver almeno un certo grado di correlazione tra loro.

In questo caso la correlazione va intesa come un indice della loro affidabilità o della loro consistenza interna. Inoltre, se, oltre a correlare tra loro, gli item correlassero con altri criteri esterni, la correlazione starebbe a significare il grado di validità del test nel suo complesso.

Esistono diversi metodi per verificare la validità dei singoli item, ma il più semplice è rapportare il risultato del singolo item al punteggio totale dello stesso test. Naturalmente, il risultato del confronto è vero nella misura in cui il test è di per sé valido. Se il test non è valido, non misura cioè ciò che intende misurare, allora alti valori di discriminatività degli item ci dicono solamente che il test sta misurando in modo affidabile un certo campo di conoscenze o di abilità e non necessariamente quello che ci interessa. Il metodo proposto si basa sulla correlazione del punteggio di ogni singolo item col punteggio generale del test. Come si è già detto, utilizzando un programma informatico, la verifica è molto semplice: è sufficiente digitare tutti i risultati del test, affidando al programma l'elaborazione dei dati; se invece il calcolo si fa manualmente, il lavoro è molto lungo e defatigante. Per semplificarlo si può ricorrere alla tecnica del confronto interno (tecnica necessaria quando il numero degli studenti è inferiore a 30); i confronti possono essere compiuti tra i soggetti classificatisi nella prima metà, nel primo terzo, nel primo quarto o nel primo 27% in graduatoria rispettivamente con soggetti classificati nella seconda metà, nell'ultimo terzo, nell'ultimo quarto o nell'ultimo 27% della graduatoria.

Flanagan suggerisce di seguire il seguente metodo: dopo aver somministrato il test a un campione significativo di studenti (preferibilmente tra 50 e 100) facendo in modo che le condizioni di somministrazione siano identiche, si correggono i test riportando su ciascuno il punteggio grezzo e si ordinano dal punteggio più alto al punteggio più basso. Si conta poi il 27% dei test con punteggio superiore, (27 test se il campione è composto di 100 studenti). Questo gruppo starà a rappresentare i punteggi alti. Allo stesso modo si procederà iniziando dal test con punteggio inferiore e si otterrà il gruppo di 27 test con punteggio basso.

Il principio della correlazione ci dice che, se i punteggi di un singolo item sono correlati col punteggio totale, per ogni item dovrebbero aver dato risposta corretta un numero maggiore di studenti appartenenti al gruppo alto, rispetto alle risposte date dagli studenti appartenenti al gruppo basso. Perciò per ogni item si conterà il numero di risposte corrette dei test a punteggio alto e il numero di risposte corrette dei test a punteggio basso. La caratteristica che si vuole ricavare è un indice del grado in cui ogni item tende a differenziare il gruppo alto da quello basso allo stesso modo dei punteggi totali. Per ogni item l'indice di discriminabilità (DI) sarà ricavato nel modo seguente:

DI = numero di test del gruppo alto con risposta corretta, meno numero di test del gruppo basso con risposte corrette diviso per il 27% del gruppo sottoposto a test:

A = gruppo alto

B = gruppo basso

N = numero gruppo alto = gruppo basso (i due gruppi devono essere costituiti dallo stesso numero di soggetti).

È ovvio che si dovrebbero ottenere valori alti di DI, perché naturalmente ogni item dovrebbe avere un buon grado di correlazione col test nel suo complesso. Più alta è la correlazione e più affidabile è il test. Si ritiene generalmente che il limite minimo di discriminabilità accettabile per ogni item si aggiri tra lo 0,25 e lo 0,35. Al di sotto di questi valori l'item deve essere modificato o eliminato.

6. Distribuzione delle risposte

Un ulteriore elemento di ricerca al momento della validazione del test è volto a individuare la frequenza di distribuzione delle risposte per verificare la capacità di distrazione dei vari distrattori. Per fare ciò basta contare quanti studenti hanno scelto un determinato distrattore. Una tecnica che dà risposte abbastanza significative consiste nell'eseguire la ricognizione all'interno di ogni gruppo (alto, medio e basso); le risposte date a ogni item verranno inserite in una tabella di questo tipo:

Item X	A	B	C	D	Omesse
Gruppo alto	27	0	0	0	0
Gruppo medio	15	10	10	11	0
Gruppo basso	0	9	7	8	3

Sempre considerando un campione di 100 studenti da questa tabella e sapendo che l'alternativa corretta è rappresentata dalla lettera in grassetto A (prima colonna) si può valutare sia la FI (facilità dell'item) sia la DI. Si calcola la prima sommando le cifre nella colonna A, che corrispondono al numero di risposte corrette date dal campione a questo item:

27 + 15 = 42; 42 : 100 = 0,42; 0,42 x 100 = 42.

Si evince che il grado di difficoltà dell'item è ottimale perché si aggira intorno ai valori medi; infatti il suo indice è 42. La discriminabilità dell'item è pure ottimale, perché la risposta corretta è stata data da tutti gli studenti del primo gruppo, da un numero inferiore di studenti del gruppo medio e da nessuno studente del gruppo basso. La DI è conseguentemente uguale a 1, infatti avremo:

In base a questa statistica si può dire che l'item è valido. Inoltre possiamo dire che tutti i distrattori sono stati utilizzati e perciò hanno svolto la loro funzione. La costruzione di un buon test richiede una notevole mole di lavoro, perciò difficilmente il docente singolo potrà produrlo per l'uso in una sola classe. Il lavoro è giustificato solo se si coinvolgono docenti diversi per produrre materiali da usare soprattutto come test formativi che potranno essere utilizzati anche in anni successivi. A questo proposito teniamo presente che, quando esiste una buona base, non è necessario ripartire da zero per formulare nuovi test, ma è possibile modificare e/o adattare test già prodotti.

Per l'uso come test sommativo, al fine di evitare che possa essere copiato con troppa facilità durante la somministrazione, è consigliabile produrre diverse versioni dello stesso test, cambiando l'ordine dei quesiti e/o l'ordine delle alternative; naturalmente bisognerà poi produrre tante griglie di correzione quante sono le versioni utilizzate e marcare ciascuna versione con un simbolo opportunamente scelto.

7. Obiezioni mosse al test oggettivo

Come avviene spesso in ambito metodologico, anche nel caso del testing obiettivo, dopo un periodo iniziale di accettazione incondizionata e di applicazione generalizzata, si è passati ora al momento del rifiuto totale e talvolta irrazionale, conseguente a posizioni teoriche che, nel campo dell'apprendimento, non possono essere adottate completamente né rigettate globalmente con un rifiuto spesso più emotivo che razionale. Come tutti gli strumenti didattici, anche le prove obiettive hanno dei limiti, che è bene conoscere al fine di poter valutare, se, quando e come utilizzarle al meglio. Una delle obiezioni mosse ai test a scelta multipla deriva dalla possibilità di dare risposte che potrebbero risultare esatte solo per caso. Se questa obiezione si può accettare nei confronti dei test vero/ falso, che offrono la possibilità di dare una risposta giusta nel cinquanta per cento dei casi, è difficilmente sostenibile se si tratta di risposte multiple con cinque o anche con quattro alternative. Se il numero delle domande è abbastanza elevato, come dovrebbe essere per rendere il test affidabile, la possibilità che la risposta casuale esatta possa incidere sulla misura totale in modo decisivo è abbastanza lontana.

Esistono tuttavia degli accorgimenti per rettificare le risposte date a caso.

Il primo si applica quando si vuole scoraggiare la risposta casuale, che dà il venticinque per cento di possibilità (qualora si abbiano 4 scelte) di rispondere in modo corretto.

Si rassicurano gli studenti che la risposta che avrebbero dato casualmente verrà loro accreditata secondo un calcolo statistico: per rettificare le omissioni si aggiungerà al punteggio totale un punteggio corrispondente al numero delle risposte omesse diviso quattro. Se in un test di 50 item le risposte corrette sono 30, quelle errate sono 8 e quelle omesse sono 12, il punteggio totale sarà:

Se invece il punteggio fosse quello riportato sotto ci troveremmo a dover gestire dei numeri non interi, il che potrebbe crearci delle complicazioni:

Per ovviare a ciò si attribuisce ad ogni risposta esatta il punteggio equivalente al numero delle scelte di ogni risposta più un punto per ogni item omesso. Nel caso sopra riportato lo studente avrebbe ottenuto il seguente punteggio per le risposte corrette: 28 x 4 = 112.

A questo si aggiungerà il punteggio per le risposte omesse ottenendo: 112+ 14 = 126.

Il secondo modo propone un'altra possibilità di rettifica: in questo caso bisogna avere l'avvertenza di comunicare agli studenti che dovranno comunque dare una risposta, in modo casuale, anche se non la conoscono, perché nel caso contrario risulterebbero penalizzati. Questa forma di rettifica si basa sull'assunto (non da tutti condiviso) che, maggiore è il numero delle risposte sbagliate, maggiore è la possibilità che quelle che risultano corrette siano dovute al caso. Quindi al punteggio si sottrae il numero degli item sbagliati diviso il numero delle alternative meno una (quella giusta). Ad esempio, se il numero delle risposte corrette e 32 e 18 sono le risposte sbagliate, si calcolerà:

Un'altra obiezione si basa sul fatto che in questa, come in tutte le altre prove obiettive (test vero/falso, test di corrispondenza, test di completamento), la misurazione riesce a cogliere solo il prodotto finale e perde di vista il processo che ha portato a quel prodotto. Si può rispondere a questa obiezione facendo presente che nella scuola solo parte della verifica viene effettuata in base a test obiettivi, mentre esistono tutta una serie di accertamenti e verifiche realizzate per cogliere i processi mentali dell'allievo. Una reazione abbastanza forte contro i test a scelta multipla è dovuta al fatto che questo tipo di test è costruito in base ad alternative scelte in modo da trarre in inganno il discente al momento della soluzione del test. E spesso a essere tratto in inganno è lo studente meno preparato, il più debole e sprovveduto, mentre il compito dell'educatore è di evitare qualsiasi occasione di confusione proponendo sempre solo modelli corretti o accettabili. Si può rispondere a questa obiezione sostenendo che, se si pone particolare attenzione nella scelta di distrattori capaci di evidenziare ipotizzabili tipologie di deficit nell'apprendimento e se, al momento della correzione, non ci si limita a utilizzare la griglia in modo automatico, ma si vanno ad analizzare le risposte sbagliate, queste possono consentire al docente una diagnosi articolata su cui costruire interventi di recupero circoscritti e pertanto efficaci e economici.

Un ulteriore limite di cui il docente deve rendersi conto e che è insito in qualsiasi prova obiettiva, ad eccezione forse dei test di completamento, è il fatto che questo tipo di test è volto a verificare non tanto le capacità di produzione quanto le capacità di riconoscimento, perché la decisione di scegliere tra risposte già date non coinvolge la memoria rievocativa, ma si limita alla memoria di riconoscimento. Questo è vero non solo quando le alternative danno risposte a domande fattuali, ma anche qualora vengano date, in campo matematico, fisico o scientifico, formule che non possono essere meccanicamente riconosciute, richiedendo capacità di ragionamento. Infatti la rievocazione (del percorso logico) non avviene spontaneamente, ma è agevolata dalla presenza della formula già strutturata. Questi limiti delle prove obiettive sono stati esplicitati non per sminuire la validità dell'utilizzo di queste prove nella scuola, ma perché il docente conosca esattamente non solo i vantaggi, in termini di facilità di somministrazione e di correzione, di oggettività assoluta della correzione, di attendibilità e di coerenza interna misurabile, ma anche gli svantaggi che ne derivano e le limitazioni che presentano, affinché il test sia usato nel momento adeguato e per la verifica di quelle competenze che si prestano ad essere misurate in questo modo.

8. Procedimento per la costruzione di un test a scelta multipla.

Si elencano i principali punti da seguire per costruire correttamente un test a scelta multipla.

1. specificare l'obiettivo della verifica;

2. scegliere contenuti appropriati da verificare in ogni item;

3. individuare distrattori verosimili;

4. sottoporre la lettura del test a un collega competente per individuare le ambiguità, le mancanze di precisione, la presenza di due risposte ugualmente accettabili, ecc.;

5. sottoporre il test a un gruppo campione;

6. eseguire la validazione del test secondo le modalità indicate nel testo;

7. eliminare o riformulare gli item che si sono rivelati troppo facili o troppo difficili o con basso valore discriminante;

8. sostituire i distrattori che non hanno ricevuto nessuna risposta;

9. far svolgere il test e, se opportuno, riprendere alcuni punti finché si sono raggiunti livelli ottimali di affidabilità e di validità.