VQR: confrontando mele e pere

Ieri (16 Luglio) sono stati presentati i risultati della Valutazione della Qualità della Ricerca 2004-­2010 (VQR 2004-­2010) condotta dall’ANVUR.

I dati saranno utilizzati dal Ministero dell’Università per ripartire una quota dei finanziamenti agli atenei e probabilmente anche all’interno delle singole università per la suddivisione delle risorse.

Se utilizzati direttamente, i valori degli indici forniti dall’ANVUR portano a distorsioni dei valori delle singole università e delle strutture al loro interno (es. dipartimenti).

Per poter confrontare gli indici di qualità della produzione scientifica è necessario normalizzarli rispetto alla popolazione universitaria Italiana, altrimenti settori scientifici con caratteristiche e modalità di pubblicazione molto diverse non possono essere comparati equamente.

La valutazione

La VQR aveva come obiettivo calcolare  degli indici di qualità basati sulla qualità della pubblicazioni presentate da vari atenei.

In estrema sintesi ogni ateneo doveva presentare un numero di pubblicazioni pari a tre volte il numero di docenti (numero ridotto proporzionalmente per i docenti entrati in servizio dopo il 2004). Ogni pubblicazione è stata classificata in una delle seguenti categorie con il relativo punteggio

  • Eccellente: 1 punto
  • Buona: 0.8 punti
  • Accettabile: 0.5 punti
  • Limitata: 0 punti
  • Mancante: -0.5 punti
  • Non Valutabile: -1 punto
  • Plagio: -2 punti

Ogni pubblicazione inoltre era associata ad uno specifico settore scientifico disciplinare (SSD). In base al SSD le pubblicazioni erano suddivise tra diversi Gruppo di Esperti delle Valutazione (GEV) per le diverse aree scientifiche (un insieme di SSD).

Per ogni ateneo, o suo sottoinsieme, sono stati forniti diversi indici, i principali sono:

  • n: numero di prodotti attesi
  • v: somma dei voti dei prodotti
  • I = v/n : voto medio di ogni pubblicazione

Il problema

Per evidenziare il problema ho analizzati i dati del Gruppo di Esperti delle Valutazione per l’Area 09 (GEV09), quella che raggruppa gli SSD dell’Ingegneria Industriale e dell’Informazione. Gli SSD del GEV09 sono stati suddivisi in tre sotto-gruppi (Tabella 1.3 nel rapporto finale):

  • SubGEV-A Ingegneria Meccanica, Aerospaziale, Nucleare, Gestionale e Navale
  • SubGEV-B Ingegneria Chimica e dei Materiali
  • SubGEV-C Ingegneria dell’Informazione

La seguente figura mostra, tramite un boxplot, la distribuzione del voto medio (I) dei diversi atenei, suddivisi per sotto GEV. Ciascun ateneo avrà un dato per ciascuno delle tre popolazioni (ammesso che abbia docenti appartenenti a SSD di quel raggruppamento). I rombi rappresentano i punteggi medi (I) di uno specifico ateneo negli SSD dei tre SubGEV.

VQR_IperSubGEV

Come si sono comportati (mediamente) i docenti appartenenti agli SSD dei tre SubGEV?

La risposta dipende pesantemente da come leggiamo i risultati.

Se guardiamo al valore assoluto del punteggio medio, il migliore è il SubGEV-B, seguito dal SubGEV-C e per ultimo il SubGEV-A.

Tuttavia se guardiamo al punteggio in relazione alla distribuzione generale dei punteggi le cose cambiano: il migliore è il SubGEV-C che ha un valore appena sopra la mediana, seguito dal SubGEV-A che è praticamente sulla mediana e per ultimo il SubGEV-B che è sotto la mediana.

Un bel ribaltamento! E’ come valutare l’altezza di un bimbo in tutta la scuola o solo tra quelli della stessa età.

Lo stesso problema si ripropone all’interno dei SubGEV tra SSD diversi, riporto qui il grafico in piccolo:

VQR_IperSSD

Una possibile soluzione

Il problema precedente deriva da differenze di modalità di pubblicazione e di accessibilità alle pubblicazioni che possono essere estremamente significative tra diversi settori (e talvolta anche nello stesso settore).

Una possibile soluzione consiste nel normalizzare i valori dei punteggi rispetto alla distribuzione. Un sistema  comunemente adottato per fare ciò è quello di standardizzare il punteggio. Si tratta di calcolare la differenza tra il punteggio di uno specifico soggetto da una statistica che indichi il centro della distribuzione (tipicamente media o mediana) e dividere tale differenza per una statistica di dispersione (tipicamente  Standard Deviation o Median Absolute Deviation). In presenza di distribuzioni normali la prima coppia di statistiche è più indicata, mentre in presenza di distribuzioni non normali la seconda coppia di statistiche (non parametriche) è preferibile.

Conclusione

L’uso diretto del punteggio medio porta iniqui vantaggi ai settori che abitualmente pubblicano maggiormente mentre svantaggiano gli altri settori. Un modo per ovviare a questa disparità e quello di utilizzare un punteggio normalizzato per riferire un punteggio alla distribuzione generale dei punteggi in ciascun settore.

In assenza di normalizzazione, si confrontano mele e pere, con un ovvio vantaggio per le seconde che sono notoriamente e naturalmente più allungate delle prime.

Voglio inoltre sottolineare che questo indice di qualità delle pubblicazioni cattura soltanto una particolare prospettiva sul mondo dell’università, ce ne sono molte altre probabilmente altrettanto importanti.

Annunci

Produttività di un dipartimento

Tra qualche giorno dovrebbero uscire i risultati della Valutazione della Qualità della Ricerca (VQR) 2004-2010, condotta dall’ANVUR sul sistema della ricerca italiano. Verranno valutati gli atenei ma anche le strutture al loro interno: i dipartimenti.

Mi chiedo allora: quante pubblicazioni dovrebbe produrre un buon dipartimento?

Una risposta non troppo precisa potrebbe arrivare da un altro esercizio dell’ANVUR: l’abilitazione scientifica nazionale (ASN). Per valutare i docenti abilitandi, sono state calcolate le mediane di vari indicatori, tra cui il numero di articoli su riviste (indicizzate).

Continua a leggere

Uno sguardo all’ANVUR attraverso gli occhi Borges

Esistono dei sorprendenti paralleli tra l’operato dell’ANVUR e le opere di  Jorge Luis Borges, forse sfruttando questo parallelismo è possibile capire meglio la valutazione della ricerca nell’università italiana.

In una nota l’ANVUR ci ricorda che la produzione scientifica si suddivide in 1.1) Articolo in rivista,  1.2) Recensione in rivista,  1.3) Scheda bibliografica,  1.4) Nota a sentenza,  1.5) Abstract in rivista,  1.6) Traduzione in rivista,  2.1) Contributo in volume (Capitolo o Saggio) ,  2.2) Prefazione/Postfazione,  2.3) Breve introduzione,  2.4) Voce (in dizionario o enciclopedia) ,  2.5) Traduzione in volume,  2.6) Recensione in volume,  2.7) Schede di catalogo,  3.1) Monografia o trattato scientifico,  3.2) Concordanza,  3.3) Indice,  3.)  Bibliografia,  3.5) Edizione critica,  3.6) Pubblicazione di fonti inedite,  3.7) Commento scientifico,  3.8) Traduzione di libro,  4.1) Contributo in Atti di convegno,  4.2) Abstract in Atti di convegno,  4.3) Poster,  5.01) Composizione,  5.02) Disegno,  5.03) Design,  5.04) Performance,  5.05) Esposizione,  5.06) Mostra,  5.07) Manufatto,  5.08) Prototipo d’arte e relativi progetti,  5.09) Cartografia,  5.10) Banca dati,  5.11) Software,  5.12) Altro,  6.1) Brevetto.

A parte la forma, questo elenco dettagliato richiama, temo, anche nella sua logica un altro elenco, di animali:

Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all’Imperatore, (b) imbalsamati, (c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s’agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.

 L’idioma analitico di John Wilkins in Altre Inquisizioni

Questo è soltanto uno degli aspetti ( forse anche uno dei più ragionevoli ) di precisione così esaustiva propinata in pillole così frequenti e così dirompenti del quotidiano lavoro da risultare estenuante. Sembra quasi che l’obiettivo ultimo dell’ANVUR sia quello di costruire una mappa della ricerca con un livello di dettaglio pari alla ricerca stessa:

In quell’impero, l’arte della cartografia giunse ad una tal perfezione che la mappa di una sola provincia occupava tutta una città, e la mappa dell’impero tutta una provincia. Col tempo, queste mappe smisurate non bastarono più. I collegi dei cartografi fecero una mappa dell’impero che aveva l’immensità dell’impero e coincideva perfettamente con esso. Ma le generazioni seguenti, meno portate allo studio della cartografia, pensarono che questa mappa enorme era inutile e non senza empietà la abbandonarono alle inclemenze del Sole e degli inverni. Nei deserti dell’ovest sopravvivono lacerate rovine della mappa, abitate da animali e mendichi; in tutto il paese non c’è altra reliquia delle discipline geografiche.

Dell’esattezza della scienza in Storia Universale dell’Infamia

Spero vivamente che di questa operazione non restino solo rovine lacerate.

Nella mia visione, la valutazione (della ricerca ma non solo) è lo strumento principale ed unico che permette di incentivare comportamenti virtuosi (quello che alcuni chiamano con la ritrita parola “merito”) senza dover passare da una legislazione piena di obblighi e divieti incrociati di cui la Legge 240/2010 è un esempio lampante.

Se il tentativo di mettere in piedi un sistema di valutazione si arrotola su se stesso andando ad occuparsi anche dei prodotti disegnati con un pennello finissimo di pelo di cammello il risultato è di avvolgere l’obiettivo in un fitto labirinto di regole, rendendolo irraggiungibile.

Ossessivamente sogno di un labirinto piccolo, pulito, al cui centro c’è un’anfora che ho quasi toccato con le mani, che ho visto con i miei occhi, ma le strade erano così contorte, così confuse, che una cosa mi apparve chiara: sarei morto prima di arrivarci

 Labyrinthes