VQR: confrontando mele e pere

Ieri (16 Luglio) sono stati presentati i risultati della Valutazione della Qualità della Ricerca 2004-­2010 (VQR 2004-­2010) condotta dall’ANVUR.

I dati saranno utilizzati dal Ministero dell’Università per ripartire una quota dei finanziamenti agli atenei e probabilmente anche all’interno delle singole università per la suddivisione delle risorse.

Se utilizzati direttamente, i valori degli indici forniti dall’ANVUR portano a distorsioni dei valori delle singole università e delle strutture al loro interno (es. dipartimenti).

Per poter confrontare gli indici di qualità della produzione scientifica è necessario normalizzarli rispetto alla popolazione universitaria Italiana, altrimenti settori scientifici con caratteristiche e modalità di pubblicazione molto diverse non possono essere comparati equamente.

La valutazione

La VQR aveva come obiettivo calcolare  degli indici di qualità basati sulla qualità della pubblicazioni presentate da vari atenei.

In estrema sintesi ogni ateneo doveva presentare un numero di pubblicazioni pari a tre volte il numero di docenti (numero ridotto proporzionalmente per i docenti entrati in servizio dopo il 2004). Ogni pubblicazione è stata classificata in una delle seguenti categorie con il relativo punteggio

  • Eccellente: 1 punto
  • Buona: 0.8 punti
  • Accettabile: 0.5 punti
  • Limitata: 0 punti
  • Mancante: -0.5 punti
  • Non Valutabile: -1 punto
  • Plagio: -2 punti

Ogni pubblicazione inoltre era associata ad uno specifico settore scientifico disciplinare (SSD). In base al SSD le pubblicazioni erano suddivise tra diversi Gruppo di Esperti delle Valutazione (GEV) per le diverse aree scientifiche (un insieme di SSD).

Per ogni ateneo, o suo sottoinsieme, sono stati forniti diversi indici, i principali sono:

  • n: numero di prodotti attesi
  • v: somma dei voti dei prodotti
  • I = v/n : voto medio di ogni pubblicazione

Il problema

Per evidenziare il problema ho analizzati i dati del Gruppo di Esperti delle Valutazione per l’Area 09 (GEV09), quella che raggruppa gli SSD dell’Ingegneria Industriale e dell’Informazione. Gli SSD del GEV09 sono stati suddivisi in tre sotto-gruppi (Tabella 1.3 nel rapporto finale):

  • SubGEV-A Ingegneria Meccanica, Aerospaziale, Nucleare, Gestionale e Navale
  • SubGEV-B Ingegneria Chimica e dei Materiali
  • SubGEV-C Ingegneria dell’Informazione

La seguente figura mostra, tramite un boxplot, la distribuzione del voto medio (I) dei diversi atenei, suddivisi per sotto GEV. Ciascun ateneo avrà un dato per ciascuno delle tre popolazioni (ammesso che abbia docenti appartenenti a SSD di quel raggruppamento). I rombi rappresentano i punteggi medi (I) di uno specifico ateneo negli SSD dei tre SubGEV.

VQR_IperSubGEV

Come si sono comportati (mediamente) i docenti appartenenti agli SSD dei tre SubGEV?

La risposta dipende pesantemente da come leggiamo i risultati.

Se guardiamo al valore assoluto del punteggio medio, il migliore è il SubGEV-B, seguito dal SubGEV-C e per ultimo il SubGEV-A.

Tuttavia se guardiamo al punteggio in relazione alla distribuzione generale dei punteggi le cose cambiano: il migliore è il SubGEV-C che ha un valore appena sopra la mediana, seguito dal SubGEV-A che è praticamente sulla mediana e per ultimo il SubGEV-B che è sotto la mediana.

Un bel ribaltamento! E’ come valutare l’altezza di un bimbo in tutta la scuola o solo tra quelli della stessa età.

Lo stesso problema si ripropone all’interno dei SubGEV tra SSD diversi, riporto qui il grafico in piccolo:

VQR_IperSSD

Una possibile soluzione

Il problema precedente deriva da differenze di modalità di pubblicazione e di accessibilità alle pubblicazioni che possono essere estremamente significative tra diversi settori (e talvolta anche nello stesso settore).

Una possibile soluzione consiste nel normalizzare i valori dei punteggi rispetto alla distribuzione. Un sistema  comunemente adottato per fare ciò è quello di standardizzare il punteggio. Si tratta di calcolare la differenza tra il punteggio di uno specifico soggetto da una statistica che indichi il centro della distribuzione (tipicamente media o mediana) e dividere tale differenza per una statistica di dispersione (tipicamente  Standard Deviation o Median Absolute Deviation). In presenza di distribuzioni normali la prima coppia di statistiche è più indicata, mentre in presenza di distribuzioni non normali la seconda coppia di statistiche (non parametriche) è preferibile.

Conclusione

L’uso diretto del punteggio medio porta iniqui vantaggi ai settori che abitualmente pubblicano maggiormente mentre svantaggiano gli altri settori. Un modo per ovviare a questa disparità e quello di utilizzare un punteggio normalizzato per riferire un punteggio alla distribuzione generale dei punteggi in ciascun settore.

In assenza di normalizzazione, si confrontano mele e pere, con un ovvio vantaggio per le seconde che sono notoriamente e naturalmente più allungate delle prime.

Voglio inoltre sottolineare che questo indice di qualità delle pubblicazioni cattura soltanto una particolare prospettiva sul mondo dell’università, ce ne sono molte altre probabilmente altrettanto importanti.

Ripartizione di risorse secondo produttività

In questo periodo ho spesso ascoltato commenti o presentazioni relative alla ripartizione di risorse. Due esempi significativi: il Fondo di Finanziamento Dipartimentale (FFD) ed i Punti Organico Ministeriali (POM)  distribuito dall’ateneo ai dipartimenti.

Uno dei criteri utilizzati è il merito scientifico. Guardando le formule, basate sulla produzione scientifica, mi sono chiesto se una suddivisione basata sulla produttività fosse migliore o peggiore di una basata sulla produzione totale.

Ho fatto alcune banali simulazione per darmi una risposta: la suddivisione tra dipartimenti, per essere equa deve essere basata su metriche di volume e non di efficienza.

Continua a leggere