Considerazioni su Riforma Costituzionale “Renzi-Boschi” – Lo stile

La riforma (oltre alla trascurabile abolizione del CNEL) riguarda due punti fondamentali: la trasformazione del bi-cameralismo perfetto in un quasi mono-cameralismo e la netta divisione delle competenze tra stato ed enti locali.

Diversi sono gli aspetti che mi lasciano perplesso di questa riforma:

  • lo stile di scrittura
  • la circoscrizione dell’autonomia dall’interno

Qui provo a parlare del primo.

Continua a leggere

Annunci

18 months of effsize

I developed the R package effsize, one and half years ago, in July 2013.

It is a package for efficient effect size computation. The computation algorithms have been optimized to allow efficient computation even with very large data sets. It contains the functions to compute the standardized effect sizes for experiments (Cohen d, Hedges g, Cliff delta, Vargha and Delaney A).

Today I looked at the download statistics from http://cran-logs.rstudio.com/. The mirror linked to the most famous R IDE, R Studio. The statistics refer to only one out of 100+ mirrors of the R project.

The number of unique IP, which downloaded is shown in the following figure:

20150131_PerMonth

What I saw represents a success for me,during the last year an average 311 distinct user per month installed the package.

Of course that figure is nothing, when compare to very famous packages, such as ggplot2 or plyr, that count monthly downloads in the order of 15000, i.e. 50 times more than mine.

Nevertheless for being a small, very limited, package I consider it a success. I take it as a stimulus to devote my time to this small piece of code.

R optimization: midpoint

In several algorithm (e.g. binary search) you need to find the mid-point among two indexes. In practice you have to compute the integer average of the two indexes. In R there are several ways of performing the computation, three that may easily come to your mind are:

(x+y) %/% 2
as.integer( (x+y)/2 )
trunc((x+y)/2)

Which one is the most efficient?

To find out I run a small experiment:

Continua a leggere

VQR: confrontando mele e pere

Ieri (16 Luglio) sono stati presentati i risultati della Valutazione della Qualità della Ricerca 2004-­2010 (VQR 2004-­2010) condotta dall’ANVUR.

I dati saranno utilizzati dal Ministero dell’Università per ripartire una quota dei finanziamenti agli atenei e probabilmente anche all’interno delle singole università per la suddivisione delle risorse.

Se utilizzati direttamente, i valori degli indici forniti dall’ANVUR portano a distorsioni dei valori delle singole università e delle strutture al loro interno (es. dipartimenti).

Per poter confrontare gli indici di qualità della produzione scientifica è necessario normalizzarli rispetto alla popolazione universitaria Italiana, altrimenti settori scientifici con caratteristiche e modalità di pubblicazione molto diverse non possono essere comparati equamente.

La valutazione

La VQR aveva come obiettivo calcolare  degli indici di qualità basati sulla qualità della pubblicazioni presentate da vari atenei.

In estrema sintesi ogni ateneo doveva presentare un numero di pubblicazioni pari a tre volte il numero di docenti (numero ridotto proporzionalmente per i docenti entrati in servizio dopo il 2004). Ogni pubblicazione è stata classificata in una delle seguenti categorie con il relativo punteggio

  • Eccellente: 1 punto
  • Buona: 0.8 punti
  • Accettabile: 0.5 punti
  • Limitata: 0 punti
  • Mancante: -0.5 punti
  • Non Valutabile: -1 punto
  • Plagio: -2 punti

Ogni pubblicazione inoltre era associata ad uno specifico settore scientifico disciplinare (SSD). In base al SSD le pubblicazioni erano suddivise tra diversi Gruppo di Esperti delle Valutazione (GEV) per le diverse aree scientifiche (un insieme di SSD).

Per ogni ateneo, o suo sottoinsieme, sono stati forniti diversi indici, i principali sono:

  • n: numero di prodotti attesi
  • v: somma dei voti dei prodotti
  • I = v/n : voto medio di ogni pubblicazione

Il problema

Per evidenziare il problema ho analizzati i dati del Gruppo di Esperti delle Valutazione per l’Area 09 (GEV09), quella che raggruppa gli SSD dell’Ingegneria Industriale e dell’Informazione. Gli SSD del GEV09 sono stati suddivisi in tre sotto-gruppi (Tabella 1.3 nel rapporto finale):

  • SubGEV-A Ingegneria Meccanica, Aerospaziale, Nucleare, Gestionale e Navale
  • SubGEV-B Ingegneria Chimica e dei Materiali
  • SubGEV-C Ingegneria dell’Informazione

La seguente figura mostra, tramite un boxplot, la distribuzione del voto medio (I) dei diversi atenei, suddivisi per sotto GEV. Ciascun ateneo avrà un dato per ciascuno delle tre popolazioni (ammesso che abbia docenti appartenenti a SSD di quel raggruppamento). I rombi rappresentano i punteggi medi (I) di uno specifico ateneo negli SSD dei tre SubGEV.

VQR_IperSubGEV

Come si sono comportati (mediamente) i docenti appartenenti agli SSD dei tre SubGEV?

La risposta dipende pesantemente da come leggiamo i risultati.

Se guardiamo al valore assoluto del punteggio medio, il migliore è il SubGEV-B, seguito dal SubGEV-C e per ultimo il SubGEV-A.

Tuttavia se guardiamo al punteggio in relazione alla distribuzione generale dei punteggi le cose cambiano: il migliore è il SubGEV-C che ha un valore appena sopra la mediana, seguito dal SubGEV-A che è praticamente sulla mediana e per ultimo il SubGEV-B che è sotto la mediana.

Un bel ribaltamento! E’ come valutare l’altezza di un bimbo in tutta la scuola o solo tra quelli della stessa età.

Lo stesso problema si ripropone all’interno dei SubGEV tra SSD diversi, riporto qui il grafico in piccolo:

VQR_IperSSD

Una possibile soluzione

Il problema precedente deriva da differenze di modalità di pubblicazione e di accessibilità alle pubblicazioni che possono essere estremamente significative tra diversi settori (e talvolta anche nello stesso settore).

Una possibile soluzione consiste nel normalizzare i valori dei punteggi rispetto alla distribuzione. Un sistema  comunemente adottato per fare ciò è quello di standardizzare il punteggio. Si tratta di calcolare la differenza tra il punteggio di uno specifico soggetto da una statistica che indichi il centro della distribuzione (tipicamente media o mediana) e dividere tale differenza per una statistica di dispersione (tipicamente  Standard Deviation o Median Absolute Deviation). In presenza di distribuzioni normali la prima coppia di statistiche è più indicata, mentre in presenza di distribuzioni non normali la seconda coppia di statistiche (non parametriche) è preferibile.

Conclusione

L’uso diretto del punteggio medio porta iniqui vantaggi ai settori che abitualmente pubblicano maggiormente mentre svantaggiano gli altri settori. Un modo per ovviare a questa disparità e quello di utilizzare un punteggio normalizzato per riferire un punteggio alla distribuzione generale dei punteggi in ciascun settore.

In assenza di normalizzazione, si confrontano mele e pere, con un ovvio vantaggio per le seconde che sono notoriamente e naturalmente più allungate delle prime.

Voglio inoltre sottolineare che questo indice di qualità delle pubblicazioni cattura soltanto una particolare prospettiva sul mondo dell’università, ce ne sono molte altre probabilmente altrettanto importanti.

Ripartizione di risorse secondo produttività

In questo periodo ho spesso ascoltato commenti o presentazioni relative alla ripartizione di risorse. Due esempi significativi: il Fondo di Finanziamento Dipartimentale (FFD) ed i Punti Organico Ministeriali (POM)  distribuito dall’ateneo ai dipartimenti.

Uno dei criteri utilizzati è il merito scientifico. Guardando le formule, basate sulla produzione scientifica, mi sono chiesto se una suddivisione basata sulla produttività fosse migliore o peggiore di una basata sulla produzione totale.

Ho fatto alcune banali simulazione per darmi una risposta: la suddivisione tra dipartimenti, per essere equa deve essere basata su metriche di volume e non di efficienza.

Continua a leggere