Il fattore di menzogna della visualizzazione

Recentemente ho scorso il rapporto Giarda sulla spesa pubblica (Elementi per una revisione della spesa pubblica), che contiene molti dati interessanti. Perciò ne consiglio la lettura a tutti.

Qui però vorrei soffermarmi su un particolare che ha attirato la mia attenzione: si tratta del grafico a barre che si trova a pagina 31 (Grafico 3) che riporto qui sotto. Il grafico rappresenta il rapporto tra studenti e docenti nella scuola, in diverse regioni.

Purtroppo questo grafico è sbagliato ed ingannevole ed è esemplificativo della scarsa cura nella visualizzazione dei dati che corrisponde ad una scarsa cultura di chi ne usufruisce.

Grafico3RapportoGiarda

Il problema

In estrema sintesi le rappresentazioni grafiche codificano un valore quantitativo tramite un attributo grafico, nel caso dei diagrammi a barre verticali l’attributo è l’altezza della barra. La comprensione del grafico viene fatta, anche con l’aiuto di un asse (in questo caso assente) e di altri aiuti, quali le etichette con i valori.

Se la corrispondenza tra un valore quantitativo e la grandezza dell’attributo è sostanzialmente arbitraria (un’unità dei dati può corrispondere a 1 cm, 13.7 mm o qualunque cosa) è necessario che sia uniforme e che siano rispettate graficamente quelle che sono le proporzioni tra i valori quantitativi che si voglio rappresentare. Se questa caratteristica non è rispettata si introduce quello che Tufte definisce “fattore di menzogna” (Lie Factor).

Questo è proprio quello che avviene nel grafico: se prendiamo la prima e l’ultima barra queste rappresentano i valori 11.2 e 13.4 ed hanno lunghezza (stampando il grafico su un foglio A4) rispettivamente 4.12 cm e 11.44 cm. Il rapporto tra i dati rappresentati è 13.4/11.2 = 1.2, mentre il rapporto tra gli attributi grafici è 11.4/4.12 = 2.8.

I fattore di menzogna è pari a 2.3. Ovvero il grafico pubblicato nel rapporto esagera di oltre due volte il rapporto tra i valori rappresentati.

Un altro aspetto “peculiare” del grafico è che la linea rossa che rappresenta la media è disegnata al livello 12.5. Tuttavia se si calcola la media dei 18 valori riportati sopra le barre il risultato è 12.3. Quindi le quattro barre immediatamente sotto la barra rossa, calcolando la media per regione non risulterebbero sotto, ma bensì sopra la media!

Una rappresentazione corretta

Una rappresentazione grafica corretta dei dati è la seguente:

Grafico3Redesign

In questo grafico le barre partono da zero e i rapporti tra i dati sono preservati dalle grandezze grafiche. Inoltre viene riportato l’asse verticale che permette di verificare la correttezza della rappresentazione.

Il confronto tra i due grafici, anche solo visivo permette di apprezzare immediatamente la differenza.

Cause

Qual’è la causa di questa menzogna? Semplicemente il fatto che le barre non partono da 0 (zero) come dovrebbe essere ma bensì da 10. Questo fatto sarebbe evidente se nel grafico fosse riportato l’asse verticale ma purtroppo questo è colpevolmente assente.

L’origine dell’errore è probabilmente il funzionamento errato di Excel: infatti se provate ad inserire i dati in un foglio elettronico e a far generare un grafico a colonne, purtroppo automaticamente Excel propone un grafico, con un asse verticale che varia da 10 a 14, che è perfettamente sovrapponibile con quello riportato nel rapporto.

Tuttavia il grafico generato automaticamente da Excel, pur essendo affetto da un fattore di menzogna pari a 2.3, riporta l’asse verticale dal quale è possibile accorgersi dell’anomalia, mentre il grafico riportato nel rapporto è “colpevolmente” privo di questo asse. Dico colpevolmente perché evidentemente è stato rimosso.

Resta la media riportata sul grafico (12.5), differente dalla media calcolabile dai dati (12.3): è probabile che si tratti di una media pesata, ovvero che la media non sia calcolata sulle regioni ma sulle singole scuole o plessi. Resta il fatto che un differenza di 0.2 su una serie di dati che hanno una deviazione standard di 0.6 è molto significativa e dovrebbe essere spiegata.

Le mie conclusioni

Questo caso conferma la mia convinzione che ci sia una scarsa cultura della visualizzazione dei dati.

Dal lato di chi li produce che non ha chiaro quali siano i principi di base di una visualizzazione corretta e che si affida a degli strumenti che tali principi violano automaticamente.

Dal lato di chi li legge che dovrebbe rifiutare e segnalare errori di questo tipo esattamente come una frase sgrammaticata o un una frase priva di senso compiuto.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...