venerdì 9 dicembre 2011

Sigma

In attesa del seminario del 13 dicembre, che dovrebbe dirci qualcosa di più sul bosone di Higgs, eminenti fisici ci hanno spiegato come interpretare i risultati. Sia Amedeo Balbi che Peppe Liberti hanno parlato di significatività statistica, e Marco Delmastro ha promesso che cercherà di commentare in diretta i risultati (connessione permettendo).

Il numerino da controllare, quando arriverà la comunicazione ufficiale, sarà il famoso (per chi ha letto gli articoli linkati qua sopra) numero di sigma. Dice la teoria che il valore vero ha circa il 68% di probabilità di essere compreso  in un intervallo di più o meno un sigma attorno alla media dei dati. La domanda è: perché proprio il 68%? Da dove salta fuori questo numero?

Tutto nasce dai cosiddetti teoremi del limite centrale: essi dicono che la somma di un grande numero di variabili casuali ha una distribuzione ben nota, detta appunto normale, o standard. Questo significa, in pratica, che le misure effettuate potranno essere affette da errori accidentali, ma tutti questi errori riescono, in un certo senso, a compensarsi un po'.

Facciamo un esempio: il lancio di un dado.

Il risultato ottenuto lanciando un dado (a 6 facce) è una variabile casuale: se il dado non è truccato io non posso prevedere quale numero uscirà. Ma se lo lancio tante volte, so che le sue facce si presenteranno tutte con una probabilità pari a 1/6. Questo in teoria, perché il dado non ha memoria dei lanci precedenti e, quindi, non rispetterà alla lettera questa regola.

Se io lancio molte volte un dado, e faccio il rapporto tra il numero di volte in cui è uscito un certo numero (diciamo il numero 1) e il numero di lanci totali, mi aspetto che all'aumentare del numero dei lanci questo rapporto si avvicini al valore teorico di 1/6. Più lanci faccio, migliore sarà questa approssimazione.

Ecco un primo esperimento: un dado viene lanciato 1000 volte, e viene calcolato il rapporto tra numero di volte in cui è uscito 1 e numero di lanci totali (cioè 1000). Questa prova è stata ripetuta per mille volte (l'ha fatto il computer, eh), e i mille risultati sono stati rappresentati su questo grafico:


Come si può vedere, i valori si accumulano intorno al valore teorico di 1/6, cioè 1.(6). L'istogramma sembra avere una forma abbastanza regolare, ma siamo ancora molto lontani dalla curva teorica.

In questo secondo esperimento il dado viene lanciato 10000 volte. Ancora una volta la prova è stata ripetuta per mille volte, ed ecco il nuovo grafico:

I dati sono distribuiti in un intervallo più stretto, e la forma appare più regolare.

Un ultimo esperimento: 20000 lanci, e ancora mille ripetizioni. Ecco il grafico:


Leggermente più stretto del precedente, e ancora più regolare.

Ecco un altro grafico in cui i tre precedenti sono rappresentati contemporaneamente, per poterne apprezzare le differenze:



La teoria ci dice che la curva a cui questi istogrammi cercano di assomigliare, detta curva gaussiana, ha la seguente forma base: = e-x2. Ed ecco il suo grafico:


Il valore di sigma ha un significato geometrico: è l'ascissa del punto di flesso di destra (mentre sigma cambiato di segno è naturalmente l'ascissa del punto di flesso di sinistra). Dunque un valore compreso in un intervallo di ampiezza sigma attorno al valore medio si trova nella zona evidenziata da questo grafico:


Conoscere la probabilità di essere nella zona delimitata dalle due rette rosse significa conoscere il rapporto tra l'area della curva compresa nella suddetta zona e l'area totale. Questo non è un numero facile da calcolare, perché per calcolare le aree ci servirebbero gli integrali, ma l'integrale della gaussiana è difficilmente trattabile. Riusciamo a calcolare in maniera esatta soltanto l'area compresa sotto tutta la curva (che, in teoria, si estende all'infinito sia a destra che a sinistra), ma non riusciamo a calcolare l'area di una sua generica parte.

E allora ci affidiamo al computer, che ci dice che l'area che stiamo cercando è il 68.3%. Se allarghiamo la zona rossa, andando da -2σ a +2σ, otteniamo un'area pari a circa il 95.5% del totale. Con 3σ siamo al 99.7%. Ed ecco fatto.

Dimenticavo un'ultima cosa: l'area totale compresa dalla gaussiana e l'asse delle ascisse è uguale alla radice quadrata di pi greco, questo per confermare la prezzemolosità del nostro amico π.

[Edit: Marco Delmastro ha iniziato a parlare di statistica, e lo fa lanciando dei dadi. Dategli un'occhiata…]

1 commento:

Nyko ha detto...
Questo commento è stato eliminato da un amministratore del blog.