Intervallo di confidenza – wikipedia electricity units of measurement

#

Se U {\displaystyle U} e V {\displaystyle V} sono variabili casuali con distribuzioni di probabilità che dipendono da qualche parametro θ , {\displaystyle \theta ,} e Pr ( U < θ < V ) ≤ β {\displaystyle \Pr(U<\theta

Ad esso si associa quindi un valore di probabilità cumulativa che caratterizza, indirettamente in termini di probabilità, la sua ampiezza rispetto ai valori massimi assumibili dalla variabile aleatoria misurando cioè la probabilità che l’evento casuale descritto dalla variabile aleatoria in oggetto cada all’interno di tale intervallo, graficamente pari all’area sottesa dalla curva di distribuzione di probabilità della variabile aleatoria nell’intervallo considerato.

È bene non confondere l’intervallo di confidenza con la probabilità. Data l’espressione "vi è un livello di confidenza del 95% che μ {\displaystyle \mu } sia nell’intervallo", nulla si può dire sulla probabilità che l’intervallo ottenuto contenga μ . {\displaystyle \mu .} [2]

Si ipotizzi di voler calcolare l’età media degli abitanti di un luogo. La popolazione non è nota del senso che non si conosce l’età (la variabile aleatoria) per ogni singolo abitante. Viene allora estratto un campione casuale di abitanti di cui è nota l’età, e dal campione si tenta di inferire ("predire") l’età media per tutta la popolazione residente e la variabilità di tale dato.

Se ad esempio il 40% del campione intervistato dichiara di aver votato (o di stare per votare) per un certo partito, si può inferire con un livello di confidenza al 99% che una percentuale compresa fra il 30 e il 50% della popolazione totale dei votati si sarà espressa a favore dello stesso partito; dal solito campione intervistato, con un intervallo di confidenza al 90% si può ipotizzare (inferire) che la percentuale dei voti favorevoli sia ora compresa fra il 37% e il 43%. Come si può vedere, lasciando invariati gli altri fattori, a un intervallo di valori possibili più piccolo, corrisponde anche un minore livello di copertura o di confidenza 1 − α . {\displaystyle 1-\alpha .}

La stima puntuale fornisce un valore singolo che varia a seconda del campione, e non coincide mai con il valore vero della popolazione. La stima intervallare fornisce un insieme di valori che ha una certa probabilità di contenere il valore vero della popolazione [3].

Sempre a partire da un campione, l’intervallo di confidenza definisce un insieme di valori (intervallo), i cui estremi contengono la media della popolazione con una probabilità approssimata a 1 − α {\displaystyle 1-\alpha } (livello di copertura dell’intervallo). Con α {\displaystyle \alpha } si indica invece la probabilità di errore, la probabilità che i dati campionati provengano da una popolazione con una media che si trova fuori dell’intervallo.

Se il valore di s {\displaystyle s} non differisce molto dalla variabilità σ {\displaystyle \sigma } della popolazione, può essere assunto come suo stimatore (ad esempio con un numero di soggetti osservati e replicazioni complessivamente maggiore di 60 dati; in alternativa si ipotizza una distribuzione t di Student caratterizzata da una maggiore dispersione rispetto alla normale standard) [5]. In questa prima ipotesi, l’intervallo di confidenza per la media μ ( vera media, della popolazione [3]) al 99% (al livello 1 − α {\displaystyle 1-\alpha } ), è dato da:

Prima della diffusione dei computer si cercava di utilizzare l’approssimazione normale ogni qualvolta possibile. Adesso non è più strettamente necessario, e nella formula possono essere utilizzati percentili di altre distribuzioni, facendo rifierimento a campioni di dimensione più ridotta) [5].

Qualora la popolazione non segue il modello gaussiano, se il campione è grande a sufficienza, la variabile campionaria tende a seguire comunque una legge normale ( teorema centrale del limite). In altre parole, le due formule precedenti per l’intervallo di confidenza si possono usare anche nel caso in cui non è nota la sua legge di probabilità.

• un intervallo di confidenza al 95% non significa che esiste una probabilità del 95% che il parametro della popolazione (es. la percentuale di voti per un partito in tutta Italia) sia compreso nei due estremi dell’intervallo. L’intervallo può "contenere" il valore del parametro, oppure no. Non è una questione di probabilità. Il 95% di confidenza è riferito all’attendibilità del metodo di stima, ma non del particolare intervallo calcolato [11]. Per quanto riguarda la bontà del metodo di stima si possono valutare, quando pertinenti: numerosità e rappresentatività del campione, casualizzazione della modalità di campionamento, controllo preventivo delle ipotesi di indipendenza e di identica distribuzione, assenza di autocorrelazione fra i dati osservati, eliminazione eventuale di unità fuori tolleranza.

L’intervallo di confidenza (o di fiducia) non sarà che un parametro θ {\displaystyle \theta } che si ottiene determinando anzitutto un test (con livello di significatività 1 − β {\displaystyle 1-\beta } ) per saggiare l’ipotesi θ {\displaystyle \theta } = θ 0 {\displaystyle \theta _{0}} contro l’ipotesi θ ≠ θ 0 {\displaystyle \theta \neq \theta _{0}} . L’insieme di tutti i valori θ 0 {\displaystyle \theta _{0}} per cui si accetterebbe l’ipotesi nulla costituisce un intervallo di confidenza di livello β {\displaystyle \beta }