Tabla de Contenidos
Gli intervalli di confidenza (CI) sono utilizzati nelle statistiche inferenziali come strumento per stimare il valore di un parametro della popolazione. Questi forniscono una maggiore quantità di informazioni sul vero valore di un parametro rispetto agli stimatori puntuali, in quanto rappresentano un intervallo di valori di ampiezza finita entro il quale abbiamo un certo grado di confidenza che si troverà il vero valore del parametro. Quest’ultimo è qualcosa che gli stimatori puntuali non forniscono.
Intervalli di confidenza per due popolazioni
Quando siamo interessati a confrontare due popolazioni diverse, spesso ci interessa sapere se un certo parametro di una di esse è maggiore, minore o uguale al corrispondente parametro dell’altra. Ad esempio, confrontando le prestazioni di due motori elettrici, potremmo essere interessati a determinare se la coppia del motore A è maggiore o meno di quella del motore B. In questo caso, stiamo confrontando due medie della popolazione.
Tuttavia, molte volte siamo interessati a confrontare non i valori medi di un parametro, ma la proporzione di una popolazione che soddisfa o meno una determinata condizione. In questo caso si vuole stabilire un intervallo di confidenza per stimare il valore della differenza tra due proporzioni di popolazione.
Inferenze sulla differenza di due proporzioni di popolazione P 1 -P 2
Ci sono molte situazioni diverse in cui potremmo essere interessati alla differenza tra due proporzioni di popolazione. Come accennato in precedenza, questa differenza ci consente di confrontare proporzioni equivalenti in due diverse popolazioni. Di seguito sono presentati alcuni esempi di problemi di ricerca che richiedono di stabilire un intervallo di confidenza per la differenza tra due proporzioni della popolazione :
- Negli studi clinici di un nuovo trattamento medico, è di particolare importanza confrontare la proporzione di individui che mostrano un miglioramento delle loro condizioni mediche nella popolazione che ha ricevuto il trattamento con la stessa proporzione nel gruppo di individui che hanno ricevuto solo il placebo.
- Quando vogliamo confrontare la proporzione di donne e uomini che sono d’accordo o in disaccordo con una certa misura del governo.
- Nel mondo degli affari, siamo spesso interessati a confrontare la qualità del processo produttivo in due diverse linee di produzione. In questo caso è possibile confrontare le proporzioni di articoli difettosi o non conformi prodotti da entrambe le linee di produzione in un dato periodo di tempo.
- Nel campo della microbiologia, potremmo essere interessati a confrontare la percentuale di colonie batteriche che sopravvivono dopo essere state trattate con diversi disinfettanti chimici.
- Gli esperti di marketing spesso eseguono test A/B per determinare quale contenuto di una pagina Web è più efficace nel convertire i potenziali clienti in acquirenti. Per fare ciò, a metà delle persone che accedono al sito vengono mostrati contenuti (A) e all’altra metà vengono mostrati contenuti alternativi (B) per poi confrontare le proporzioni di visitatori che hanno effettivamente acquistato il prodotto o servizio suggerito.
Dal confronto di P 1 e P 2 alla differenza P 1 – P 2
Ci sono molti altri esempi di situazioni in cui potremmo essere interessati a confrontare le proporzioni di due diverse popolazioni. Questo confronto può essere fatto in diversi modi. Ad esempio, potremmo voler sapere se:
- Entrambe le proporzioni sono uguali (P 1 = P 2 )
- La proporzione 1 è maggiore della proporzione 2 (P 1 > P 2 )
- La proporzione 1 è minore della proporzione 2 (P 1 < P 2 )
In ognuno di questi casi, queste affermazioni possono essere riscritte in termini di differenza tra le proporzioni:
- Se siamo interessati a scoprire se P 1 = P 2 , questo equivale a determinare se P 1 – P 2 = 0
- Se siamo interessati a scoprire se P 1 > P 2 , questo equivale a determinare se P 1 – P 2 > 0
- Se siamo interessati a scoprire se P 1 < P 2 , questo equivale a determinare se P 1 – P 2 < 0
Pertanto, qualsiasi confronto tra le proporzioni della popolazione può essere risolto trovando un intervallo di confidenza per la differenza tra le proporzioni della popolazione e quindi effettuando un’analisi appropriata del risultato.
Ma come vengono stabiliti questi intervalli di confidenza?
Ciò si ottiene analizzando campioni di ciascuna popolazione e utilizzando gli strumenti della statistica inferenziale. Questa procedura dipende dal fatto che stiamo lavorando con campioni grandi o piccoli.
Intervallo di confidenza Stima della differenza di due proporzioni di popolazione da grandi campioni (n ≥ 30)
L’intervallo di confidenza per la differenza nelle proporzioni della popolazione può essere risolto come un’estensione dell’intervallo di confidenza per una proporzione binomiale in una popolazione. Nel caso di proporzioni binomiali (cioè, il risultato dell’esperimento o dell’osservazione è un successo o un fallimento e P rappresenta la probabilità di successo), la distribuzione della proporzione in un grande campione ( p ) segue una distribuzione approssimativamente normale con media P (la proporzione della popolazione) e la varianza P(1 – P)/n , purché la probabilità di successo non sia né troppo alta né troppo bassa (ovvero, non troppo vicina a 1 o 0, rispettivamente).
Nel caso della differenza tra due proporzioni di popolazione, P 1 – P 2 , possiamo stabilire i limiti dell’intervallo di confidenza da due campioni indipendenti con proporzioni p 1 e p 2 . Se questi campioni soddisfano le stesse condizioni di cui sopra (campioni n 1 e n 2 grandi e proporzioni p 1 e p 2 lontane da 1 e 0) e quindi seguono distribuzioni normali, anche la differenza seguirà una distribuzione normale con media P 1 – P 2 e varianza p 1 (1 – p 1 )/n 1 + p 2(1 – p2 ) / n2 .
Dati questi risultati, un intervallo di confidenza per la differenza di due proporzioni di popolazione ottenute da grandi campioni, con un livello di confidenza del 100(1 – α)%, dove α rappresenta il livello di significatività, è dato da:
Nella formula sopra, Z α/2 corrisponde al valore di Z nella distribuzione normale standard che lascia un’area di α/2 alla sua destra.
Intervallo di confidenza per la differenza di due proporzioni di popolazione da piccoli campioni (n < 30)
Se la dimensione del campione è inferiore a 30 o se una delle proporzioni è molto vicina a 0 o 1, la distribuzione non può approssimare adeguatamente una distribuzione normale. In questo caso, anche la differenza delle due proporzioni non seguirà una distribuzione normale, motivo per cui la formula precedente per l’intervallo di confidenza non si applica.
L’inferenza sulla differenza nelle proporzioni della popolazione basata su piccoli campioni è considerevolmente complessa e va oltre lo scopo di questo articolo.
Interpretazione dell’intervallo di confidenza per la differenza di due proporzioni della popolazione
Dopo aver calcolato l’intervallo di confidenza per la differenza di due proporzioni della popolazione, il risultato ottenuto deve essere interpretato. Si possono dare tre risultati che vengono interpretati in modo diverso.
Consideriamo un qualsiasi caso in cui si ottenga un intervallo di confidenza con un livello di confidenza del 100(1 – α)% o, semplicemente, un livello di significatività di α, i cui limiti inferiore e superiore sono rispettivamente LI e LS. Vale a dire:
A seconda del segno dei limiti ottenuti, possiamo giungere a conclusioni diverse riguardo alla differenza tra le due proporzioni della popolazione:
- Se entrambi i limiti inferiore e superiore sono negativi, allora possiamo dire, con un livello di confidenza del 100(1 – α)%, che la proporzione nella popolazione 2 è maggiore della rispettiva proporzione nella popolazione 1. Cioè, possiamo dire che P 1 < P 2 o che P 2 > P 1 .
- Se il limite inferiore è negativo e il limite superiore è positivo, e quindi l’intervallo di confidenza contiene zero, allora possiamo dire, con un livello di confidenza del 100(1 – α)%, che non c’è differenza tra i due. . Cioè, si conclude che P 1 = P 2 .
- Infine, se entrambi i limiti inferiore e superiore sono positivi, allora possiamo dire, con un livello di confidenza del 100(1 – α)%, che la proporzione della popolazione 1 è maggiore della rispettiva proporzione della popolazione 2. Vale a dire, concludiamo che P1 > P2 . _
Esempio di calcolo dell’intervallo di confidenza per due proporzioni di popolazione
dichiarazione
Supponiamo che sia stato condotto un sondaggio su un campione casuale di 250 studenti di ingegneria messicani per scoprire quale percentuale di loro padroneggia il concetto di intervalli di confidenza. I risultati del sondaggio hanno mostrato che il 64,8% di loro non lo domina, mentre il resto lo fa. La stessa indagine è stata invece condotta su un campione di 180 studenti di ingegneria spagnoli, ai quali 54 studenti hanno risposto di aver padroneggiato il concetto di intervalli di confidenza.
C’è una differenza tra le proporzioni di studenti spagnoli e messicani che padroneggiano il concetto di intervalli di confidenza, a un livello di significatività di 0,05?
Soluzione
Come possiamo vedere dalla domanda, quello che vogliamo è determinare se c’è o meno una differenza tra le proporzioni di due diverse popolazioni. La proporzione di interesse consiste nella proporzione di studenti che padroneggiano il concetto di intervalli di confidenza, per cui, in questo caso, rispondere affermativamente al sondaggio rappresenta un successo dal punto di vista dell’esperimento binomiale.
Per la popolazione di studenti messicani, il campione era di 250 studenti e indicano che la percentuale di studenti che non padroneggiano la materia in questione è del 64,8%. Ma questa non è la proporzione che vogliamo, poiché non padroneggiare l’argomento è un fallimento. Pertanto, questa proporzione corrisponde al complemento q . In considerazione di ciò, la proporzione di successi, p, per il campione di studenti messicani è:
D’altra parte, nel caso del campione di studenti spagnoli, abbiamo il numero di successi e la dimensione totale del campione, quindi la proporzione di successi sarà:
Questi risultati sono riassunti nella tabella seguente.
studenti messicani | studenti spagnoli |
nMEX = 250 | nESP = 180 |
pMEX = 0,352 | p ESP = 0,300 |
Come possiamo vedere, entrambe le dimensioni del campione sono considerevolmente maggiori di 30, quindi sono considerate campioni di grandi dimensioni. Inoltre, né la proporzione per gli studenti messicani né quella per gli studenti spagnoli è molto vicina a 0 o 1. Infine, nonostante il fatto che l’affermazione non lo specifichi, possiamo presumere che entrambi i campioni siano indipendenti l’uno dall’altro.
In queste condizioni, possiamo dire che sia le proporzioni campionarie di entrambe le popolazioni che la differenza nelle proporzioni campionarie seguiranno una distribuzione normale. Pertanto, possiamo utilizzare l’equazione precedente per determinare l’intervallo di confidenza, che sarà:
Si noti che, per stabilire l’intervallo di confidenza, abbiamo bisogno del valore di Z per metà del dato livello di significatività, che in questo caso è α = 0.05. Cioè, dobbiamo trovare Z α/2 = Z 0.05/2 = Z 0.025 . Questo valore può essere trovato in una tabella di distribuzione normale standard, utilizzando un’applicazione di statistiche per dispositivi mobili o utilizzando un foglio di calcolo come Excel per Windows o Numbers per MacOS.
In questo caso, Z 0,025 = 1,959964. L’intervallo di confidenza sarà quindi:
Come possiamo vedere, l’intervallo di confidenza così calcolato contiene zero, motivo per cui si conclude, con un livello di confidenza del 95%, che non vi è alcuna differenza significativa tra le proporzioni di studenti messicani e spagnoli che padroneggiano il concetto di intervalli fidato.
Riferimenti
Cetinkaya-Rundel, M. (2012, 13 marzo). Lezione 14: Inferenza campionaria grande e piccola per proporzioni . Dipartimento di Scienze Statistiche presso la Duke University. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf
del Rio, AQ (2019, 1 settembre). 7.8 Intervallo di confidenza per la differenza di proporzioni. | Statistiche di base zuccherate . Prenota giù. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html
Holmes, A., Illowsky, B. e Dean, S. (2017, 29 novembre). 10.4 Confronto tra due proporzioni di popolazione indipendenti – Statistiche introduttive sulle imprese . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions
Icedo Félix, M. (7 maggio 2020). RPubs – Intervalli di confidenza per la differenza di due proporzioni della popolazione . RPub. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional
Statologi. (nd). Intervallo di confidenza per la differenza di proporzioni . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proporzioni/