Tabla de Contenidos
신뢰 구간(CI)은 모집단 매개변수의 값을 추정하는 도구로 추론 통계에서 사용됩니다. 이들은 매개변수의 참값이 있을 것이라는 어느 정도의 확신을 가질 수 있는 유한한 너비의 값 간격을 나타내기 때문에 포인트 추정기보다 매개변수의 참값에 대한 더 많은 정보를 제공합니다. 후자는 포인트 추정기가 제공하지 않는 것입니다.
두 모집단에 대한 신뢰 구간
서로 다른 두 모집단을 비교하는 데 관심이 있을 때 우리는 종종 그 중 하나의 특정 매개변수가 다른 모집단의 해당 매개변수보다 큰지, 작은지 또는 같은지 아는 데 관심이 있습니다. 예를 들어 두 전기 모터의 성능을 비교할 때 모터 A의 토크가 모터 B의 토크보다 큰지 여부를 확인하는 데 관심이 있을 수 있습니다. 이 경우 두 모집단 평균을 비교합니다.
그러나 여러 번 우리는 매개변수의 평균값이 아니라 특정 조건을 충족하거나 충족하지 않는 모집단의 비율을 비교하는 데 관심이 있습니다. 이 경우 원하는 것은 신뢰 구간을 설정하여 두 모집단 비율 간의 차이 값을 추정하는 것입니다.
두 모집단 비율 P 1 -P 2 의 차이에 대한 추론
두 모집단 비율의 차이에 관심을 가질 수 있는 다양한 상황이 있습니다. 앞에서 언급했듯이 이 차이를 통해 두 개의 다른 모집단에서 동등한 비율을 비교할 수 있습니다. 두 모집단 비율 간의 차이에 대한 신뢰 구간을 설정해야 하는 연구 문제의 몇 가지 예는 다음과 같습니다.
- 새로운 의학적 치료의 임상 시험에서 치료를 받은 모집단에서 의학적 상태가 개선된 개인의 비율을 위약만을 받은 개인 그룹에서 동일한 비율과 비교하는 것이 특히 중요합니다.
- 특정 정부 조치에 동의하거나 동의하지 않는 여성과 남성의 비율을 비교하려는 경우.
- 비즈니스에서 우리는 종종 서로 다른 두 생산 라인에서 제조 공정의 품질을 비교하는 데 관심이 있습니다. 이 경우 일정 기간 동안 두 생산 라인에서 생산된 불량품 또는 부적합품의 비율을 비교할 수 있습니다.
- 미생물학 분야에서 우리는 다른 화학 소독제로 처리한 후 생존하는 박테리아 콜로니의 비율을 비교하는 데 관심이 있을 수 있습니다.
- 마케팅 담당자는 잠재 고객을 구매자로 전환하는 데 가장 효과적인 웹 페이지 콘텐츠를 결정하기 위해 종종 A/B 테스트를 수행합니다. 이를 위해 웹사이트에 접속한 절반의 사람들에게 콘텐츠(A)를 보여주고 나머지 절반에게는 대체 콘텐츠(B)를 보여줌으로써 제안된 제품이나 서비스를 실제로 구매한 방문자의 비율을 비교합니다. .
P 1 과 P 2 의 비교에서 차이 P 1 – P 2 까지
서로 다른 두 모집단의 비율을 비교하는 데 관심이 있을 수 있는 상황의 예는 더 많이 있습니다. 이 비교는 다른 방식으로 이루어질 수 있습니다. 예를 들어 다음과 같은 경우 알고 싶을 수 있습니다.
- 두 비율이 동일합니다(P 1 = P 2 ).
- 비율 1이 비율 2보다 큽니다(P 1 > P 2 ).
- 비율 1이 비율 2보다 작음(P 1 < P 2 )
이러한 경우에 이러한 진술은 비율 간의 차이로 다시 작성할 수 있습니다.
- P 1 = P 2 인지 확인하는 데 관심이 있는 경우 이는 P 1 – P 2 = 0 인지 결정하는 것과 동일합니다.
- P 1 > P 2 인지 확인하는 데 관심이 있는 경우 이는 P 1 – P 2 > 0 인지 결정하는 것과 동일합니다.
- P 1 < P 2 인지 확인하는 데 관심이 있는 경우 이는 P 1 – P 2 < 0 인지 결정하는 것과 동일합니다.
따라서 모집단 비율 간의 비교는 모집단 비율 간의 차이에 대한 신뢰 구간을 찾은 다음 결과에 대한 적절한 분석을 수행함으로써 해결할 수 있습니다.
그러나 이러한 신뢰 구간은 어떻게 설정됩니까?
이는 각 모집단의 샘플을 분석하고 추론 통계 도구를 사용하여 달성됩니다. 이 절차는 큰 샘플을 사용하는지 작은 샘플을 사용하는지에 따라 다릅니다.
큰 표본(n ≥ 30)에서 두 모집단 비율의 차이에 대한 신뢰 구간 추정
모집단 비율의 차이에 대한 신뢰 구간은 모집단의 이항 비율에 대한 신뢰 구간의 확장으로 풀 수 있습니다. 이항 비율의 경우(즉, 실험 또는 관찰의 결과가 성공 또는 실패이고 P는 성공 확률을 나타냄) 큰 표본의 비율 분포(p)는 평균이 있는 대략적인 정규 분포를 따릅니다 . 성공 확률이 너무 높거나 낮지 않은 한(즉, 각각 1 또는 0에 너무 가깝지 않은 한) P(모집단 비율) 및 분산 P(1 – P)/n .
두 모집단 비율 P 1 – P 2 사이의 차이가 있는 경우 비율이 p 1 및 p 2 인 두 개의 독립 표본에서 신뢰 구간의 한계를 설정할 수 있습니다 . 이러한 샘플이 위와 동일한 조건을 충족하고(샘플 n 1 과 n 2 가 크고 비율 p 1 과 p 2가 1과 0에서 멀리 떨어져 있음) 따라서 정규 분포를 따르는 경우 차이도 평균 P 1 – P 2 및 분산 p 1 (1 – p 1 )/n 1 + p 2(1 – p 2 )/n 2 .
이러한 결과가 주어지면 신뢰 수준이 100(1 – α)%인 큰 표본에서 얻은 두 모집단 비율의 차이에 대한 신뢰 구간(여기서 α는 유의 수준을 나타냄)은 다음과 같이 계산됩니다.
위 식에서 Z α/2는 오른쪽에 α/2의 면적을 남기는 표준정규분포의 Z값에 해당한다.
작은 표본의 두 모집단 비율 차이에 대한 신뢰 구간(n < 30)
표본 크기가 30 미만이거나 비율이 0 또는 1에 매우 가까우면 분포가 정규 분포에 적절하게 근접할 수 없습니다. 이 경우 두 비율의 차이도 정규 분포를 따르지 않으므로 위의 신뢰 구간 공식이 적용되지 않습니다.
작은 표본을 기반으로 한 모집단 비율의 차이에 대한 추론은 상당히 복잡하며 이 문서의 범위를 벗어납니다.
두 모집단 비율의 차이에 대한 신뢰 구간의 해석
두 모집단 비율의 차이에 대한 신뢰 구간을 계산한 후 얻은 결과를 해석해야 합니다. 다르게 해석되는 세 가지 결과가 주어질 수 있습니다.
100(1 – α)%의 신뢰 수준 또는 간단히 α의 유의 수준으로 신뢰 구간을 얻은 경우를 고려해 보겠습니다. 여기서 하한과 상한은 각각 LI와 LS입니다. 즉 말하자면:
얻은 한계의 부호에 따라 두 모집단 비율의 차이에 대해 서로 다른 결론에 도달할 수 있습니다.
- 하한과 상한이 모두 음수이면 신뢰 수준 100(1 – α)%로 모집단 2의 비율이 모집단 1의 해당 비율보다 크다고 말할 수 있습니다. 즉, 다음과 같이 말할 수 있습니다. P 1 < P 2 또는 P 2 > P 1 .
- 하한이 음수이고 상한이 양수이므로 신뢰 구간에 0이 있으면 신뢰 수준 100(1 – α)%에서 둘 사이에 차이가 없다고 말할 수 있습니다. . 즉, P 1 = P 2 로 결론지어진다 .
- 마지막으로 하한과 상한이 모두 양수이면 신뢰 수준 100(1 – α)%에서 모집단 1 비율이 해당 모집단 2 비율보다 크다고 말할 수 있습니다. 즉, 다음과 같은 결론을 내립니다. 피 1 > 피 2 .
두 모집단 비율에 대한 신뢰 구간 계산의 예
성명
250명의 멕시코 공대생을 대상으로 무작위 표본 조사를 실시하여 이들 중 신뢰 구간의 개념을 숙달한 비율을 알아냈다고 가정해 보겠습니다. 설문조사 결과 64.8%는 지배하지 않는 반면 나머지는 지배하는 것으로 나타났다. 한편 스페인 공대생 180명을 대상으로 동일한 설문조사를 실시한 결과 54명의 학생이 신뢰구간 개념을 숙지했다고 답했다.
신뢰 구간의 개념을 숙달한 스페인 학생과 멕시코 학생의 비율 간에 유의 수준 0.05에서 차이가 있습니까?
해결책
질문에서 알 수 있듯이, 우리가 원하는 것은 서로 다른 두 모집단의 비율 간에 차이가 있는지 여부를 확인하는 것입니다. 관심 비율은 신뢰 구간의 개념을 숙달한 학생의 비율로 구성되므로 이 경우 설문 조사에 긍정적으로 응답하는 것은 이항 실험의 관점에서 성공을 나타냅니다.
멕시코 학생 인구의 경우 표본은 250명이며 해당 과목을 마스터하지 못한 학생의 비율이 64.8%임을 나타냅니다. 그러나 이것은 우리가 원하는 비율이 아닙니다. 주제를 마스터하지 못하는 것은 실패이기 때문입니다. 따라서 이 비율은 보수 q 에 해당합니다 . 이를 고려할 때 멕시코 학생 표본의 성공 비율 p는 다음과 같습니다.
반면 스페인 학생 표본의 경우 성공 횟수와 표본의 전체 크기가 있으므로 성공 비율은 다음과 같습니다.
이러한 결과는 다음 표에 요약되어 있습니다.
멕시코 학생 | 스페인 학생 |
엔 MEX = 250 | nESP = 180 |
pMEX = 0.352 | 피 ESP = 0.300 |
보시다시피 두 샘플 크기는 모두 30개보다 훨씬 크므로 큰 샘플로 간주됩니다. 또한 멕시코 학생의 비율과 스페인 학생의 비율은 모두 0 또는 1에 상당히 가깝습니다. 마지막으로 진술에 명시되어 있지 않음에도 불구하고 두 표본이 서로 독립적이라고 가정할 수 있습니다.
이러한 조건에서 두 모집단의 표본 비율과 표본 비율의 차이는 모두 정규 분포를 따른다고 말할 수 있습니다. 따라서 이전 방정식을 사용하여 다음과 같은 신뢰 구간을 결정할 수 있습니다.
신뢰 구간을 설정하려면 주어진 유의 수준의 절반에 대한 Z 값이 필요합니다. 이 경우 α = 0.05입니다. 즉, Z α/2 = Z 0.05/2 = Z 0.025 를 찾아야 합니다 . 이 값은 모바일 통계 애플리케이션을 사용하거나 Windows용 Excel 또는 MacOS용 Numbers와 같은 스프레드시트를 사용하여 표준 정규 분포표에서 찾을 수 있습니다.
이 경우 Z 0.025 = 1.959964입니다. 따라서 신뢰 구간은 다음과 같습니다.
보시다시피 이렇게 계산된 신뢰 구간은 0을 포함하고 있기 때문에 신뢰 수준 95%에서 구간 개념을 마스터한 멕시코 학생과 스페인 학생의 비율 간에 유의미한 차이가 없다는 결론을 내렸습니다. .신뢰할 수 있습니다.
참조
Cetinkaya-Rundel, M. (2012년 3월 13일). 강의 14: 비율에 대한 크고 작은 표본 추론 . 듀크대학교 통계학과. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf
델 리오, AQ (2019년 9월 1일). 7.8 비율의 차이에 대한 신뢰 구간. | 달콤한 기본 통계 . 예약하세요. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html
Holmes, A., Illowsky, B., & Dean, S. (2017년 11월 29일). 10.4 두 개의 독립적인 인구 비율 비교 – 비즈니스 통계 입문 . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions
M. 아이스도 펠릭스 (2020년 5월 7일). RPubs – 두 인구 비율의 차이에 대한 신뢰 구간 . R펍. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional
통계학자. (일차). 비율의 차이에 대한 신뢰 구간입니다 . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proportiones/