정규분포 가정이 어려운 데이터(명목/서열 척도 등)를 다루는 비모수 통계(Non-parametric statistics)의 일종으로, 빈도(Frequency)를 기반으로 하는 카이제곱() 검정 기법들을 다루고 있다.

개요: 모수 분석 vs 비모수 분석

  • 모수 분석(Parametric)

    • 모집단이 정규분포 등 특정 확률분포를 따른다고 가정하고 평균() 등의 모수를 추론
    • (예: t-test, ANOVA)
  • 비모수 분석(Non-parametric)

    • 모집단의 분포를 알기 어렵거나(분포무관), 표본이 작거나, 데이터가 명목/서열 척도일 때 사용
    • 특징: 평균 대신 중앙값(median)이나 빈도(frequency), 순위(rank)를 사용
    • 범주형 자료 검정: 데이터 값 자체가 아니라 각 범주에 나타나는 빈도(관측도수)와 이론적으로 기대되는 빈도(기대도수)의 차이를 이용해 검정

1. 적합도 검정 (Goodness of Fit Test)

1) 개념

  • 관측된 데이터(표본)가 특정 이론적 분포나 기대하는 비율을 따르는지 검정하는 방법이다.
  • 단일 표본을 여러 범주로 분류했을 때, 각 범주의 관측 비율이 기대 비율과 일치하는지 확인한다.

2) 가설 설정

  • 귀무가설(): 관측값의 분포는 이론적 분포(특정 비율)와 동일하다. ()
  • 대립가설(): 적어도 하나의 범주에서 이론적 분포와 다르다. (가 아니다)

3) 검정 통계량 ()

  • 각 범주의 관측도수(, )와 기대도수(, )의 차이를 이용한다.
  • 여기서 는 범주의 수이다.
  • 자유도() = 인 카이제곱 분포를 따른다.

4) 의사결정

  • 검정통계량 값이 임계치()보다 크면 귀무가설을 기각한다.
  • (즉, 관측 분포가 기대 분포와 다르다고 판단)

5) 예시

  • 특정 시간대 TV 방송사(A, B, C)의 시청률이 알려진 비율(3:4:3)과 일치하는지 검정
  • 자동차 색상 선호도가 모두 동일한지(1/4씩) 검정

예제 9-1. 방송사별 시청자 수 적합도 검정

1. 문제 개요

  • 상황: 방송사 A, B, C의 기존 알려진 시청률은 각각 30%, 40%, 30%이다. 실제 조사한 1,000명의 데이터가 이 비율과 일치하는지 검정한다.

2. 가설 설정

  • 이 아니다.

  • 관측도수 (총 )

    • A: 310명
    • B: 420명
    • C: 270명

3. 기대도수() 계산 귀무가설이 참일 때 기대되는 시청자 수이다.

4. 검정 통계량() 계산

(참고: 강의자료 Slide 17에는 결과값이 2.667로 기재되어 있으나, 수식에 대입하여 직접 계산하면 약 4.333이 나온다. 결론을 내리는 데에는 영향이 없으므로 계산된 값으로 진행한다.)

5. 기각역 비교 및 결론

  • 유의수준:
  • 자유도(): 범주 수(3) - 1 = 2
  • 임계치: (강의자료에는 5.911로 표기됨)
  • 결론: 검정 통계량()이 임계치()보다 작으므로 귀무가설()을 기각할 수 없다.
  • 해석: 조사된 시청자 수는 기존에 알려진 시청률(30:40:30)과 통계적으로 차이가 있다고 할 수 없다.

예제 9-2. 자동차 색 선호도 적합도 검정

1. 문제 개요

  • 상황: 4가지 자동차 색(흰색, 검정색, 은색, 금색)에 대한 선호도가 모두 똑같은지(균일한지) 검정한다.

2. 가설 설정

  • 이 아니다.

  • 관측도수 (총 )

    • 흰색: 70
    • 검정색: 30
    • 은색: 40
    • 금색: 60

3. 기대도수() 계산 모두 인기가 같다면 200명을 4로 나눈 값이 기대도수가 된다.

  • 모든 색상의 기대도수

4. 검정 통계량() 계산

5. 기각역 비교 및 결론

  • 유의수준:
  • 자유도(): 범주 수(4) - 1 = 3
  • 임계치:
  • 결론: 검정 통계량()이 임계치()보다 크므로 귀무가설()을 기각한다.
  • 해석: 자동차 색에 따른 인기도에는 통계적으로 유의미한 차이가 있다.

예제 9-3. 요일별 자동차 접촉 사고 적합도 검정

1. 문제 개요

  • 상황: 요일별(월~일) 자동차 접촉 사고 횟수가 요일과 무관한지(모든 요일에 동일하게 발생하는지) 검정합니다.
  • 데이터 (총 ):
    • 월: 22, 화: 33, 수: 25, 목: 25, 금: 37, 토: 35, 일: 33

2. 가설 설정

  • 이 아니다.

3. 기대도수() 계산 전체 210건이 7일 동안 균등하게 발생한다고 가정합니다.

  • 모든 요일의 기대도수

4. 검정 통계량() 계산

  • :
  • :
  • :
  • :
  • :
  • :
  • :

(분수로 정확히 계산하면 입니다.)

5. 기각역 비교 및 결론

  • 유의수준:
  • 자유도(): 범주 수(7) - 1 = 6
  • 임계치:
  • 결론: 검정 통계량()이 임계치()보다 작으므로 귀무가설()을 기각할 수 없다.
  • 해석: 요일에 따른 자동차 접촉 사고 횟수는 통계적으로 유의미한 차이가 있다고 볼 수 없다.

2. 동질성 검정 (Test of Homogeneity)

1) 개념

  • 서로 다른 두 개 이상의 모집단(부모집단)에서, 특정 속성(범주)의 분포가 서로 동일한지를 검정하는 방법이다.
  • 미리 정해진 표본 크기(Row Total 고정)를 가진 여러 그룹(예: 남/여, 공장 A/B/C) 간의 차이를 비교한다.

2) 가설 설정

  • 귀무가설(): 모든 모집단에서 각 범주에 속하는 비율이 동일하다. ()
  • 대립가설(): 모집단 간의 비율 분포가 동일하지 않다.

3) 검정 과정

  • 데이터는 분할표(Contingency Table)로 정리된다.
  • 기대도수() 계산:
  • 검정 통계량: 적합도 검정과 동일한 공식을 사용한다.
  • 자유도() =

4) 예시

  • 백신 A 그룹과 백신 B 그룹(두 모집단) 간의 항체 형성 비율이 같은지 검정
  • 공장 A, B, C(세 모집단)에서 생산된 제품의 만족도(만족/보통/불만족) 분포가 같은지 검정

3. 독립성 검정 (Test of Independence)

1) 개념

  • 하나의 모집단에서 추출된 표본을 두 가지 속성(변수)에 따라 분류했을 때, 두 속성(변수)이 서로 독립인지(관련이 없는지)를 검정하는 방법이다.
  • 전체 표본 크기()만 고정되어 있고, 각 그룹의 크기는 무작위로 결정된다.

2) 가설 설정

  • 귀무가설(): 두 변수(속성 A와 B)는 서로 독립이다. (관련성이 없다, )
  • 대립가설(): 두 변수는 서로 독립이 아니다. (관련성이 있다)

3) 검정 과정

  • 동질성 검정과 마찬가지로 분할표를 사용한다.
  • 기대도수() 계산식과 검정 통계량() 공식, 자유도 계산법은 동질성 검정과 수학적으로 완전히 동일하다.
    • 기대도수:
    • 자유도() =

4) 차이점 (동질성 검정 vs 독립성 검정)

  • 계산 과정은 동일하지만, 데이터 수집 방법(Sampling)과 해석의 관점이 다르다.
    • 동질성 검정: 각 집단의 표본 크기()가 미리 고정됨 그룹 간 분포가 같은가?
    • 독립성 검정: 전체 표본()만 고정되고 각 셀의 빈도는 랜덤 두 변수 사이에 연관성이 있는가?

5) 예시

  • 성별(남/여)과 카페 유형 선호도(대형/드라이브스루/개인) 사이에 관련이 있는지 검정
  • 연령대(20대~60대)와 선호하는 TV 프로그램 장르가 독립적인지 검정