요약

구분일원분산분석이원분산분석 (반복 X)이원분산분석 (반복 O)
요인(변수) 수1개2개2개
데이터 수그룹별 다수조합별 1개조합별 2개 이상
분석 목적집단 간 평균 차이 확인두 요인의 개별 효과 확인두 요인의 효과 + 상호작용 확인
핵심 포인트집단 간 분산 vs 집단 내 분산교호작용 분석 불가교호작용 분석 필수

0. 들어가기 전: 분산분석(ANOVA)의 핵심 원리

분산분석은 이름은 분산분석이지만, 실제 목적은 평균의 차이를 비교하는 것이다.

  • 원리

    • 전체 데이터의 변동(분산)을 집단 간의 차이(Signal)와 집단 내의 오차(Noise)로 쪼개서 비교한다.
  • 판단 기준 (F값): (집단 간 차이) ÷ (집단 내 오차)

    • 이 비율(F값)이 클수록 오차에 비해 집단 간의 차이가 뚜렷하다는 뜻이므로,
    • 집단 간 평균이 다르다고 결론 내린다.

1. 일원분산분석 (One-way ANOVA)

하나의 요인(변수)에 의해 세 개 이상의 집단이 나뉠 때 사용하는 가장 기본적인 분석법이다.

  • 상황 예시

    • 교육 프로그램(요인) A, B, C 세 가지에 따른 학생들의 성적 차이 비교
  • 가설 설정

    • 귀무가설(): 모든 집단의 평균은 같다. ()
    • 대립가설(): 적어도 한 집단의 평균은 다르다.
  • 분산의 분해

    • 총 변동(SST) = 처리(집단 간) 변동(SSTr) + 오차(집단 내) 변동(SSE)
  • 판단 방법

    • 검정통계량 를 계산한다.
    • 계산된 F값이 임계치보다 크거나, 유의확률(p-value)이 0.05보다 작으면 집단 간 평균 차이가 있다고 판단한다.
  • 참고

    • 만약 평균 차이가 있다고 나오면, 구체적으로 ‘어떤’ 집단끼리 다른지 알기 위해 다중비교(Post-hoc)를 추가로 수행해야 한다.

2. 이원분산분석 (Two-way ANOVA)

결과에 영향을 미치는 요인(변수)이 두 개일 때 사용한다. 두 요인이 결과값에 미치는 영향을 동시에 분석한다.

2.1. 반복이 없는 이원분산분석

각 실험 조건(요인 A의 수준 × 요인 B의 수준)마다 데이터를 하나씩만 측정한 경우이다.

  • 특징

    • 데이터가 각 셀(Cell)마다 1개뿐이라서, 두 요인이 서로 영향을 주고받는 교호작용(상호작용)을 파악할 수 없다. 단순히 각 요인의 주효과만 본다.
  • 상황 예시

    • 편의점 매출을 분석하는데,
    • 요일(요인 A)과 위치(요인 B)에 따른 매출 차이를 볼 때,
    • 각 조건별로 데이터를 1번씩만 수집한 경우
  • 분산의 분해

    • 총 변동 = 요인 A 변동 + 요인 B 변동 + 오차 변동
  • 검정 결과

    1. 요인 A에 따른 차이가 있는가?
    2. 요인 B에 따른 차이가 있는가?
    • 위 두 가지 질문에 대해 각각 F검정을 수행한다.

2.2. 반복이 있는 이원분산분석

각 실험 조건마다 데이터를 두 번 이상(복수) 측정한 경우이다. 통계적으로 더 풍부한 정보를 준다.

  • 핵심 특징: 교호작용(Interaction) 확인 가능

    • 교호작용이란? 한 요인의 효과가 다른 요인의 수준에 따라 달라지는 현상이다.
    • 예: 온도와 습도가 불량률에 미치는 영향에서, 온도가 높을 때 습도의 영향력이 급격히 커진다면 두 요인 간 상호작용이 있는 것이다.
  • 그래프 해석

    • 두 요인의 그래프가 서로 평행하면 상호작용이 없음
    • 두 요인의 그래프가 서로 교차(X자 형태)하거나 기울기가 다르면 상호작용이 있음
  • 분산의 분해

    • 총 변동 = 요인 A 변동 + 요인 B 변동 + 상호작용(A×B) 변동 + 오차 변동
  • 검정 결과 (3가지 확인)

    1. 요인 A의 효과가 있는가? (주효과)
    2. 요인 B의 효과가 있는가? (주효과)
    3. 요인 A와 B의 상호작용 효과가 있는가?

3. 예제 풀이

  • 풀이: 가설 설정 분산분석표(ANOVA Table) 작성 기각 여부 판단

3.1. 일원분산분석 예제 (8-1)

문제: 6대의 기계(수준 )에서 각각 제품을 4개씩() 뽑아 인장 강도를 측정했을 때, 기계별로 강도 차이가 있는가? (유의수준 5%)

  • 1단계: 가설 설정

    • (귀무가설): 모든 기계의 평균 인장 강도는 같다. ()
    • (대립가설): 적어도 하나의 기계는 평균이 다르다.
  • 2단계: 분산분석표 작성 및 통계량 계산

    1. 제곱합(SS) 계산
      • 전체 변동(SST)을 구하고, 이를 처리(기계 간) 변동(SSTr)과 오차(기계 내) 변동(SSE)으로 나눈다.
    2. 자유도(df) 계산
      • 처리 자유도:
      • 오차 자유도:
    3. 평균제곱(MS) 계산
    4. 검정통계량() 계산
  • 3단계: 기각 여부 판단

    • 기준: 임계값
    • 결과: 가 임계값()보다 작다. (또한 P-value가 0.9024로 0.05보다 큼)
    • 결론: 귀무가설을 채택(기각 실패). 기계 간의 인장 강도 차이는 없다고 할 수 있다.

3.2. 반복이 없는 이원분산분석 예제 (8-3)

문제: 작업시간대(요인 A)와 작업자(요인 B)에 따른 생산량 차이를 검정하라. (데이터 반복 없음)

  • 1단계: 가설 설정

    • : 작업시간대에 따른 차이가 없다.
    • : 작업자에 따른 차이가 없다.
  • 2단계: 분산분석표 작성

    1. 변동 분해: 전체 변동(SST) = 시간대 변동(SSA) + 작업자 변동(SSB) + 오차 변동(SSE)
    2. 검정통계량(F) 계산
      • 시간대(A)에 대한 값:
      • 작업자(B)에 대한 값:
  • 3단계: 기각 여부 판단

    • 시간대(A): 값(15) > 임계값(3.86) 기각 (시간대에 따라 생산량 차이 있음)
    • 작업자(B): 값(6.667) > 임계값(3.86) 기각 (작업자에 따라 생산량 차이 있음)
    • 결론: 작업시간대와 작업자 모두 생산량에 유의한 영향을 미친다.

3.3. 반복이 있는 이원분산분석 예제 (8-6)

문제: 작업시간대(요인 A, 4수준)와 작업자(요인 B, 4수준)에 대해 3회씩 반복 실험하여 분석하라.

  • 1단계: 가설 설정 (3가지)

    1. : 시간대별 차이가 없다. (주효과 A)
    2. : 작업자별 차이가 없다. (주효과 B)
    3. : 시간대와 작업자 간의 상호작용 효과가 없다.
  • 2단계: 분산분석표 작성

    • 반복이 있으므로 변동을 4가지로 분해한다:
    • 각각에 대한 평균제곱(MS)을 구하고, 오차항(MSE)으로 나누어 3개의 F값을 산출한다.
      • (시간대)
      • (작업자)
      • (상호작용)
  • 3단계: 기각 여부 판단

    • 유의확률(P-value)을 확인했더니 모두 으로 나타남
    • 결론: 유의수준 0.05보다 훨씬 작으므로 3개의 귀무가설을 모두 기각
      1. 작업 시간대에 따라 생산량 차이가 있다.
      2. 작업자에 따라 생산량 차이가 있다.
      3. 작업 시간대와 작업자 간에는 상호작용 효과가 존재한다. (즉, 특정 작업자가 특정 시간대에 더 잘하거나 못하는 등의 시너지/방해 효과가 있다.)