요약
| 구분 | 일원분산분석 | 이원분산분석 (반복 X) | 이원분산분석 (반복 O) |
|---|---|---|---|
| 요인(변수) 수 | 1개 | 2개 | 2개 |
| 데이터 수 | 그룹별 다수 | 조합별 1개 | 조합별 2개 이상 |
| 분석 목적 | 집단 간 평균 차이 확인 | 두 요인의 개별 효과 확인 | 두 요인의 효과 + 상호작용 확인 |
| 핵심 포인트 | 집단 간 분산 vs 집단 내 분산 | 교호작용 분석 불가 | 교호작용 분석 필수 |
0. 들어가기 전: 분산분석(ANOVA)의 핵심 원리
분산분석은 이름은 분산분석이지만, 실제 목적은 평균의 차이를 비교하는 것이다.
-
원리
- 전체 데이터의 변동(분산)을 집단 간의 차이(Signal)와 집단 내의 오차(Noise)로 쪼개서 비교한다.
-
판단 기준 (F값): (집단 간 차이) ÷ (집단 내 오차)
- 이 비율(F값)이 클수록 오차에 비해 집단 간의 차이가 뚜렷하다는 뜻이므로,
- 집단 간 평균이 다르다고 결론 내린다.
1. 일원분산분석 (One-way ANOVA)
하나의 요인(변수)에 의해 세 개 이상의 집단이 나뉠 때 사용하는 가장 기본적인 분석법이다.
-
상황 예시
- 교육 프로그램(요인) A, B, C 세 가지에 따른 학생들의 성적 차이 비교
-
가설 설정
- 귀무가설(): 모든 집단의 평균은 같다. ()
- 대립가설(): 적어도 한 집단의 평균은 다르다.
-
분산의 분해
- 총 변동(SST) = 처리(집단 간) 변동(SSTr) + 오차(집단 내) 변동(SSE)
-
판단 방법
- 검정통계량 를 계산한다.
- 계산된 F값이 임계치보다 크거나, 유의확률(p-value)이 0.05보다 작으면 집단 간 평균 차이가 있다고 판단한다.
-
참고
- 만약 평균 차이가 있다고 나오면, 구체적으로 ‘어떤’ 집단끼리 다른지 알기 위해 다중비교(Post-hoc)를 추가로 수행해야 한다.
2. 이원분산분석 (Two-way ANOVA)
결과에 영향을 미치는 요인(변수)이 두 개일 때 사용한다. 두 요인이 결과값에 미치는 영향을 동시에 분석한다.
2.1. 반복이 없는 이원분산분석
각 실험 조건(요인 A의 수준 × 요인 B의 수준)마다 데이터를 하나씩만 측정한 경우이다.
-
특징
- 데이터가 각 셀(Cell)마다 1개뿐이라서, 두 요인이 서로 영향을 주고받는 교호작용(상호작용)을 파악할 수 없다. 단순히 각 요인의 주효과만 본다.
-
상황 예시
- 편의점 매출을 분석하는데,
- 요일(요인 A)과 위치(요인 B)에 따른 매출 차이를 볼 때,
- 각 조건별로 데이터를 1번씩만 수집한 경우
-
분산의 분해
- 총 변동 = 요인 A 변동 + 요인 B 변동 + 오차 변동
-
검정 결과
- 요인 A에 따른 차이가 있는가?
- 요인 B에 따른 차이가 있는가?
- 위 두 가지 질문에 대해 각각 F검정을 수행한다.
2.2. 반복이 있는 이원분산분석
각 실험 조건마다 데이터를 두 번 이상(복수) 측정한 경우이다. 통계적으로 더 풍부한 정보를 준다.
-
핵심 특징: 교호작용(Interaction) 확인 가능
- 교호작용이란? 한 요인의 효과가 다른 요인의 수준에 따라 달라지는 현상이다.
- 예: 온도와 습도가 불량률에 미치는 영향에서, 온도가 높을 때 습도의 영향력이 급격히 커진다면 두 요인 간 상호작용이 있는 것이다.
-
그래프 해석
- 두 요인의 그래프가 서로 평행하면 상호작용이 없음
- 두 요인의 그래프가 서로 교차(X자 형태)하거나 기울기가 다르면 상호작용이 있음
-
분산의 분해
- 총 변동 = 요인 A 변동 + 요인 B 변동 + 상호작용(A×B) 변동 + 오차 변동
-
검정 결과 (3가지 확인)
- 요인 A의 효과가 있는가? (주효과)
- 요인 B의 효과가 있는가? (주효과)
- 요인 A와 B의 상호작용 효과가 있는가?
3. 예제 풀이
- 풀이: 가설 설정 분산분석표(ANOVA Table) 작성 기각 여부 판단
3.1. 일원분산분석 예제 (8-1)
문제: 6대의 기계(수준 )에서 각각 제품을 4개씩() 뽑아 인장 강도를 측정했을 때, 기계별로 강도 차이가 있는가? (유의수준 5%)
-
1단계: 가설 설정
- (귀무가설): 모든 기계의 평균 인장 강도는 같다. ()
- (대립가설): 적어도 하나의 기계는 평균이 다르다.
-
2단계: 분산분석표 작성 및 통계량 계산
- 제곱합(SS) 계산
- 전체 변동(SST)을 구하고, 이를 처리(기계 간) 변동(SSTr)과 오차(기계 내) 변동(SSE)으로 나눈다.
- 자유도(df) 계산
- 처리 자유도:
- 오차 자유도:
- 평균제곱(MS) 계산
- 검정통계량() 계산
- 제곱합(SS) 계산
-
3단계: 기각 여부 판단
- 기준: 임계값
- 결과: 가 임계값()보다 작다. (또한 P-value가 0.9024로 0.05보다 큼)
- 결론: 귀무가설을 채택(기각 실패). 기계 간의 인장 강도 차이는 없다고 할 수 있다.
3.2. 반복이 없는 이원분산분석 예제 (8-3)
문제: 작업시간대(요인 A)와 작업자(요인 B)에 따른 생산량 차이를 검정하라. (데이터 반복 없음)
-
1단계: 가설 설정
- : 작업시간대에 따른 차이가 없다.
- : 작업자에 따른 차이가 없다.
-
2단계: 분산분석표 작성
- 변동 분해: 전체 변동(SST) = 시간대 변동(SSA) + 작업자 변동(SSB) + 오차 변동(SSE)
- 검정통계량(F) 계산
- 시간대(A)에 대한 값:
- 작업자(B)에 대한 값:
-
3단계: 기각 여부 판단
- 시간대(A): 값(15) > 임계값(3.86) 기각 (시간대에 따라 생산량 차이 있음)
- 작업자(B): 값(6.667) > 임계값(3.86) 기각 (작업자에 따라 생산량 차이 있음)
- 결론: 작업시간대와 작업자 모두 생산량에 유의한 영향을 미친다.
3.3. 반복이 있는 이원분산분석 예제 (8-6)
문제: 작업시간대(요인 A, 4수준)와 작업자(요인 B, 4수준)에 대해 3회씩 반복 실험하여 분석하라.
-
1단계: 가설 설정 (3가지)
- : 시간대별 차이가 없다. (주효과 A)
- : 작업자별 차이가 없다. (주효과 B)
- : 시간대와 작업자 간의 상호작용 효과가 없다.
-
2단계: 분산분석표 작성
- 반복이 있으므로 변동을 4가지로 분해한다:
- 각각에 대한 평균제곱(MS)을 구하고, 오차항(MSE)으로 나누어 3개의 F값을 산출한다.
- (시간대)
- (작업자)
- (상호작용)
-
3단계: 기각 여부 판단
- 유의확률(P-value)을 확인했더니 모두 으로 나타남
- 결론: 유의수준 0.05보다 훨씬 작으므로 3개의 귀무가설을 모두 기각
- 작업 시간대에 따라 생산량 차이가 있다.
- 작업자에 따라 생산량 차이가 있다.
- 작업 시간대와 작업자 간에는 상호작용 효과가 존재한다. (즉, 특정 작업자가 특정 시간대에 더 잘하거나 못하는 등의 시너지/방해 효과가 있다.)