Generalized Estimating Equations(일반화 추정 방정식)

공대생의 팁 2020. 1. 3. 23:42


 피험자 그룹에서 반복 측정(반응[Response] 및 공변량[Covariate])한 결과를 관찰한다고 가정해봅니다. 이러한 공변량을 기반으로 각각에 대한 예상 반응 모델링을 하고자 할 때 아래와 같은 몇 가지 경우가 있습니다.

  • ■ 몇 가지 통제된 식단 중 하나를 각 사람들 개별로 할당하고 시간이 지남에 따라 콜레스테롤 수치를 측정

  • ■ 시간의 경과에 따라 얻은 값과 어떤 변수의 관계 연구

  • ■ 아이를 갖는 것이 여성의 노동력 참여 가능성에 미치는 영향 결정

 위와 같이 (반복해서 측정하여 얻은) 패널 데이터가 갖는 장점은 시간적 차이가 없고 관찰할 수 없는 개인 간의 차이를 제어할 수 있다는 점입니다. 개인당 다중 관측치를 갖는 것은 개인 내 변화를 기초로 추정치를 산출할 수 있게 합니다.

 이러한 위의 경우들을 분석하는데 가장 쉬운 방법은 공변량이 결과에 적층 효과(Additive effect)를 미치는 데이터에 선형 모델을 적합화하는 것입니다. 변수가 선형 관계가 아닌 다른 것에 영향을 받는 경우(관심의 반응이 확률인 경우) 일반화 선형 모델(Generalized Linear Model)이 더 적합할 것입니다. GLM에는 다음과 같은 식이 있습니다.

$$Y_i = \mu_i + \varepsilon_i, \qquad g(\mu_i) = X_i'\beta$$

 여기서 개별 \(i\)의 경우 \(Y_i\)는 반응, \(X_i\)는 공변량, \(\beta\)는 계수의 벡터, \(\varepsilon_i\)는 임의의 오차, g는 가능한 반응 집합에서 공변량의 선형 함수에 사상되는 연결 함수(Link function) 입니다.

 매개변수를 추정하고 GLM을 추론하기 위해서는 오류가 독립적이고 동일하게 분포되어 있다고 가정해야 합니다. 패널 데이터의 경우, 각 개인에 대한 관찰은 상관관계가 존재하기 때문에 이는 명백히 사실이 아닙니다.

 한 가지 가능한 해결책은 모델 피팅에 피험자별 임의 효과(Random effect)를 포함하는 것입니다. 이 방법은 GLMM(Generalized Linear Mixed Model)이라고 부릅니다. GLMM은 모수적 가정(Parametric assumption)을 필요로 합니다.

 일반화 추정 방정식(Generalized Estimation Equation)은 이를 처리하기 위한 비모수적 방법(Nonparametric assumption)입니다. GEE의 아이디어는 모든 피험자에 대해 평균을 내고 대상 내 공분산 구조를 잘 예측하는 것입니다. 데이터가 특정 분포에서 생성되었다고 가정하는 대신 공변량과 반응 사이의 관계를 설명하기 위해 반복적으로 최선의 \(\beta\)를 선택하기 위해 모멘트 가정을 사용합니다.

 주의사항: GLMM과 GEE에 대한 결과물 해석은 다르다는 점을 유의 바랍니다.


피험자별 vs 전인원 평균

 GEE는 인구 평균 효과(Population average)를 추정합니다. 아래의 두 시나리오를 생각해봅니다.

● 시나리오1: 당신은 의사이고 스타틴 약이 당신의 환자가 심장마비에 걸릴 확률을 얼마나 낮출 수 있는지 알고 싶다.
● 시나리오2: 당신은 보건소 공무원이고 심장마비 위험에 처한 모든 사람들이 그 스테틴 약을 복용한다면 심장마비 사망자수를 줄일 수 있는지 알고싶다.

 첫 번째 시나리오에서는 각 개별 확률을 알자 합니다. 두 번째 시나리오는 전체 인구에 대한 예측에 관심을 두고 있습니다. GEE는 두 번째 시나리오에서 추정할 수 있지만 첫 번째 시나리오에서는 알 수 없습니다.

GEE의 기초

 GEE는 인구 평균 모델 매개변수와 이들의 표준 오류를 추정합니다. GEE에 대한 가정은 GLM에 대한 가정과 비슷합니다.

  • 1. 응답 \(Y_1, Y_2, ... , Y_n\)은 상관관계가 있거나 무리를 이룬다.
  • 2. 연결함수 g에 의해 설명된 공변량과 반응의 변환 사이에는 선형 관계가 있다.
  • 3. 피험자 내의 공분산에는 몇 가지 구조("working 공분산")가 있다.
  • ● 독립성(시간 경과에 따른 관찰은 독립적)
  • ● 교환가능(시간 경과에 따른 모든 관측치에는 동일한 상관 관계가 있음)
  • ● 비정형(모든 시점 간의 상관관계는 다를 수 있음)

 GEE에 맞추기 위해 이러한 working 공분산 구조 중 하나를 선택해야 합니다. GLM과 마찬가지로 GEE는 반복적으로 최소 가중치를 조정하여 가중치로 작용하는 공분산 행렬을 연결합니다. 가중 최소 제곱 문제는 등식 추정식(Eponymous estimating equation)입니다. 만약 최대 가능성(Maximum likelihood)에 익숙하다면, 이 방정식을 Score function(log-likelihood의 1차 미분값)이라고 생각할 수 있습니다. 이 함수는 \(\beta\)의 최적 선택시 0과 같습니다.

 데이터 생성 과정(선형성)에 어떤 구조를 적용하더라도 분포를 완전히 특정하지 않습니다. \(\beta\)추정은 순전히 최적화의 연습입니다.


공분산이 잘못 정의되어 있는 것이 걱정된다면?

 β를 추정하기 위해서는 공분산 구조를 선택해야 하지만, 만약 β가 올바르게 나타나지 않는다면 어떻게 해야할까요?

 추정 방정식은 실제로 첫 번째 경우를 기준으로 하기 때문에 \(\beta\)는 Working 공분산 구조가 잘못되었다 하더라도 일관되게 추정될 수 있을것입니다. 그러나, 이로부터 계산된 표준 오차는 잘못될 것입니다. 이 문제를 해결하기 위해서는 견고성(Robustness)을 위해Huber-White의 "샌드위치 추정기(Sandwich estimator)"를 사용하여 GEE를 사용합니다. 샌드위치 분산 추정기의 기본 개념은 아이디어는 경험적 공분산을 사용하여 기본 공분산에 근사화하는 것입니다.

 그렇다면 왜 Working 공분산을 지정해야할까요?

1. 통계 효율(Statistical efficiency)
2. 샌드위치 견고성(Sandwich robustness)는 표본이 큰 특성값

  그렇다면 항상 샌드위치 추정기를 사용해야만 할까요?

 아닙니다. 만약 아래와 같은 경우가 생길 경우 그렇지 않습니다.

1. 독립된 피험자의 수가 반복되는 측정치의 수보다 훨씬 적을때
2. 설계의 균형이 맞지 않을때(반복되는 측정치의 수가 개별로 다른 경우)

장점

● 최대우도측정(Maximum Likelihood Estimation)에 비해 계산이 단순합니다.
● 분포에 대한 가정이 없습니다.
● 상관 구조가 잘못 정의되어 있더라도 추정치는 일치합니다.(평균 응답에 대한 모델이 올바르다고 가정하였을 때)

한계

● 우도 기반 방법(Likelihood-based method)은 통상적인 통계적 추론에 사용할 수 없습니다. GEE는 준우도 방법(Quasi-likelihood method)입니다.
● GEE는 단지 추정 절차일 뿐이므로 모델 선택을 수행하는 방법이 명확하지 않습니다. 적합도 측정은 쉽게 구할수가 없습니다.
● 피험체에 특정된 측정을 할 수 없습니다.

GEE의 확장

● GEE2: 2차 연장
    ○ 여기서 소개한 GEE의 버전은 GEE1입니다.
    ○ 아이디어: 공분산을 연구하기 위한 더 복잡한 방정식을 사용합니다.

● 대체 로지스틱 회귀(Alternating Logistic Regression) (Carey, Zeger, and Diggle(1993)): 다른 조건으로 결과 모델링
    ○ 아이디어: 모델 연결에 상관관계 대신 로그 Odd ratio를 사용합니다.

GEE에 대한 심화학습

● 첫 번째 평균공분산(준우도 접근법)
샌드위치 추정기(Sandwich estimator)를 사용하여 공분산의 설정 오류(misspecification) 방지
인구 평균 효과(Population-averaged effects) 모델링
● 대상 내 의존성이 관찰되지 않거나 알려지지 않은 경우 유용성
● 여전히 대상 독립성을 가정(공변량에 따라 조건화됨)


참고자료: https://rlbarter.github.io/Practical-Statistics/2017/05/10/generalized-estimating-equations-gee/