일반선형모형(GLM) 종속변수와 독립변수 두 변수의 관계를 다루는 방법(t-test)

티테스트(t-test) 티테스트는 추리통계분석기법의 하나로 종속변수에는 연속형변수가, 독립변수에는 두 가지 수준을 가진 범주형변수가 투입되어 실험집단과 통제집단의 종속변수 평균이 유사하거나 유사하지 않은지를 테스트할 때 사용합니다. “data_TESS3_131.sav” 파일을 사용합니다. 이 데이터의 STUDY1_ASSIGN 변수의 1과 2 값은 각각 실험 집단과 통제 집단의 두 집단을 나타냅니다. 실험집단, 통제집단에 속하는 응답자들이 ‘학자금 탕감 정책(student laon forgiveness 프로그램)’에 대해 얼마나 찬성하는지를 리컷 7점 척도로 측정한 것이 Q2 변수입니다.

티 테스트 실시에 앞서 사전 처리(Preprocessing)를 실시합니다. -1에서 제시된 변수 값은 응답 거부로 결측치 처리 후 STUDY1_ASSIGN 변수에 적절한 라벨을 붙입니다.

티테스트 <데이터 읽기>data_131=read_sps(“data_TESS3_131.sav”)

음수로 입력된 변수 값은 결측값 mydata=data_131%>% mutate_if(is.double, funs(.<0,NA,.)

실험 집단 변수에 라벨 작업 mydata=mydata%>% mutate (treat1=labelled (STUDY1_ASSIGN,c(treatment=1,control=2))

view(as_factor(mydata$treat1) 결과입니다.labelled()를 통한 mutate 작업을 했기 때문에 mydata$treat1과 mydata$STUDY_ASSIGN의 값은 같지만 mydata$STUDY_ASSIGN의 데이터 형태는 dbl, mydata$treat1의 데이터 형태는 dbl+lbl입니다. as.factor( )는 dbl의 값으로, as_factor( )는 lbl(라벨)의 값으로 데이터를 나타냅니다.

만약 그 내용에 대해 이해가 되지 않는다면, 제 블로그 변수의 형태 변환 파트를 가서 보고 오세요.

바로 티테스트를 실시할 수도 있는데 먼저 실험집단과 통제집단별로 종속변수가 어떤 기술통계치를 갖는지, 그리고 평균과 평균의 95% CI가 어떻게 나타나는지를 살펴보겠습니다. 평균 95% CI 표기는 기술통계 분석 파트에서 소개한 Confidence_Interval_calculation() 함수를 활용합니다.

##Confidence_Interval_calculation 개인 함수 (CI를 구하기 위해) Confidence_Interval_calculation=function (myvariable, myproportion) {tmp=summary(lm(myvariable~1) my_se=tmp$coef[2] #표준 오차 : 표준 편차를 자유도로 나눈 것 my_df=tmp$df[2] #자유도 계산을 위한 확률(1.5%)n(Q2, na.

다음은 평균과 95% CI 값을 나타낸 산점입니다. 두 집단의 평균값이 거의 1 정도 차이가 나고 95% CI 범위도 전혀 겹치지 않습니다. 즉, 티테스트를 추가로 실시하지 않더라도 두 집단의 종속변수의 평균치는 서로 유의미하게 다르다고 추정할 수 있습니다.

티테스트를 사용하여 이 평균값의 차이를 확인해 봅시다. 이렇게 독립된 두 집단의 평균값을 비교하는 티테스트를 ‘독립표본 티테스트(independent sampletest)’ 혹은 ‘이 표본 티테스트(twosamplet-test)’라고 부릅니다. 이번 사례에서는 두 집단의 종속변수 분산이 서로 이질적이라는 가정을 취했지만 동질적이라는 가정을 원한다면 var.equal=TRUE 옵션을 추가로 지정하시면 됩니다.

(해석은 통계적 지식을 활용해 보세요) 위의 티테스트 결과를 아래와 같은 형식의 개인함수를 이용하여 정리된 형태로 표현할 수 있습니다.타이디버스 라이브러리 액세스를 기반으로 한 티 테스트는 반복 티 테스트를 수행할 경우 훨씬 효율적이고 효과적입니다. 다음은 성별에 따라 Q14변수부터 Q18변수까지 총 5가지 변수에 대해 평균값이 통계적으로 유의미한 차이를 보이는지 살펴보겠습니다. 우선 데이터 전처리 진행하겠습니다. 성별 변수에 대한 사전 처리, 분석에 필요한 변수만 선발한 후 넓은 형태 데이터를 긴 형태 데이터로 변환합니다.split()함수를 이용하여 문항에 따라 데이터를 구분하고 각 문항에 대해 티테스트를 적용한 후 그 결과를 저장, tidy()함수를 이용하여 출력된 통계값을 정리합니다.위의 결과에 대해 앞서 설정한 개인 함수인 ttest_Interval_calculation 함수를 이용하여 결과를 정리합니다.위의 과정을 통해 변수의 수가 몇 배로 늘어나도 많지 않은 R코드를 통해 분석 결과를 정리할 수 있습니다.위의 결과를 시각화해 보겠습니다. 응답자의 성별은 환삼각형을 이용하여 구분, 두 집단이 통계적으로 유의미한 평균 차이를 보인다는 티테스트 결과의 경우 파란색, 그렇지 않을 경우 빨간색으로 평균 95% CI를 표현합니다.

지금까지 독립 표본의 티테스트를 조사해 보았습니다. 이번에는 ‘대응 표본 티 테스트(paired samplet-test)’에 대해 알아보겠습니다. 독립표본 티테스트에서는 2개 집단의 평균을 비교하지만 대응표본 티테스트에서는 짝을 이루고 있는(즉 대응하는) 2개 변수의 평균을 비교합니다. 형식은 t.test()함수에 비교하고자 하는 두 변수를 지정한 후 paired=TRUE 옵션을 지정하여 대응 표본 티 테스트를 실시할 것을 명시하면 끝입니다. %$% 오퍼레이터를 사용하면 %$% 오퍼레이터 다음 함수에서는 별도 데이터를 지정하지 않아도 됩니다. %$% 오퍼레이터 앞에 지정된 데이터에 속하는 두 변수에 대해 대응 표본 티 테스트를 실시한 후 tidy() 함수를 이용하여 티 테스트 결과를 정리된 형태로 저장해 봅니다.만약 % > % 오퍼레이터를 사용하면 상황이 복잡해집니다. 타이디버스 라이브러리 접근법에서는 긴 형식의 데이터를 기반으로 하며 변수 나열이 아닌 변수와 변수의 관계가 함수 형식으로 정의되어야 합니다. 따라서 %> % 오퍼레이터를 사용할 경우 1. 넓은 형태 데이터를 긴 형태 데이터로 전환시켜야 하며 2. 대응 표본 티 테스트를 공식적인 형태로 표현해야 합니다. 이 두 프로세스를 실시할 때 변수 값 제시 순서가 바뀌면 안 됩니다.먼저 비교하고자 하는 두 변수를 설정하고 목록을 삭제하는 방법으로 결측치 사례를 삭제합니다. 그 후 관측치와 문항 구분값을 전술한 공식 형태로 넣고 데이터=.와 같이 지정하면 대응 표본 티테스트를 실시할 수 있습니다.위와 같은 결과를 확인할 수 있지만 대응 표본 티 테스트는 타이디버스 라이브러리 액세스로 수행하는 것을 권장하지 않습니다.아까 보여드린 결과값과 지금 결과값이 다릅니다. Q14 변수의 첫 번째 값과 Q15 변수의 첫 번째 값이 한 사례에서 나온 것이 아니기 때문입니다. 즉, R이 대응하는 변수를 다르게 파악하고 있습니다. 대응 표본 티 테스트와 같이 개체 내 요인 변수가 투입되는 경우 ID 변수를 통해 데이터 정렬 방식이 어떻게 바뀌든 변수가 서로 대응하는 사례를 찾을 수 있습니다.대응 표본과 같이 개체 내 요인을 넓은 형태의 데이터로 추정할 필요가 있는 경우 타이디버스 라이브러리 액세스를 사용하지 않는 것이 효율적입니다. 전통적인 R 기반 관점을 선택합시다.

error: Content is protected !!