- 응모기간: 10월 2일 (수) ~ 11월 18일 (화)
배경 음악이 재생 중입니다.
글 최관우(원광보건대학교)
ChatGPT를 이용한 통계분석의 두 번째 시간으로 독립표본 t-검정의 통계분석 방법에 대해 살펴보자.
독립표본 t-검정은 두 집단 크기 비교 연구에서 가장 기본이 되는 분석이지만
동시에 가장 많이 오해되는 분석이기도 하다. 따라서 연구자는 독립표본 t-검정 적용 시
독립성, 정규성, 등분산성이라는 세 가지 핵심 가정이 만족하는지 면밀히 확인한다.
이 과정에서 ChatGPT와 같은 AI 도구를 활용하면 시행착오를 줄이고,
보다 체계적이고 신뢰성 있는 연구 결과를 확보할 수 있다.
연구를 수행하다 보면 가장 흔하게 마주치는 질문 중 하나는 “두 집단 사이에 정말 차이가 있는가?”이다. 예를 들어, 어떤 사람들에게는 새로운 약을, 다른 사람들에게는 기존의 약을 투여했을 때 결과가 다르게 나타나는지, 또는 새로운 기법을 적용해 영상을 획득했을 때 기존 기법과 비교해 영상이 나아지는지를 확인하는 상황이 여기에 해당한다. 이처럼 조건이 다른 두 그룹의 결과 차이를 확인하는 과정이 두 집단의 크기 비교이다.
두 집단의 크기 비교 시 가장 많이 사용하는 통계분석 방법은 바로 t-검정(T-test)이다. t-검정은 집단 간 평균 차이를 검증하는 방법으로 서로 다른 두 집단을 비교할 때는 독립표본 t-검정(Independent Sample T-test)을, 같은 집단에서 적용 전,후 차이를 비교할 때는 대응표본 t-검정(Paired T-test)을 사용한다.
그러나 단순히 동일 집단인지 아니면 다른 집단인지만을 판별하여 기계적으로 t-검정을 적용하는 것은 적절하지 않다. 왜냐하면 t-검정을 적용하기 위해서는 먼저 실험 대상이 서로 독립적인지 독립성을 따져야 하고, 그 다음 데이터가 정규분포를 따르는지 정규성을 따져야 하며, 마지막으로 두 집단의 분산이 비슷한지 등분산성을 차례로 확인해야 하기 때문이다. 이와 같은 이유는 t-검정은 3가지 전제 조건이 만족하느냐 만족하지 않느냐에 따라 각각의 통계 방법이 결정되고, 만약 조건을 만족하지 못하면 다른 통계 방법을 사용해야 하기 때문이다.
즉, 독립성이 만족되면 독립표본 t-검정을, 독립성이 만족되지 않으면 대응표본 t-검정을 적용해야 하며, 정규성이 만족되지 않을 경우에는 t-검정 대신 Mann-Whitney U 검정이나 Wilcoxon signed-rank 검정과 같은 비모수 검정을 활용해야 한다. 또한 정규성이 만족되더라도 등분산성이 보장되지 않는다면 수정된 t-검정인 Welch’s t-검정을 선택해야 하는데, 이처럼 두 집단의 차이를 검증하는 과정은 단순한 계산이 아니라 여러 전제 조건을 만족하는지 꼼꼼히 판단해야만 정확한 결과를 얻을 수 있다.
통계 비전공자 입장에서는 이런한 과정을 직접 판단하고 결정하기가 매우 어렵다. 우선 독립성, 정규성, 등분산성 같은 용어부터 낯설고, SPSS나 R 같은 통계 프로그램에서 나오는 여러 숫자와 결과를 어떻게 해석해야 할지 막막하며, 잘못된 방법을 선택했을 때 연구 결과 자체가 흔들릴 수 있기 때문이다. 이럴 때 ChatGPT를 이용하면 통계 지식이 조금 부족하더라도 어려움을 해소하는 데 큰 도움이 된다.
즉, 연구자가 자신의 데이터와 상황을 간단히 설명하면, ChatGPT는 그에 적합한 통계 기법을 추천하고 선택 근거를 설명해 주며 더 나아가 전문가가 곁에서 조언하듯이 의미 있는 결론을 도출하도록 도와주기 때문이다. 따라서 이번 호는 ChatGPT를 이용한 통계분석 중 두 집단의 크기 비교 시 가장 많이 사용하는 독립표본 t-검정에 대해 알아보고 다음 호에 대응표본 t-검정에 대해 알아보고자 한다.

독립표본 t-검정은 두 집단의 크기 비교 시 두 집단이 서로 독립인 경우 적용하는 통계방법으로 그림1과 같이 순차적으로 독립성, 정규성, 등분산성을 만족해야 적용할 수 있다.
즉, 제일 먼저 독립성을 체크하여 두 집단이 서로 독립적인 경우에는 그 다음 정규성을 체크하고, 독립이 아닌 동일한 대상에 대해 반복 측정이 이루어진 경우에는 대응표본 t-검정 또는 Wilcoxon signed-rank 검정을 적용해야 한다. 왜냐하면 독립성이 확보되지 않은 상황에서 독립표본 t-검정을 사용할 경우, 제1종 오류(type I error) 확률이 왜곡될 수 있기 때문이다.
독립성이 만족되면 t-검정은 기본적으로 모집단이 정규분포를 따른다는 가정을 전제로 하기 때문에, 정규성을 체크하여야 한다. 이때 표본 수가 충분히 클 경우(일반적으로 30 이상)에는 중심극한정리(Central Limit Theorem)에 의해 정규성을 따른다고 가정할 수 있지만, 표본 수가 적거나(10 이상 30 이하, Kolmogorov-Smirnov test 나 Sapiro-Wilks test 등으로 정규성 검정) 데이터가 명백히 비정규분포를 따르는 경우에는(10 이하), t-검정의 신뢰도가 낮아지기 때문에 이때는 Mann-Whitney U 검정을 적용하는 것이 타당하다.
이러한 과정을 통해 정규성이 만족되면 t-검정은 두 집단의 분산이 통계적으로 유사하다는 가정을 전제로 하기 때문에 마지막으로 등분산성을 체크해야 한다. 일반적으로 등분산성은 Levene’s test나 Bartlett’s test를 수행하여 판단하는데, 등분산성이 확보되지 않은 상태에서 단순히 t-검정을 적용하는 것은 부정확하기 때문에, 이때는 분산 차이를 보정한 Welch’s t-검정을 적용해야 비등분산 상황에서 보다 안정적인 제1종 오류율을 보장 받을 수 있다.
독립표본 t-검정은 이와 같이 위 세 가지 조건이 순차적으로 만족해야 비로소 적용할 수 있는 것이다. 그러나 여기서 문제는 통계에 익숙하지 않은 연구자라면 본인의 연구 데이터에 위 세 가지 조건을 하나하나 적용하여 분석방법을 선택하기가 매우 어렵다. 이때 ChatGPT를 이용하면 ChatGPT가 위 과정을 자동으로 판단하여 제시해 주기 때문에 최적의 통계분석 방법을 쉽게 결정할 수 있다.
방법은 매우 간단하다. 예를 들어, 특정 장기의 CT number 값이 남성과 여성 환자 간에 차이가 있는지 증명하는 연구를 계획했다고 가정해 보자. 이때 통계분석 방법을 알아보려면 ChatGPT 사이트에 접속한 후 메시지 창에 본인의 연구계획을 입력하면 끝이다. 즉, ① 메시지 창에 “특정 장기의 CT number 값이 남성과 여성 환자 간에 차이가 있는지 증명하고 싶어, 어떤 통계분석 방법을 사용해야 될까?”라고 입력하고 ② 실행 버튼(Enter)을 누르면 ChatGPT가 아래와 같이 최적의 통계분석 방법을 제시하고 전제조건 및 추가 팁까지 응답을 생성한다(그림2, 그림3).


그림3과 같이, ChatGPT가 통계분석 방법으로 독립표본 t-검정을 제시하였다면 다음으로 해야 할 일은 독립표본 t-검정에 맞는 데이터 입력 시트를 설계하는 일이다. 이 과정 또한 통계에 익숙하지 않은 연구자라면 매우 어려운 일인데, 왜냐하면 통계분석 방법 마다 데이터를 입력하는 방식이 다르기 때문에 무작정 데이터 시트를 설계하여 입력하였을 경우 잘못된 시트 설계로 인해 분석이 수행되지 않기 때문이다. 이때, ChatGPT를 이용하면 사용하고자 하는 통계분석 방법의 올바른 데이터 입력 시트를 쉽게 얻을 수 있다. 즉, ① 메시지 창에 “독립표본 t-검정을 위한 데이터 입력 시트를 엑셀 파일로 만들어줘, 한글버전으로”라고 입력하고 ② 실행 버튼을 누르면 끝이다. 그러면 아래와 같이 독립표본 t-검정에 맞는 데이터 입력 시트가 만들어지고 링크를 클릭하여 다운로드한 후 바로 사용하면 된다(그림4, 그림5).


참고로, 파일을 다운로드하여 열어보면 독립표본 t-검정의 데이터 입력 시트는 하나의 탭으로 구성되어 있다. 데이터의 입력은 실험을 통해 측정한 남자와 여자의 CT number 값을 성별 항목의 남자와 여자 CT number 셀에 각각 입력하면 된다(그림6, 그림7).


실험 데이터를 입력하여 연구 데이터 파일이 최종 완성되었다면, 다음으로 해야 할 일은 통계분석을 수행하는 일이다. 다음은 일반적으로 연구자들이 많이 사용하는 통계분석 프로그램 중 하나인 SPSS를 이용하여 동일 파일의 독립표본 t-검정을 수행한 결과이다(그림8).

여기서 주요하게 보아야 할 수치는 집단통계량에서는 CT number의 남성 평균 61.59, 여성 평균 61.06이며, 독립표본검정에서는 Levene 등분산 검정의 F값 0.165, 유의확률 0.685, 그리고 t-검정에서 등분산이 가정됨 라인의 t값 0.406과 유의확률 0.686이다.
ChatGPT를 이용한 통계분석은 전문 통계분석 프로그램에 비해 매우 쉽다. 즉, ① 완성된 연구 데이터 파일을 메시지 창에 끌어다 놓은 다음 ② “독립표본 t-검정을 수행해 줘”라고 입력한 후 실행 버튼을 누르면 끝이다(그림9).

그러면 ChatGPT가 데이터를 분석한 후 독립표본 t-검정을 수행하여 다음과 같이 통계분석 결과를 응답해 준다(그림10).

여기서, SPSS와 ChatGPT의 분석 결과를 비교해 보면, 전문 통계분석 프로그램인 SPSS가 ChatGPT에 비해 좀 더 많은 정보와 통계지표를 제공하는 것을 볼 수 있다. 그러나 통계분석에서 가장 중요한 t 통계량이나 유의수준인 p 값은 SPSS나 ChatGPT 모두 정확히 일치한다. 즉, ChatGPT를 사용하더라도 데이터가 동일하다면 여러 전제조건이 있는 독립표본 t-검정도 전문 통계분석 프로그램과 동일한 결과를 산출한다는 것이다. 참고로, ChatGPT가 자동으로 판단하여 적용한 Levene 등분산 검정도 아래와 같이 추가적인 질문을 통해 확인할 수 있다(그림11, 12).


그런데 등분산 검정 결과는 독립표본 t-검정 결과와 달리 SPSS와 약간 다른 결과를 보인다. 이와 같은 이유는 Levene’s test는 그룹 내 편차에 대해 ANOVA를 수행하는 방식으로 여기서 중심값을 무엇으로 잡느냐에 따라 검정값이 달라지는데, SPSS는 중심값으로 mean(평균)을 사용하지만 ChatGPT는 중심값으로 median(중앙값)을 사용하기 때문이다.
연구 데이터에 대한 통계분석이 완료되었다면, 마지막으로 해야 할 일은 검정 결과를 투고하려는 학술지의 형식에 맞게 작성하는 일이다. 이때 ChatGPT를 이용하면 매우 쉽게 작성할 수 있는데, ① 메시지 창에 “위 검정 결과를 Radiology의 투고 형식에 맞게 작성해줘”라고 입력하고 ② 실행 버튼을 누르면 된다. 그러면 그림13, 그림14와 같이 투고하려는 학술지의 투고 형식에 맞게 결과가 작성되어 출력된다.


이번 호는 ChatGPT를 이용한 통계분석의 두 번째 시간으로 독립표본 t-검정의 통계분석 방법에 대해 살펴보았다. 독립표본 t-검정은 두 집단 크기 비교 연구에서 가장 기본이 되는 분석이지만 동시에 가장 많이 오해되는 분석이기도 하다. 따라서 연구자는 독립표본 t-검정 적용 시 독립성, 정규성, 등분산성이라는 세 가지 핵심 가정이 만족하는지 면밀히 확인해야 하며, 이러한 과정에서 ChatGPT와 같은 AI 도구를 적극 활용한다면 통계 지식의 부족으로 인한 시행착오를 줄이고, 보다 체계적이고 신뢰성 있는 연구 결과를 확보할 수 있을 것이다.
궁극적으로는 연구자가 직접 통계에 대한 기본 개념과 응용력을 갖추어야 하겠지만
똑똑한 조력자인 ChatGPT와 같은 AI 도구를 적극 활용해
보다 체계적이고 신뢰성 있는 연구 결과를 확보해 보기를 바란다.