배경음악 Off

배경 음악이 재생 중입니다.

글 최관우(원광보건대학교)

연구를 수행하는 과정에서 누구나 한 번쯤은 ‘이건 내가 할 수 있는 일이 아닌 것 같다’라는 벽에 부딪히게 된다. 그 부분이 문헌분석인 경우도 있고, 연구 디자인 또는 글쓰기인 경우도 있지만, 대부분의 경우는 통계분석 앞에서 벽에 부딪힌다. 실제로 많은 연구자들이 연구 데이터를 손에 쥐고도, 그 다음에 무엇을 해야 할지 몰라 멍하니 있는 경우가 많다. 즉, 통계분석을 꼭 해야하는가 하는 근본적인 문제서부터, 어떤 통계 기법을 선택해야 할지, 프로그램은 무엇을 사용해야 할지, 그 프로그램을 직접 구입해서 배워야 할지… 막히는 부분이 한 두가지가 아니기 때문이다. 또한 물어 물어 어렵사리 통계분석을 마치더라도 분석된 결과를 어떻게 해석하고, 논문에 어떻게 기술해야 할지 또한 매우 막막하다. 이렇다 보니 통계는 연구의 설계부터 결과 해석까지 전 과정에 필수적인 요소임에도 불구하고, 많은 연구자에게 높은 진입 장벽으로 작용한다.

연구 수행에 있어 통계는 핵심이다. 왜냐하면 통계는 연구자의 연구결과를 객관적으로 설명하고, 그 주장에 근거를 제시해주는 도구이기 때문이다. 즉, 연구자가 수집한 데이터는 숫자에 불과하지만, 통계를 통해 그 숫자는 의미가 되며 이를 통해 연구자의 가설을 일반화할 수 있기 때문이다. 그러나 통계 비전공자인 대부분의 연구자에게 통계는 매우 어려운 학문으로 인식된다. 왜냐하면 확률 이론, 선형대수, 미적분 등의 수학적 배경 지식이 없으면 통계 기법을 이해하는 데 한계가 있으며, 평균과 분산, 회귀계수 등의 통계 개념은 매우 추상적이어서 이해하기가 어렵고, p-value, 신뢰구간, 다중 공선성 같은 통계용어는 많이 시간과 노력을 투자해야 어떤 의미인지 파악할 수 있기 때문이다. 게다가 엑셀 수준을 훨씬 넘어서는 전문 통계분석 프로그램(SPSS, R, Python 등)은 처음 접했을 때 매우 낯설고 복잡함으로 인해 큰 좌절감이 느껴진다. 이러한 이유로 많은 연구자에게 통계는 되도록이면 피하고 싶은 영역으로 여겨지며 어쩔 수 없이 분석이 필요한 경우, 외부에 비싼 비용을 지불하고 의뢰하거나 단순분석만으로 해결될 수 있도록 연구내용을 수정하는 경우도 발생한다.

최근 이러한 통계의 높은 진입장벽을 낮추는데 주목받고 있는 도구가 바로 ChatGPT와 같은 인공지능 언어모델이다. ChatGPT는 자연어 기반의 대화형 AI로, 사용자의 질문에 대해 통계 개념을 쉽게 설명해주고, 관련 코드를 작성해주며, 분석 결과에 대한 해석도 도와준다.
예를 들어 “독립표본 t-검정이 무엇이야?”라고 질문하면 이해하기 쉬운 설명과 함께 실제 사례를 들어주고, “Python으로 회귀분석 코드를 짜줘”라고 하면 분석 코드를 작성해주어 프로그래밍이 익숙하지 않은 연구자에게 큰 도움이 된다. 또한 결과 해석이 헷갈릴 때 “p-value가 0.03이면 무슨 의미야?”라고 물어보면 어떻게 해석해야 하는지 알려주며, 그 해석을 논문에 어떻게 써야 할지 모를 때 “검정 결과를 논문에 어떻게 써야 해?”라고 물어보면 예시 문장을 제시해준다. 이러한 ChatGPT의 기능 덕분에 통계에 대한 진입장벽이 이전보다 확실히 낮아졌으며, 통계를 처음 배우는 사람도 손쉽게 기본 개념을 익히고 직접 분석에 도전해볼 수 있게 된 것이다. 물론, ChatGPT를 이용한다고 하여 통계의 모든 것이 해결되지는 않는다.
왜냐하면 생성된 응답이 정확하지 않을 수 있고, 단순한 질문은 잘 처리하지만 복잡한 연구 설계는 파악하지 못할 수 있으며, 출력되는 정보가 매우 간단하여 통계에 대한 기본지식이 없다면 적용하기 어렵고, ChatGPT가 생성한 문장을 그대로 논문에 사용하는 것은 표절로 간주될 수 있기 때문이다.
따라서 ChatGPT를 이용하더라도 전문 통계분석 프로그램을 병행하여 학습하는 것이 필요하며, 분석결과도 반드시 전문가나 전문서적을 통해 다시 한번 확인하는 것이 필요하다.

필자는, 이러한 문제점을 감안하더라도 ChatGPT를 활용한 통계분석은 매우 유용하다고 생각한다. 왜냐하면 연구자가 직접 실험한 데이터를 업로드하고 그 데이터를 기반으로 통계분석이 시행되기 때문에 최종 결과물이 간단하게 출력된다는 아쉬운 점은 있으나, 그 결과의 정확성만큼은 매우 높기 때문이다. 따라서 이번 호를 시작으로 3회에 걸쳐 ChatGPT를 활용해 가장 많이 사용하는 통계분석 방법을 하나하나 알아보고자 한다. 참고로 연구 진행 시 가장 많이 사용하는 통계분석 방법은 표1과 같으며, 이번 호는 첫 번째 시간으로 ChatGPT를 이용한 단일 표본 T검정의 통계분석 방법에 대해 알아보고자 한다.

표1. 연구 진행 시 가장 많이 사용하는 통계분석 방법

특정 장기의 CT number 값이 50으로 알려져 있는데, 내가 정말 환자들을 대상으로 CT 검사를 하여 그 장기를 측정했을 때 동일한 값이 나오는지 증명하는 연구를 계획하였다고 가정해 보자. 그렇다면 기준값인 50이 있을 것이고, 검사하여 측정한 여러 값이 있을 것이다. 이럴 경우 내가 실험을 통해 측정한 값들이 기준값인 50과 일치하는지 비교하는 통계분석 방법이 바로 단일 표본 T검정이다. 그러나 여기서 문제는 통계에 익숙하지 않은 연구자라면 본인의 연구 데이터에 어떤 통계분석 방법을 적용해야 하는지 결정하기가 매우 어렵다. 이때 ChatGPT를 이용하면 매우 쉽게 통계분석 방법 결정할 수 있다. 방법은 매우 간단하다. ChatGPT 사이트에 접속한 후 메시지 창에 본인의 연구계획을 입력하면 끝이다. 즉, ① 메시지 창에 “특정 장기의 CT number 값이 50으로 알려져 있어, 그런데 내가 정말 환자들을 대상으로 CT 검사를 하여 그 장기를 측정했을 때 동일한 값이 나오는지 증명하고 싶어, 어떤 통계분석 방법을 사용해야 될까?”라고 입력하고 ② 실행 버튼(Enter)을 누르면 ChatGPT가 아래와 같이 통계분석 방법을 제시하고 분석 절차와 분석 코드, 해석과 추가 팁까지 응답을 생성한다(그림1, 그림2).

그림1, 그림2. ChatGPT를 이용한 통계분석 방법 예시. 메시지 창에 본인의 연구계획을 입력한 후 응답 생성을 기다린다.

이와 같이, 통계분석 방법이 결정됐다면 다음으로 해야 할 일은 데이터를 입력하는 시트를 설계하는 일이다. 이 과정 또한 통계에 익숙하지 않은 연구자라면 매우 어려운 일인데, 왜냐하면 통계분석 방법마다 데이터를 입력하는 방식이 다르기 때문에 무작정 데이터 시트를 설계하여 입력하였을 경우 잘못된 시트 설계로 인해 통계분석이 수행되지 않기 때문이다. 이때 유용한 방법이 ChatGPT를 이용하여 데이터 입력 시트를 설계하는 것이다. 일반적으로 실험 데이터는 통계분석 프로그램에 직접 입력하기보다는 엑셀에 데이터를 일단 입력한 후 불러오는 방식이 많이 사용된다. 이와 같은 이유는 엑셀의 데이터 편집기능이 매우 뛰어나기 때문인데, 그러다 보니 연구자는 통계분석 기법마다 엑셀에서 데이터 입력 시트를 어떻게 설계해야 하는지 학습을 하여야 한다. 그러나, ChatGPT를 이용하면 이러한 번거로운 과정 없이 사용하고자 하는 통계분석 방법의 데이터 입력 시트를 쉽게 얻을 수 있다. 즉, ① 메시지 창에 “단일 표본 T검정을 위한 데이터 입력 시트를 엑셀 파일로 만들어줘”라고 입력하고 ② 실행 버튼을 누르면 끝이다. 그러면 아래와 같이 단일 표본 T검정에 맞는 데이터 입력 시트가 만들어지고 링크를 클릭하여 다운로드를 한 후 바로 사용하면 된다(그림3, 그림4).

그림3, 그림4. ChatGPT를 이용한 데이터 입력 시트 설계 예시.

참고로, 파일을 다운로드하여 열어보면 단일 표본 T검정의 데이터 입력 시트는 두 개의 탭(측정값 입력과 기준값 입력)으로 구성되어 있다. 데이터의 입력은 실험을 통해 측정한 값은 측정값 입력 탭의 측정값 항목에 입력하고, 기준값은 기준값 입력 탭의 기준값 항목에 입력을 하면 된다(그림5, 그림6).

그림5, 그림6. ChatGPT를 이용해 생성한 단일 표본 T검정을 위한 엑셀 시트 활용 방법.

따라서, 처음 가정과 같이 특정 장기의 CT number 값이 50으로 알려져 있는데, 내가 정말 환자들을 대상으로 CT 검사를 하여 그 장기를 측정했을 때 동일한 값이 나오는지 증명하는 연구를 계획하였다고 한다면, 기준값은 기준값 입력 탭을 클릭한 후 기준값 항목에 50을 입력하고, 측정값은 각 CT 검사 환자 영상에서 장기의 CT number 값을 측정한 후 측정값 입력 탭을 클릭하여 측정값 항목에 입력하면 된다.

실험 데이터를 입력하여 연구 데이터 파일이 완성되었다면, 다음으로 해야 할 일은 통계분석을 수행하는 일이다. 다음은 일반적으로 연구자들이 많이 사용하는 통계분석 프로그램 중 하나인 SPSS를 이용하여 동일 파일의 단일 표본 T검정을 수행한 결과이다(그림7). 참고로 단일 표본과 일표본은 한 집단의 표본이라는 의미로 동일 의미이다.

그림7. 연구 데이터 파일 완성 후 통계분석 프로그램 SPSS를 이용해 단일 표본 T검정을 수행한 결과

ChatGPT를 이용한 통계분석은 전문 통계분석 프로그램에 비해 매우 쉽다. 즉, ① 완성된 연구 데이터 파일을 메시지 창에 끌어다 놓은 다음 ② “단일 표본 T검정을 수행해 줘”라고 입력한 후 실행 버튼을 누르면 끝이다(그림8).
그러면 ChatGPT가 데이터를 분석한 후 단일 표본 T검정을 수행하여 다음과 같이 통계분석 결과를 응답해 준다(그림9).

그림8. ChatGPT를 이용한 통계분석 방법 예시
그림9. ChatGPT가 데이터 분석 후 단일 표본 T검정을 수행하여 내놓은 통계분석 결과

여기서, SPSS와 ChatGPT의 분석 결과를 비교해 보면, 전문 통계분석 프로그램인 SPSS가 ChatGPT에 비해 좀 더 많은 정보와 통계지표를 제공하는 것을 볼 수 있다. 그러나 통계분석에서 가장 중요한 통계량이나 유의수준은 SPSS나 ChatGPT 모두 정확히 일치한다. 즉, ChatGPT를 사용하더라도 데이터가 동일하다면 전문 통계분석 프로그램과 동일한 결과를 산출한다는 것이다. 참고로, 추가적인 질문을 통해 SPSS에서 제공하는 통계지표를 ChatGPT에서도 생성할 수 있다.

연구 데이터에 대한 통계분석이 완료되었다면, 마지막으로 해야 할 일은 검정 결과를 투고하려는 학술지의 형식에 맞게 작성하는 일이다. 이때 ChatGPT를 이용하면 매우 쉽게 작성할 수 있는데, ① 메시지 창에 “위 검정 결과를 대한자기공명기술학회지의 투고 형식에 맞게 작성해 줘”라고 입력하고 ② 실행 버튼을 누르면 된다. 그러면 아래와 같이 투고하려는 학술지의 투고 형식에 맞게 검정 결과가 작성되어 출력된다(그림10, 그림11).

그림10, 그림11. ChatGPT를 이용해 얻은 검정 결과를 투고 학술지 형식에 맞게 작성하는 방법 예시

이번 호는 ChatGPT를 이용한 통계분석의 첫 번째 시간으로 단일 표본 T검정의 통계분석 방법에 대해 살펴보았다. 필자가 이번 호를 작성하면서 느낀 점은 ChatGPT는 연구자들이 통계에 대한 진입 장벽을 낮추고, 통계 개념에 쉽게 접근할 수 있도록 도와주는 유용한 보조 도구라는 점이다. 그리고 특정 부분에서는 오히려 전문 통계분석 프로그램이 구현할 수 없는 일을 구현한다는 점에 매우 인상이 깊었다. 그러다 보니 이제는 ChatGPT가 많은 연구자의 수고스러움을 어느 정도는 해결할 수 있을 것 같다는 생각이 든다. 그러나 활용에 있어서 결과를 판단하고 책임지는 것은 연구자이기에 비판적으로 사고하고 확인하는 습관이 병행되어야 한다. ChatGPT는 우리가 공부하고 연구하는 길을 좀 더 수월하게 해주는 똑똑한 조력자일 뿐, 모든 것을 대신해주는 도구는 아니기에 궁극적으로는 연구자가 직접 통계에 대한 기본 개념과 응용력을 갖추는 것이 가장 중요하다고 판단된다.