배경음악 Off

배경 음악이 재생 중입니다.

딥러닝은 이미 우리 주변에 가까이 닿아 있다. 우리가 매일같이 보고 있는 의료영상에도 딥러닝을 이용한 연구가 활발히 이루어지고 있다. 의료영상을 연구하는 연구자로서 딥러닝의 모든 것을 다 이해할 수는 없지만 이를 이용하여 더 좋은 의료영상을 만들고 싶다는 생각을 가지고 있었다. 그러는 와중에 『그림으로 이해하는 비전공자를 위한 딥러닝』이라는 책을 접하게 되었다. ‘그림으로 이해’한다는 접근은 딥러닝에 친근하게 다가갈 수 있게 해 줄 것이라고 생각하였고, 저자 또한 나처럼 비전공자이지만 딥러닝을 이해하고 활용하는 직군에 있다는 것에 동질감을 느꼈다.

이 책의 저자는 딥러닝과는 거리가 먼 국문과를 졸업한 뒤 현재 AI 개발자로 일하는 엔지니어로, 이 분야에서 일하면서 다양한 고난을 겪었다고 한다. 그러다 보니 우리와 같은 비전공자들이 인공지능에 접근하는 데 어떤 부분에서 어려움을 겪는지 이해하고 있으며, 또한 그들이 인공지능을 이용할 수 있게 쉬운 수준의 강의를 만들어보자는 취지로 글을 썼다고 한다.
이 책은 인공지능 전문가들의 입장에서는 엄밀성이 부족하다고 여길 수도 있지만 대신 쉽고 간결하게 쓰여 있어 비전공자들이 핵심개념들을 이해할 수 있고, 전체적인 큰 그림을 그릴 수 있게 해 준다. 그렇기에 비전공자이지만 딥러닝이라는 툴을 이용하여 의료영상에 이바지하고 싶은 나의 목적과 닿아 있었다.

이 책은 세 파트로 나누어져 있다. 첫 번째 파트에서는 딥러닝에 대한 이해를 돕기 위해 먼저 학습, 머신 러닝 등에 대한 기본적인 개념을 설명한다. 두 번째 파트에서는 신경망의 기초 및 학습에 대한 설명으로 딥러닝에 대한 핵심 개념을 설명하고 있고, 세 번째 파트에서는 한 걸음 더 나아가 학습을 더 잘 시키기 위한 방법이 무엇인지를 설명한다. 본 기사는 첫 번째 파트에서 설명하고 있는 딥러닝 관련 기본 개념을 풀어서 쉽게 설명함으로써, 딥러닝에 관심은 있지만 개념이 생소한 분들에게 문턱을 낮춰 주거나 주변 사람들과 딥러닝에 대해 기본적인 이야기를 나눌 수 있는 교양의 폭을 넓히는 데 도움이 되고자 한다.

1. 학습이란 무엇인가?

딥러닝의 기초 단계인 ‘학습’을 이해하기 위해서 먼저 내가 스팸 메일을 골라내는 기계라고 가정해보자. 스팸 메일을 골라내기 위해 처음에 해 볼 수 있는 것은 스팸 메일의 제목에 들어갈 만한 단어를 필터로 골라내는 것이다. 그럼 ‘초특가, 판매, 무료’ 라는 단어를 떠올려 필터를 통해 골라내 보았다고 하자. 그러나 스팸 메일의 제목에 이 단어들이 포함되지 않은 경우도 많기 때문에 모두 골라내지는 못한다.

따라서 다음과 같이 더 세밀하게 필터 명령을 내려서 골라내 보기로 한다. 필터 명령 1. ‘초특가, 판매, 무료’ 단어가 제목에 적어도 하나가 포함된 메일은 스팸 메일이다. 2. ‘업무, 보고서, 영업’이라는 단어가 제목에 들어간 메일은 스팸 메일이 아니다. 3. ‘업무, 보고서, 영업’ 단어가 들어가지 않은 메일은 모두 스팸 메일이다.’라고 정의 내렸다. 앞선 필터보다 디테일해지면서 스팸 메일을 더 효과적으로 분류할 수 있겠지만 수천 개의 이메일을 분류하기에는 아직도 어려움이 있다. 매번 스팸 메일 분류 성공률을 높이기 위해 조건을 하나씩 붙여 갈 수는 없을 것이고, 예측 불가능한 스팸 메일에 대처할 수도 없을 것이다.

그렇다면 이제 내가 기계가 아니고 인간이라면 어떻게 이 문제를 해결할까? 나라면 스팸 메일은 ‘1’이라 표시하고 스팸이 아닌 메일은 ‘0’이라고 표시하여 어느정도 분류를 한다. 분류한 데이터를 가지고 나를 도와줄 수 있는 사람을 찾아 위와 같은 방법으로 먼저 분류를 시켜본다. 그 사람의 예상 분류 결과와 내가 분류한 결과가 같은지 확인하고 틀린 부분이 있을 때 그 이유를 분석해가며 함께 정리해본다.

이 과정을 반복하며 함께 분류한다. 이와 같은 과정을 반복하다 보면 나를 도와주는 사람은 스팸 메일 전문가가 되어 있을 것이다. 이것이 학습의 기본 개념이다. 예측한 답을 채점하고 오답노트를 만들어 가면서 발전해 나가는 과정. 이 과정을 사람 대신 기계가 시행한다면 어떻게 될까?

즉, 정답이 있는 데이터를 가지고 정답을 가려 둔다. 정답을 모른 채 데이터만을 바탕으로 먼저 답을 예측해 본다. 기계가 한 예측과 실제 답을 비교한다. 틀린 예측들에 대해서 기계의 예측 방향을 실제 답과 가까워지도록 수정한다. 이 과정을 반복한다. 이것이 바로 기계 학습, 즉 머신 러닝이다.

학습에 사용되는 데이터는 한정적이기 때문에 한정적인 데이터를 가지고 정확한 훈련을 해야만 학습데이터에 없는 케이스의 데이터가 들어왔을 때에도 정확한 값을 도출할 수 있다. 그렇기 때문에 학습을 할 때, 정답이 있는 데이터를 통해 정확하게 학습하고 있는지를 확인하는 일은 중요하다. 그러므로 가지고 있는 모든 데이터를 학습시키는 것이 아니라 일부는 남겨 두었다가 정확하게 학습하였는지 시험해 보는 데 활용한다. 시험 결과인 시험 정확도를 가지고 기계가 정확하게 학습했는지를 객관적으로 파악할 수 있다. 시험 정확도가 만족스러운 성능을 나타낸다면 정답이 없는 실제 데이터를 추론할 수 있는 현장 투입이 가능해지는 것이다.

학습의 기본 개념을 나타낸 모식도
정확한 학습을 위해 정답이 있는 데이터를 두 덩어리로 나눈 모식도

2. 인공지능, 머신러닝, 딥러닝의 차이는 무엇인가?

인공지능? 인공지능은 인간의 지능을 모방한 인공적인 지능을 의미한다. 인류는 수천 년에 걸쳐 인간의 지능이 어떻게 작동하는지 이해하려고 노력해왔는데, 이 자체보다는 지능적인 모델을 활용해 산업적으로 어떻게 이용할 것인가에 더 초점이 맞춰져 있다.

머신러닝? 머신 러닝은 인공지능에 포함되는 개념으로, 앞서 설명한 학습을 통해 예측을 수행하는 방법이다.
딥러닝? 딥러닝은 머신 러닝의 일종으로, 인간 뇌의 신경망에서 착안한 인공신경망을 의미한다. 즉 신경망 구조로 학습하는 머신 러닝을 딥러닝이라고 한다. 딥러닝 모델의 대표적인 예로 CNN이 있다. CNN은 합성신경망으로 합성곱 필터를 사용해 이미지 데이터를 학습하는 모델구조이기 때문에 의료영상을 다루는 우리에게 친근한 딥러닝 모델이다.

인공지능과 머시러닝 그리고 딥러닝과의 관계를 나타낸 모식도

3. 지도학습과 비지도학습의 차이는 무엇인가?

머신 러닝은 학습의 종류에 따라 구분되기도 한다. 지도 학습과 비지도 학습을 나누는 기준은 학습 데이터에 정답이 있는지 여부라고 할 수 있다. 데이터의 정답이 있다면 지도 학습이고 정답이 없는 데이터라면 비지도 학습인 것이다. 앞서 학습의 개념을 통해 지도 학습에 대해 이해했으므로 비지도 학습에 대한 이야기를 해보겠다.

다시 스팸 메일을 분류하는 기계라고 생각해보자. 만약 가지고 있는 데이터가 스팸 메일인지 모른 채 스팸 메일을 골라내야 한다면 어떻게 해야 할까? 비지도 학습에서는 대표적으로 ‘군집화’라는 방법이 있는데, 이는 데이터를 여러 개의 그룹으로 묶어 내는 방법이다. 비지도 학습은 어떤 메일이 스팸 메일인지 모르는 채 다른 특징들만 이용해 메일을 두 그룹으로 분리해 내는 것을 목표로 할 것이다. 그 결과, 두 그룹 중 한 그룹은 스팸 메일의 특성을 가지고 있는 그룹으로 군집화가 이루어질 것이다. 이처럼 데이터를 분류하는 필터에 대한 정보가 없이 데이터의 특징을 스스로 분류하는 방법을 비지도 학습이라고 한다.

인공지능 기술은 의료영상 분야에서도 새로운 변화의 혁신을 만들고 있다.

지금까지 딥러닝을 이해하기 위해 첫 번째 단계인 학습에 대한 이해, 딥러닝과 인공지능 간의 관계, 마지막으로 지도 학습과 비지도 학습에 대한 이해를 설명하였다. 크게 기본적인 개념을 바탕으로 만들어진 다양한 모델들은 정확한 결과를 만들어내기 위해 예측값과 정답값의 오차를 줄이도록 설계된다.

인공지능 기술은 의료영상 분야에서도 새로운 변화의 혁신을 만들고 있다. 특히 코로나 바이러스의 유행은 의료 인공지능 발전에 더욱 박차를 가할 수 있게 하였다. 그 예로 X-ray 영상 사진을 기반으로 코로나 진단을 보조하는 AI 소프트웨어들도 개발되고 있으며 폐암, 폐질환, 유방암 등의 질병을 정확하고 빠르게 진단하는 소프트웨어 등이 등장하고 있다. 이러한 흐름 속에서 방사선사는 의료영상을 다루는 직업으로서, 딥러닝 결과값의 오차를 줄이기 위해 원리를 이해하고 이를 수정할 수 있는 방법을 모색한다면 딥러닝을 통해 더 수준 높은 의료영상을 만드는데 이바지할 수 있을 것이라 생각한다.