디스틸레이션: 큰 모델로 작은 모델 가르치기

지식 증류는 작은 모델이 큰 모델을 모방하도록 훈련합니다. 핵심은 정답을 베끼는 것이 아니라, 큰 모델이 망설이는 방식을 베끼는 데 있습니다.

research2026-05-21 13:52 KST·편집장·7 분

가장 크고 가장 유능한 모델은 가장 비싼 모델이기도 합니다. 느리고, 질의 한 건당 비용이 크며, 정작 가지고 있는 하드웨어에는 들어가지 않는 경우가 많습니다. 지식 증류(knowledge distillation)는 그런 능력의 대부분을 유지하면서 비용의 대부분을 덜어내게 해 주는 기법입니다. 핵심을 한 줄로 요약하면 이렇습니다. 작은 모델이 큰 모델을 모방하도록 훈련하는 것. 흥미로운 지점은 그 "모방"이 실제로 무엇을 뜻하는가에 있습니다.

이 기법은 다루기 힘들지만 정확한 모델을 작고 배포하기 좋은 모델로 압축하는 방법으로 딥러닝 시대에 널리 알려졌습니다. 구도에는 기억하기 좋은 이름이 붙어 있습니다. 큰 모델은 교사(teacher), 작은 모델은 **학생(student)**입니다. 학생은 작업을 처음부터 다시 발견하도록 훈련되는 것이 아니라, 교사의 행동을 재현하도록 훈련됩니다.

작은 모델을 그냥 직접 훈련하면 안 될까

가장 떠오르기 쉬운 대안은, 교사가 본 것과 동일한 레이블 데이터로 작은 모델을 훈련하고 교사를 아예 건너뛰는 것입니다. 가끔은 그렇게 해도 됩니다. 하지만 안 되는 경우가 많고, 그 이유가 시사하는 바가 큽니다.

실제 훈련 레이블은 보통 **하드 레이블(hard label)**입니다. 이 이미지는 고양이, 끝. 이 단 하나의 정답은 잘 훈련된 교사가 알고 있는 것 중 많은 부분을 버립니다. 좋은 교사는 그냥 "고양이"라고만 하지 않습니다. "거의 확실히 고양이, 개일 가능성도 약간, 비행기는 절대 아님"이라고 말합니다. 모든 선택지에 걸친 이런 확신의 분포는 한 단어짜리 레이블보다 훨씬 풍부한 훈련 신호입니다. 어떤 실수가 합리적이고 어떤 실수가 터무니없는지를 담고 있죠. 하드 레이블로 훈련된 작은 모델은 그것을 결코 보지 못하지만, 교사의 전체 출력으로 훈련된 학생은 봅니다.

소프트 타깃: 아이디어의 핵심

가능한 정답 전체에 걸친 교사의 확률 분포는 흔히 **소프트 타깃(soft target)**이라고 부릅니다(단 하나의 정답이라는 하드 타깃과 대비되는 개념입니다). 이 소프트 타깃은 연구자들이 이따금 **다크 날리지(dark knowledge)**라고 부르는 것, 즉 레이블 자체에는 보이지 않지만 교사가 학습한 관계들을 담고 있습니다.

숫자 인식을 떠올려 봅시다. 손으로 쓴 7은 1 쪽으로 약간의 확률을 끌어올 수 있습니다. 7과 1이 비슷해 보일 수 있기 때문이죠. 반면 8 쪽으로는 거의 끌어오지 않습니다. 1을 향한 그 작은 기울기는 입력의 형태와 문제의 구조에 대한 실제 정보입니다. 학생이 최상위 정답만이 아니라 분포 전체에 맞추도록 훈련하면 그 구조가 전이됩니다. 학생은 교사의 결론만이 아니라 교사의 세계관을 배우게 됩니다.

이 소프트 타깃을 더 유익하게 만들기 위해, 증류에서는 분포를 한층 더 부드럽게 펼치는 경우가 많습니다. 확률을 더 넓게 분산시켜서 차순위 선택지들 사이의 작은 차이가 더 두드러지고 배우기 쉬워지도록 만드는 것이죠. 학생은 이렇게 부드러워진 그림에 바짝 맞추도록 요구받습니다.

무엇이 전이되고 무엇은 전이되지 않는가

증류는 이해가 아니라 행동을 전이합니다. 학생은 자신이 훈련받은 종류의 입력에 대해 교사의 출력처럼 보이는 출력을 만들도록 배웁니다. 이것은 강력하면서도 동시에 한계가 분명합니다.

커버리지만큼만 좋습니다. 학생은 자신이 본 예시에서만 교사를 모방합니다. 증류 데이터에 있던 그 무엇과도 다른 입력에서는 베낄 교사가 없으니, 어떻게든 일반화해 둔 것에 의존할 수밖에 없습니다.
교사의 결함을 물려받을 수 있습니다. 교사가 편향되어 있거나, 과신하거나, 체계적으로 틀려 있다면 학생도 그것을 그대로 베낍니다. 증류는 충실한 모방이며, 여기에는 실수의 충실한 모방도 포함됩니다.
증류된 작업에서 교사를 능가하는 일은 드뭅니다. 학생은 교사의 행동을 쫓고 있으므로, 학생이 더 효율적이더라도 그 특정 신호에 관한 한 교사가 천장입니다.

이 중 어느 것도 증류의 유용성을 깎아내리지는 않습니다. 다만 기대치를 정해 줄 뿐입니다. 당신이 사는 것은 효율이지, 새로운 능력이 아닙니다.

언어 모델에서의 증류

같은 아이디어가 대규모 언어 모델에도 적용되며, 약간의 변형이 따릅니다. 언어 모델은 다음 토큰을 어휘 전체에 대한 확률 분포로 예측하므로, 그 소프트 타깃은 증류가 잘 작동하는 바로 그 풍부한 신호입니다. 학생 모델은 방대한 텍스트에 걸쳐 교사의 다음 토큰 분포에 맞추도록 훈련될 수 있습니다.

점점 흔해지는 두 번째 방식은 교사의 내부 확률에 접근할 필요가 전혀 없습니다. 여기서 교사는 그저 출력을 생성합니다. 답변, 설명, 풀이 과정 같은 것들이죠. 그러면 학생은 그렇게 생성된 텍스트를 평범한 훈련 데이터처럼 학습합니다. 이를 시퀀스 수준 혹은 생성 기반 증류라고 부르기도 하며, 모델이 생성한 데이터로 훈련한다는 더 넓은 관행과 경계가 흐릿하게 겹칩니다. 질의할 수 있는 어떤 교사와도, 심지어 텍스트만 반환하는 인터페이스로만 닿을 수 있는 교사와도 통하기 때문에 편리합니다.

두 방식 모두 핵심적인 베팅을 공유합니다. 작은 모델이라도 원시 레이블만으로 훈련하는 대신 큰 모델의 행동으로 훈련하면, 큰 모델 역량의 놀라울 만큼 큰 부분을 담아낼 수 있다는 것입니다.

이것이 실무에서 중요한 이유

증류는 유능한 AI가 저렴하게, 그리고 필요한 곳 가까이에서 돌아갈 수 있는 주된 이유 중 하나입니다. 증류된 모델은 대량으로 서비스할 만큼 작고, 인터랙티브하게 쓸 만큼 빠르며, 변변찮은 하드웨어에서도 돌아갈 만큼 작습니다. 많은 실제 배포에서 질문은 "세상에 존재하는 가장 유능한 모델은 무엇인가?"가 아니라 "하루에 백만 번 돌릴 만한 비용으로 감당할 수 있는, 가장 유능한 모델은 무엇인가?"입니다. 증류는 그 경계선을 옮겨 줍니다.

또한 유용한 분업도 가능하게 합니다. 크고 비싼 교사 하나에 집중 투자한 뒤, 이를 비용과 지연 시간 예산이 서로 다른 여러 작은 학생들로 증류하는 식이죠. 힘든 작업의 값은 한 번만 치르고, 그 비용을 여러 저렴한 모델에 분산해 상각합니다.

솔직한 트레이드오프

증류는 공짜도 아니고, 무손실도 아닙니다.

품질을 어느 정도 포기합니다. 학생은 더 작습니다. 가장 어려운 입력에서는 교사와 학생의 격차가 드러납니다. 손실이 당신의 용도에 받아들일 만한 학생 크기를 고르는 것이 기술입니다.
올바른 데이터가 필요합니다. 학생은 교사가 시범을 보이는 곳에서만 배웁니다. 무엇을 가지고 증류할지, 즉 실제로 중요한 입력을 커버할지를 고르는 일은 알고리즘만큼이나 중요합니다.
조용한 실패를 증폭할 수 있습니다. 학생이 교사를 무비판적으로 베끼기 때문에, 미묘한 교사의 편향이 당신이 널리 출시하는 모델에 그대로 굳어질 수 있습니다.

이런 한계를 아는 것이야말로, 증류를 믿을 만한 엔지니어링 도구로 쓰는 것과 막연한 지름길로 쓰는 것을 가르는 차이입니다.

정리

지식 증류는 작은 학생이 큰 교사를 모방하도록 훈련합니다. 그리고 핵심 통찰은, 베낄 가치가 가장 큰 것이 교사의 최종 답이 아니라 확신의 전체 분포, 즉 교사가 불확실성을 어떻게 다루는지 드러내는 소프트 타깃이라는 점입니다. 그 더 풍부한 신호 덕분에 작은 모델은 큰 모델 역량의 상당 부분을 그 비용의 일부만으로 담아낼 수 있습니다. 교사를 능가하지는 못하고 교사의 결함도 물려받지만, 비싼 능력을 배포 가능한 능력으로 바꾸는 방법으로서 증류는 현대 머신러닝에서 가장 조용하게 중요한 기법 중 하나입니다.

#distillation#compression#training#efficiency

1차 출처

arXiv Hugging Face documentation