합성 데이터: 모델 출력으로 모델 훈련하기

실제 데이터가 부족할 때, 모델은 자신의 훈련 데이터를 직접 생성할 수 있습니다. 강력하고, 약간 순환적이며, 출처를 잊으면 위험합니다.

research2026-04-22 11:19 KST·편집장·7 분

머신러닝은 늘 데이터에 굶주려 왔고, 한동안은 공급이 무한해 보였습니다. 하지만 특정 작업을 위한 고품질 데이터, 즉 레이블이 붙은 예시, 깨끗한 지시문, 정성스러운 시범은 비싸고, 희소하며, 때로는 법적으로나 윤리적으로 손댈 수 없습니다. 그래서 이 분야는 거의 역설처럼 들리는 아이디어에 기대게 되었습니다. 모델을 훈련하는 데 쓰는 데이터를 모델이 생성하게 하는 것. 이것이 합성 데이터이며, 어느새 현대 AI가 만들어지는 방식에서 가장 중요한 재료 중 하나가 되었습니다.

전제는 순환적으로 느껴지고, 어떤 의미에서는 정말 그렇습니다. 기술은 그 순환성을 퇴락이 아니라 생산적으로 만드는 데, 즉 우물을 서서히 오염시키지 않으면서 모델 출력에서 그것을 만드는 데 들인 것보다 더 많은 것을 끌어내는 데 있습니다.

애초에 데이터를 생성하는 이유

실제 데이터에는 실제 한계가 있고, 각각이 합성 데이터를 고려할 이유가 됩니다.

어떤 데이터는 거의 존재하지 않습니다. 드문 사건, 특이한 엣지 케이스, 저자원 언어, 흔치 않은 시나리오는 정확히 모델이 다루기를 가장 바라는 상황이면서, 또한 자연적인 예시가 가장 적은 상황입니다.
레이블링은 비쌉니다. 원시 데이터가 존재하더라도, 그것을 모델이 배울 수 있는 레이블 붙은 교육적 형태로 바꾸는 데는 저렴하게 확장되지 않는 사람의 노력이 듭니다.
실제 데이터에는 제약이 따라옵니다. 사적인 정보를 담을 수도, 사용 제한에 걸릴 수도, 공유가 불가능할 수도 있습니다. 합성 데이터는 그런 문제들을 비껴가도록 설계할 수 있습니다.
필요한 것을 정확히 겨냥할 수 있습니다. 올바른 예시가 말뭉치에 나타나기를 바라는 대신, 가르치고 싶은 바로 그 기술이나 상황의 예시를 많이 만들도록 모델에게 요청할 수 있습니다.

마지막 항목이 가장 깊은 동기입니다. 합성 데이터는 교육 과정을 제조하게 해 줍니다. 모델이 특정 종류의 추론에 약하다면, 자연적으로 생기는 문제를 세상에서 뒤지는 대신 집중적인 연습 문제를 쏟아 내어 생성할 수 있습니다.

합성 데이터의 여러 형태

"합성 데이터"는 모델에 얼마나 기대는지에 따라 다른 여러 기법을 아우릅니다.

가장 가벼운 손길은 **증강(augmentation)**입니다. 실제 예시를 가져다 변형을 만들어 내는 것이죠. 문장을 바꿔 쓰거나, 이미지를 약간 변형하는 식으로요. 그래서 작은 데이터셋이 더 멀리 늘어납니다. 데이터는 대부분 실제이며, 그저 곱해진 것입니다.

더 무거운 접근은 **완전 생성(full generation)**입니다. 유능한 모델에게 예시를 처음부터 만들어 내도록 요청하는 것이죠. 질문과 답을 생성하고, 지시문과 이상적인 응답을 작성하고, 문제의 풀이 과정을 만들어 냅니다. 여기서 모델은 데이터의 변형자가 아니라 데이터의 원천입니다.

특히 효과적인 패턴은 강한 모델로 더 약하거나 작은 모델을 가르치는 것입니다. 강한 모델이 고품질 시범을 생성하고, 그것이 학생을 위한 훈련 데이터가 됩니다. 이것은 증류와 크게 겹치며, 유능한 행동을 더 작고 저렴한 모델에 담아낼 수 있는 주된 이유 중 하나입니다. 비싼 모델이 힘든 사고를 한 번 하고, 그 출력이 재사용 가능한 교육용 말뭉치가 됩니다.

더 미묘한 패턴은 모델로 생성한 뒤 자신의 출력을 필터링하는 것입니다. 후보 답안을 많이 만들어 어떤 검사를 통해 좋은 것만 남기고, 그 생존자들로 훈련합니다. 모델은 자신의 최고 작업에서 배우고 나머지는 버림으로써 스스로를 부트스트랩합니다.

도대체 왜 이게 작동하는가

의심하는 것이 마땅합니다. 모델이 자기가 배운 것만 안다면, 그 출력이 어떻게 새로운 것을 가르칠 수 있을까요? 해답은 생성과 학습이 같은 연산이 아니라는 데 있고, 몇 가지 실제 메커니즘이 그 고리를 생산적으로 만듭니다.

모델은 흔히 좋은 답을 첫 시도에 만들어 내는 것보다 더 미덥게 알아볼 수 있습니다. 여러 번 시도해 생성한 뒤 검사를 통과한 것만 남기면, 즉 통과하는 테스트, 확인하는 검증기, 보상 신호로 걸러 내면, 흩어진 역량을 깨끗하고 일관된 훈련 데이터로 증류해 냅니다. 모델은 가끔 옳게 하는 법을 알고 있었고, 필터링이 그 "가끔"을 "미덥게"로 바꿉니다.

생성은 또한 기존 지식을 더 배우기 좋은 형태로 재구조화할 수 있습니다. 원시 텍스트를 깔끔한 질문-답 쌍으로 바꾸거나, 간결한 풀이를 단계별 설명으로 펼치는 식으로요. 정보는 잠재되어 있었고, 합성 생성이 그것을 명시적이고 배우기 쉽게 만듭니다. 그리고 하나의 강한 모델이 여러 작은 모델에 자신의 역량을 전이해, 만드는 데 비쌌던 능력을 퍼뜨릴 수 있습니다.

위험: 모델 붕괴

낙관적 이야기에는 날카로운 한계가 있고, 그것을 무시하는 것이 합성 데이터가 잘못되는 방식입니다. 실제 데이터에 발 딛지 않은 채 세대를 거듭하며 오직 모델의 출력만으로 모델을 훈련하면, 품질은 흔히 **모델 붕괴(model collapse)**라 불리는 과정에서 저하될 수 있습니다.

직관은 이렇습니다. 모델의 출력은 현실의 손실 있는 반영입니다. 그 출력으로 훈련하면 원본이 아니라 반영을 배웁니다. 드문 경우와 분포의 꼬리, 즉 특이하고 놀랍고 어려운 것은 정확히 모델이 자기 출력에서 과소 표현하는 것이라, 세대마다 조금씩 사그라집니다. 고리를 반복하면 모델의 세계는 밋밋하고 흔한 가운데로 좁아지며, 그것을 유능하게 만들었던 다양성을 잃습니다. 복사본의 복사본처럼, 매번의 통과가 고리 안에서는 결코 복구할 수 없는 세부를 잃습니다.

이것이 합성 데이터의 핵심 경고담입니다. 모델의 출력은 현실과의 접촉을 대체하지 못합니다. 그것은 현실의 파생물입니다. 실제이고 다양하며 사람에 발 딛은 데이터와의 연결을 완전히 끊으면, 그것을 좋게 만들었던 바로 그것을 시스템에서 서서히 빼내 버릴 위험이 있습니다.

우물을 오염시키지 않고 합성 데이터 쓰기

합성 데이터를 잘 쓰는 실무자들은 그것을 대체물이 아니라 보충물로 다루며, 현실에 닿는 끈을 놓지 않습니다.

실제 데이터를 섞으세요. 진짜이고 다양한 데이터를 훈련 혼합에 유지해 모델이 닻을 잃지 않고 꼬리가 사라지지 않도록 하세요.
공격적으로 필터링하세요. 합성 데이터는 그 품질 관리만큼만 좋습니다. 많이 생성하고 검증 가능하게 좋은 부분만 남기는 데 가치의 상당 부분이 있습니다.
생성을 실제인 무언가에 발 딛게 하세요. 생성기가 무에서 텍스트를 자아내게 하지 말고, 실제 문서, 실제 제약, 검증 가능한 신호로부터 작업하게 하세요.
좁아짐을 경계하세요. 평균 품질만이 아니라 다양성을 모니터링하세요. 깨끗해 보이지만 다양성을 잃은 데이터셋은 붕괴 역학이 자리 잡고 있다는 경고 신호입니다.

이렇게 하면 합성 데이터는 실제 데이터의 대체물이 아니라 증폭기가 됩니다. 그리고 그 두 관점의 차이가 곧 강력한 기법과 더딘 실패 사이의 차이입니다.

정리

합성 데이터는 모델을 훈련하는 데이터를 모델로 생성하는 관행이며, 실제이고 레이블 붙은 고품질 데이터가 희소하고 비싸고 제약이 많기에 필수가 되었습니다. 인식하고, 필터링하고, 재구조화하는 것이 원시 생성만으로 얻는 것보다 더 미더운 지식을 끌어낼 수 있기 때문에, 그리고 강한 모델의 출력이 여러 작은 모델을 가르칠 수 있기 때문에 작동합니다. 하지만 실제 위험이 따릅니다. 실제 데이터와 끊긴 채 자기 자신을 고리로 돌면, 모델 출력으로 훈련된 모델은 모델 붕괴 속에서 밋밋함으로 표류합니다. 핵심은 합성 데이터를 현실에 묶어 두는 것입니다. 실제 예시와 섞고, 강하게 필터링하고, 검증 가능한 무언가에 발 딛게 해서, 가진 것을 서서히 침식하는 대신 증폭하도록 말이죠.

#synthetic-data#training#data#model-collapse

1차 출처

arXiv Hugging Face documentation