스케일링 법칙: 더 크게, 그런데 왜
"더 크게 만들어라"는 과학이 아니라 구호처럼 들립니다. 스케일링 법칙은 그것을 과학으로 바꾼 것입니다. 그 법칙이 실제로 무엇을 말하고 무엇을 말하지 않는지 짚어 봅니다.
"그냥 더 크게 만들어라"는 현대 AI의 진보가 일어나는 방식을 풍자한 표현이지만, 대부분의 풍자가 그렇듯 그 안에는 진짜 얼굴이 담겨 있습니다. 그 아이디어의 진지한 버전이 바로 스케일링 법칙(scaling law)이라 불리며, 이 분야에서 가장 영향력 있는 발견 중 하나입니다. 스케일링 법칙은 "클수록 좋다"를 막연한 직감에서, 수십억 달러짜리 프로젝트를 계획할 만큼 예측 가능한 무언가로 바꾼 것입니다. 이를 이해하면 모델이 왜 계속 좋아지는지, 그리고 그 개선에 무엇이 드는지에 관한 많은 혼란이 풀립니다.
핵심 발견을 평이하게 말하면 이렇습니다. 모델의 크기, 모델이 학습하는 데이터의 양, 그리고 학습에 들이는 연산을 늘리면, 모델의 성능은 매끄럽고 예측 가능한 방식으로 개선됩니다. 운 좋은 도약으로가 아니라, 매끄럽게, 그리고 예측할 수 있을 만큼 미덥게 말이죠.
스케일링 법칙이 실제로 주장하는 것
스케일링 법칙은 모델 학습에 투입하는 자원과 그 모델이 텍스트를 얼마나 잘 예측하는지 사이에서 관측된 관계입니다. 연구자들은 서로 다른 크기의 수많은 모델을, 서로 다른 양의 데이터로, 서로 다른 양의 연산으로 학습시키고, 성능이 어떻게 변하는지를 그래프로 그려 이를 측정했습니다.
그들이 발견한 것은 잡음이 아니었습니다. 점들은 놀랍도록 깔끔한 곡선을 따라 늘어섰습니다. 성능은 자원이 늘어남에 따라 꾸준히 개선되었고, 외삽할 수 있을 만큼 규칙적인 패턴으로 그러했습니다. 작은 모델이 어떻게 작동했는지를 안다면, 훨씬 큰 모델이 어떻게 작동할지를 놀라운 정확도로 예측할 수 있었던 것이죠. 그 예측 가능성이야말로 스케일링 법칙이 중요한 이유 전부입니다. 그것은 모델 제작을 어림짐작에서, 주어진 투자가 무엇을 사 줄지 쓰기 전에 추정할 수 있는, 공학에 더 가까운 무언가로 바꾸었습니다.
곡선을 이끄는 세 가지 재료는 모델의 파라미터 수, 학습 데이터의 양, 그리고 사용된 총 연산입니다. 이 중 무엇이든 다른 것들과 균형을 맞춰 밀어 올리면, 성능은 기대되는 경로를 따라 개선됩니다.
왜 더 큰 것이 계속 도움이 되는가
크기를 더 쌓아 올리면 금세 벽에 부딪히리라 예상하는 것은 합리적입니다. 어쨌든 모델은 그저 다음 텍스트 조각을 예측할 뿐이니까요. 열 배 더 크게 만든다고 해서 왜 포화되지 않고 계속 보답하겠습니까?
직관은 언어와 그 뒤에 놓인 세계가 지극히 풍부하다는 것입니다. 배울 패턴의 공급이 거의 바닥나지 않습니다. 더 드문 단어, 더 미묘한 문법 구조, 덜 흔한 사실, 더 복잡한 추론의 사슬, 더 전문적인 영역 같은 것들 말이죠. 작은 모델은 가장 흔하고 가장 명백한 규칙성만 포착할 수 있습니다. 더 많은 데이터로 학습된 더 큰 모델은 그 긴 꼬리, 즉 드물게 나타나지만 모이면 실제 언어의 거대한 몫을 차지하는 패턴들을 흡수할 역량을 갖습니다.
그러니 스케일링은 더 큰 모델이 마법처럼 더 똑똑하기 때문에 작동하는 것이 아닙니다. 배울 구조가 너무나 많아서 모델이 그 모두를 포착할 만큼 크지 못했기 때문에 작동합니다. 역량과 데이터를 더하면 모델은 그 구조 속으로 더 깊이 손을 뻗습니다. 곡선이 계속 아래로 휘는 것은 배울 수 있는 패턴의 공급이 아직 바닥나지 않았기 때문입니다.
크기와 데이터 사이의 균형
스케일링 법칙에서 가장 유용한 정교화 중 하나는, 세 재료가 함께 자라야 한다는 점입니다. 데이터를 굶기면서 모델만 거대하게 만드는 것으로는 충분치 않고, 작은 모델에 흡수할 수 있는 것보다 많은 텍스트를 들이붓는 것도 마찬가지입니다. 주어진 연산량에 대해, 균형 잡힌 배분이 존재합니다. 특정 크기의 모델을 특정 양의 데이터로 학습시키는 것이죠.
이 분야 초기에는 모델이 본 데이터에 비해 모델을 매우 크게 만드는 일이 잦았습니다. 후속 연구는 같은 연산 예산이라면, 다소 더 작은 모델을 훨씬 많은 데이터로 학습시키는 편이 더 나을 수 있음을 보였습니다. 그 교훈은 "크기는 덜 중요하다"가 아니라 "크기와 데이터는 맞춰져야 한다"였습니다. 연산을 올바른 비율로 쓰는 것이 연산을 얼마나 가졌는가만큼이나 중요합니다.
이 균형 때문에 모델의 품질을 파라미터 수만으로 읽어 낼 수 없습니다. 더 나은 균형으로 더 많은 데이터로 학습된 작은 모델이, 너무 적은 데이터로 학습된 큰 모델을 능가할 수 있습니다. 표제로 내세운 숫자는 이야기의 일부일 뿐입니다.
예측 가능성이 어떻게 모든 것을 바꾸었는가
스케일링 법칙의 실용적 힘은 예측에 있습니다. 프런티어 모델을 학습시키는 것은 엄청나게 비싸고, 몇 번밖에 시도할 수 없습니다. 스케일링 법칙이 없다면 매 시도는 도박이 될 것입니다. 감당할 수 있는 가장 큰 것을 만들고 잘 되기를 바라는 것이죠.
스케일링 법칙은 그 도박의 상당 부분을 걷어 냅니다. 성능이 예측 가능한 곡선을 따르므로, 팀은 작고 저렴한 모델 여러 개를 학습시켜 곡선을 맞추고, 외삽하여 훨씬 큰 모델이 어떻게 작동할지를 만들기로 결정하기 전에 추정할 수 있습니다. 또한 그 법칙을 이용해 고정된 예산을 어떻게 쓸지, 즉 모델을 얼마나 크게 만들고 데이터를 얼마나 모을지를 정해 최선의 결과를 얻을 수도 있습니다. 이것이 스케일링 법칙이 때때로 현대 AI의 계획 도구라 불리는 이유입니다. 그것은 위험 부담이 큰 베팅을 계산된 투자로 바꿉니다.
함정: 스케일링 법칙이 측정하는 것
여기 결정적인 깨알 같은 단서가 있습니다. 스케일링 법칙은 모델이 자신의 학습 목표를, 넓게 말해 텍스트를 얼마나 잘 예측하는지를 예측합니다. 모델이 어려운 문제를 추론으로 풀어낼 수 있는지, 지시를 따를 수 있는지, 지어내지 않을 수 있는지처럼 사람들이 실제로 신경 쓰는 것들을 직접 예측하지는 않습니다.
이 둘 사이의 연결은 실재하지만 느슨합니다. 더 나은 텍스트 예측은 더 나은 하위 능력과 함께 오는 경향이 있지만, 그 관계는 깔끔하지 않으며, 학습 목표에서의 개선이 어떤 특정 과제에서의 개선으로 또렷이 대응되지는 않습니다. 모델은 목표에서 측정 가능할 만큼 좋아지면서도, 당신이 신경 쓰는 특정 능력은 거의 움직이지 않거나 뜻밖에 도약할 수 있습니다. 그러니 스케일링 법칙은 한 가지 양에 대해서는 미더운 길잡이이지만, 그 양이 떠받쳐 주리라 여겨지는 능력들에 대해서는 간접적인 길잡이일 뿐입니다.
스케일링이 약속하지 않는 것
스케일링 법칙을 더 많은 자원이 모든 것을 해결하리라는 보증으로 읽고 싶어집니다. 그것이 약속하는 것은 그보다 적습니다. 그것은 연구된 범위에 걸쳐 관측된 추세를 기술하며, 지금까지 보인 매끄러운 곡선이 영원히 이어진다는 계약은 아닙니다. 그런 모든 추세는 결국 어떤 한계에 부딪힙니다. 쓸 수 있는 데이터의 한계, 유용한 연산의 한계, 남아 있는 배울 패턴의 한계 말이죠.
또한 스케일링은 그 자체로 판단이나 신뢰성, 정직함을 가져다주지 않습니다. 그것들은 날것의 역량이 만들어진 뒤에 모델을 어떻게 빚느냐에서 오지, 크기만으로 오지 않습니다. 그리고 스케일링에는 그 이점만큼이나 빠르게 자라는 비용이 따릅니다. 막대한 연산, 에너지, 데이터 요구 말이죠. 스케일링 법칙은 더 큰 것이 왜 계속 도움이 되었는지를 설명하고 자원을 어떻게 쓸지 계획하는 데 도움을 주지만, 그것은 패턴이 결코 끝나지 않으리라 약속하는 자연의 법칙이 아니라 하나의 패턴에 대한 기술입니다.
정리
스케일링 법칙은 모델 크기, 데이터, 연산을 함께 키우면 모델 성능이 매끄럽고 예측 가능하게 개선된다는 발견입니다. 그 예측 가능성이 진짜 의의입니다. 그것은 "더 크게 만들어라"를 구호에서 계획 도구로 바꾸어, 팀이 도박하는 대신 예측하고 예산을 짤 수 있게 했습니다. 하지만 그 법칙은 모델이 텍스트를 얼마나 잘 예측하는지를 측정하지, 우리가 궁극적으로 원하는 특정 능력들을 측정하지 않으며, 그것은 추세를 기술할 뿐 영원히 보증하지 않습니다. 더 큰 것이 계속 도움이 된 것은 배울 구조가 그토록 많이 남아 있었기 때문입니다. 그리고 그 법칙을 정확히 주장하는 만큼만, 그 이상은 아니게 읽는 것이야말로 과잉 해석을 피하는 길입니다.
