창발 능력: 진짜인가 신기루인가?

큰 모델은 작은 모델에 없는 능력을 갑자기 "터득"하는 듯합니다. 진짜 상전이일까요, 아니면 측정 방식의 속임수일까요? 정직한 답은 둘 다입니다.

research2026-04-03 08:35 KST·편집장·7 분

대규모 언어 모델에 관해 가장 인상적이면서도 가장 많이 논쟁된 주장 중 하나는, 모델이 *창발 능력(emergent abilities)*을 보인다는 것입니다. 더 작은 모델에는 없다가, 모델이 규모의 어떤 문턱을 넘으면 겉보기에 한꺼번에 나타나는 능력 말입니다. 그 그림은 극적입니다. 그저 거기 없던 능력이 갑자기 켜지는 것이죠. 이는 스케일링이 어디로 향하는지에 대한 흥분과 불안을 함께 불러일으켰습니다. 또한 강하게 반박당하기도 했습니다. 정직한 그림은 과장도 반박도 시사하는 것보다 더 흥미롭습니다.

이 모든 것의 중심에 있는 질문은 이렇습니다. 큰 모델이 작은 모델은 못 하는 무언가를 할 수 있을 때, 그것은 모델 안에서 일어난 진짜 상전이일까요, 아니면 우리가 측정 방식을 어떻게 골랐는지에서 비롯된 인공물일까요? 이것을 제대로 잡는 일은 스케일링이 무엇을 가져다주고 무엇을 가져다주지 않을지를 어떻게 생각할지에 중요합니다.

"창발"이 뜻해야 하는 것

이 주장은 구체적입니다. 어떤 능력이 더 작은 크기의 넓은 범위에 걸쳐 모델의 성능이 평평하고 거의 쓸모없는 채로 머물다가, 모델이 특정 규모를 지나면 가파르게 솟구치면, 그 능력을 창발적이라 부릅니다. 크기에 대해 그리면, 그 곡선은 평평한 선 뒤에 위로 솟은 갑작스러운 절벽처럼 보입니다. 그 능력은 이전 것의 매끄러운 연속이 아니라 질적으로 새로운 것처럼 보입니다.

이는 "더 큰 모델이 더 낫다"보다 강한 주장입니다. 전반적으로 더 나은 것은 예상되는 일이고 스케일링 법칙의 매끄러운 곡선을 따릅니다. 창발은 무언가 더한 것을 말합니다. 어떤 능력들이 점진적으로 획득되는 것이 아니라, 더 작은 모델을 지켜봐서는 예측할 수 없는 방식으로 문턱을 지나며 불쑥 존재하게 된다는 것이죠. 만약 사실이라면, 스케일링이 예고 없이 갑자기 도착하기 전까지는 알아챌 수 없는 능력이라는 뜻밖의 일들을 품고 있다는 의미가 됩니다.

사람들이 그것을 믿은 이유

그 믿음은 무에서 나온 것이 아닙니다. 많은 과제에 걸쳐, 연구자들은 실제로 이 패턴을 관측했습니다. 작은 모델과 중간 모델은 우연 수준의 점수를 받다가, 더 큰 모델은 좋은 점수를 받았고, 그 도약은 규모의 좁은 띠에 집중되어 나타나는 듯했습니다. 다단계 추론, 특정 종류의 산술, 복잡한 지시 따르기 같은 것들은 종종 특정 크기 이상에서만 켜지는 스위치가 있는 것처럼 보였습니다.

이런 과제들에서 작은 모델은 단지 더 못하는 것이 아니라 정말로 불가능한 것처럼 보였습니다. 다단계 문제를 매번 통째로 틀리는 모델은, 그것을 맞히는 모델과 범주적으로 달라 보입니다. "한 번도 못 함"에서 "자주 함"으로의 도약은 정도가 아니라 종류의 변화처럼 느껴집니다. 무언가 새로운 것이 나타났다는 그 직관이야말로 창발을 그토록 설득력 있고 널리 되풀이된 아이디어로 만든 것입니다.

김 빠지게 하는 반론

그러다 날카로운 비판이 등장했고, 그것은 측정에 내려앉았습니다. 창발이 나타난 과제 중 다수는 전부 아니면 전무 방식으로 채점되었습니다. 모델은 완전히 정답일 때만 만점을 받고 그 외에는 0점을 받았죠. 다단계 문제에서 열 단계 중 아홉 단계를 맞혀도 그 규칙 아래서는 여전히 0점입니다.

그런 지표 아래서, 모델은 꾸준히 그리고 눈에 띄지 않게 개선되면서도, 즉 점점 더 많은 단계를 맞히면서도, 모든 것을 맞히는 선을 아직 넘지 못했기에 점수가 0에 고정된 채 머물 수 있습니다. 그러다 마침내 그 선을 넘으면 점수가 도약합니다. 밑바탕의 능력은 매끄럽게 자랐고, 가혹한 채점 규칙만이 그것을 갑작스러운 도약처럼 보이게 만든 것입니다. 부분 점수를 주는 더 너그러운 지표로 측정하면, 창발적이라던 곡선 다수가 스케일링 법칙이 예측하는 바로 그 매끄러운 개선으로 펴집니다. 이 관점에서 절벽은 모델이 아니라 잣대에 있었습니다.

이것이 이야기의 끝이 아닌 이유

창발이 전적으로 측정의 착시라고 결론짓는 것은 깔끔할 것입니다. 하지만 그것은 지나칩니다. 그 비판은 일부 외견상의 창발이 지표의 인공물이며, 전부 아니면 전무 채점이 매끄러운 진전에서 절벽을 만들어 낼 수 있음을 설득력 있게 보입니다. 그러나 모든 뜻밖의 능력 향상이 그렇게 설명된다는 것을 보이지는 않습니다.

밑바탕 곡선이 매끄러울 때조차, 어떤 능력이 특정 지점을 지나서야 비로소 쓸 수 있게 된다는 진짜 중요한 의미가 있습니다. 기술적으로는 존재하지만 천 번에 한 번만 과제를 완수하는 능력은 실용적으로는 없는 것이고, 대부분의 경우 과제를 완수하는 같은 능력은 실용적으로는 새로운 것입니다. 모델을 쓰는 사람의 관점에서는, 내부 곡선이 처음부터 점진적이었더라도 그 전환은 중요합니다. 밑은 매끄러워도 여전히 사용에 의미 있는 문턱이 될 수 있습니다.

서로 다른 세 주장을 풀어내기

사람들이 창발로 뜻하는 세 가지를 분리하면 혼란이 풀립니다. 첫째는 매끄러운 능력 성장으로, 이는 그저 스케일링이 예상대로 작동하는 것이고 놀랍지 않습니다. 둘째는 가혹한 지표가 만든 가파른 곡선으로, 이는 대체로 인공물이며 더 나은 측정으로 매끄럽게 펼 수 있습니다. 셋째는 유용성의 진짜 문턱으로, 점진적으로 개선되던 능력이 비실용에서 실용으로 건너가 모델이 실제로 무엇에 쓸모 있는지를 바꾸는 지점입니다.

격렬한 논쟁의 대부분은 이것들을 하나의 주장인 양 다투는 데서 옵니다. 김 빠지게 하는 비판은 주로 둘째를 겨냥합니다. 흥분한 보도는 대개 셋째를 알아챘습니다. 그리고 첫째가 그 모두의 바탕에 깔려 있습니다. 창발이 "진짜"인지에 대한 의견 차이는 보통 누가 이 셋 중 어느 것을 염두에 두고 있는지에 대한 의견 차이로 드러납니다.

이것이 미래 예측에 뜻하는 바

실용적인 판돈은 예측에 관한 것입니다. 만약 능력이 예측할 수 없는 문턱을 지나 정말로 무에서 나타난다면, 스케일링은 추론하기에 정말로 위험할 것입니다. 다음 모델이 무엇을 갑자기 할 수 있을지 결코 알 수 없을 테니까요. 지표 비판은 여기서 부분적으로 안심을 줍니다. 외견상의 예측 불가능성 상당 부분이, 주의 깊게 측정하면 매끄럽고 예측 가능한 추세로 녹아 없어집니다.

하지만 그 안심은 불완전합니다. 매끄러운 밑바탕 진전조차 모델이 무엇에 유용한지에서 급격한 변화를 낳을 수 있고, 그 실용적 문턱은 그 아래 깔린 매끄러운 곡선보다 예측하기 어렵습니다. 그래서 책임 있는 입장은 "언제든 무엇이든 창발할 수 있다"도 아니고 "정말로 창발하는 것은 결코 없다"도 아닙니다. 능력은 매끄럽게 자라는 경향이 있지만 유용성은 갑자기 옮겨 갈 수 있으며, 어느 쪽인지 가려내게 해 주는 것이 바로 주의 깊은 측정이라는 것입니다.

정리

창발 능력은 무엇을 뜻하느냐에 따라 진짜이면서 동시에 신기루입니다. 스위치가 켜지는 듯한 극적인 외양의 상당 부분은 전부 아니면 전무 채점의 인공물입니다. 너그럽게 측정하면 곡선은 매끄럽고, 스케일링은 예측 가능하게 행동합니다. 하지만 점진적으로 개선되는 능력도 여전히 쓸모없음에서 쓸모 있음으로의 진짜 문턱을 넘을 수 있고, 모델 안에서 불연속적인 일이 전혀 없었더라도 그 실용적 도약은 중요합니다. 매끄러운 성장, 지표 인공물, 유용성의 문턱을 분리하면, 그 논쟁은 예 아니오를 다투는 싸움이기를 멈추고 처음부터 그래야 했던 것이 됩니다. 주의 깊은 측정의 문제 말입니다.

#emergence#scaling#evaluation#research

1차 출처

arXiv — machine learning research Stanford CRFM — HELM