프롬프트를 코드처럼 테스트하라

프롬프트는 사용자에게 배포되는 코드입니다. 테스트 케이스, 기준선, 그리고 변경 전 회귀 검사로 그렇게 다루세요.

tutorials2026-06-05 08:33 KST·편집장·7 분

프롬프트는 운영 환경에서 실행되며 사용자가 보는 것을 좌우하는 한 조각의 로직입니다. 우리는 단 한 번, 단 하나의 입력으로 돌려보고, 출력을 눈대중하고, 좋다고 선언한 함수를 결코 배포하지 않을 것입니다. 그런데 대부분의 프롬프트는 정확히 그렇게 개발됩니다. 문구를 손보고, 눈앞의 예시에 시험해보고, 그럴듯한 걸 보고, 배포하는 식이죠. 이 가이드는 우리가 이미 코드에 쓰는 규율, 즉 테스트 케이스, 기준선, 회귀 검사를 프롬프트에 적용하는 것에 관한 것입니다. 프롬프트는 그럴 자격이 있고, 그것 없이는 무너지기 때문입니다.

왜 데모가 당신을 속이고 있는가

프롬프트 작업에서 가장 위험한 습관 하나는, 인상적인 출력 하나로 프롬프트를 판단하는 것입니다. 프롬프트를 짜고, 손수 고른 입력에 돌려, 훌륭한 답을 얻고, 다 됐다고 느낍니다. 하지만 그 입력 하나는 실제 사용자가 보낼 것들의 범위를 대표하지 못합니다. 다르게 표현된, 필드가 빠진, 더 길거나 더 이상한 다음 입력은 쓰레기를 낳을 수 있고, 사용자가 당신 대신 알아낼 때까지 당신은 알지 못합니다.

데모가 오해를 부르는 이유는, 코드에서 단 한 번의 통과 실행이 오해를 부르는 이유와 같습니다. 그것은 당신이 염두에 둔 정상 경로를 테스트할 뿐, 생각하지 못한 경우는 테스트하지 않습니다. 프롬프트는 특히 이에 취약합니다. 출력이 틀렸을 때조차 유창하고 자신감 있어서, 나쁜 결과가 그럴듯하게 읽히기 때문입니다. 유일한 방어책은 개별 출력을 신뢰하기를 멈추고, 실제로 현실처럼 보이는 입력 세트에 걸쳐 동작을 측정하기 시작하는 것입니다.

현실처럼 보이는 테스트 세트를 만들어라

프롬프트 테스트는 대표적인 입력 모음, 즉 테스트 케이스에 해당하는 것을 꾸리는 데서 시작합니다. 실제 사용 데이터가 있다면 거기서 가져오고, 세트가 당신이 실제로 보는 다양성을 아우르도록 하세요. 전형적인 요청뿐 아니라 짧은 것, 잘못된 형식의 것, 예외 사례, 그리고 "좋은 답이 없는" 경우까지요. 쉬운 입력만으로 된 테스트 세트는 당신의 프롬프트가 쉬운 입력을 처리한다고 알려줄 뿐인데, 그건 이미 알고 있던 것입니다.

각 입력에 대해, 좋은 출력이 어떤 모습인지 정하세요. 때로는 정확히 확인할 수 있는 단 하나의 정답이 있습니다. 더 흔하게는 "좋음"이 속성들의 집합입니다. 올바른 형식, 관련 사실 포함, 지어낸 것 없음, 실패 사례를 올바르게 처리함처럼요. 무엇이든 돌리기 전에 좋음의 의미를 적어두는 것이, "그거 괜찮아 보이네"를 진짜 합격-불합격 판정으로 바꿉니다. 테스트 세트와 그 성공 기준이 구체화된, 프롬프트에 대한 당신의 사양입니다.

출력을 어떻게 채점할지 정하라

코드 테스트는 보통 정확한 동등성을 확인합니다. 프롬프트 출력에는 정확한 정답 하나가 있는 경우가 드물어서, 그에 맞는 채점 방식이 필요합니다. 구조화된 출력의 경우, 즉 특정 형식, 필수 필드, 정해진 집합에서 나온 값 같은 경우, 프로그램적으로 확인할 수 있습니다. 파싱되는가, 필드가 있는가, 값이 유효한가. 이런 검사는 비용이 싸고 자동화할 가치가 있습니다. 애플리케이션에서 가장 중요한 기계적 실패를 잡아내기 때문입니다.

열린 출력의 경우, 채점은 판단에 기반합니다. 답이 핵심을 다루는가, 지어내기를 피하는가, 올바른 어조를 맞추는가. 읽어서 할 수 있으며, 작은 세트라면 읽기는 괜찮고 과소평가된 방법입니다. 규모가 커지면, 당신이 작성한 루브릭에 맞춰 모델이 출력을 채점하게 하는 방식이 흔합니다. 유용하지만 루브릭만큼만 좋고, 당신 자신의 읽기와 대조해 표본 점검할 가치가 있습니다. 요점은 "괜찮아 보이네"로 물러서는 대신 채점 방법을 의도적으로 고르는 것입니다. "괜찮아 보이네"는 방법이 아닙니다.

무엇이든 바꾸기 전에 기준선을 세워라

프롬프트를 개선하기 시작하기 전에, 현재 프롬프트를 전체 테스트 세트에 돌려 어떻게 하는지 기록하세요. 그 점수가 당신의 기준선, 즉 모든 변경이 비교되는 기준입니다. 기준선이 없으면 깜깜이 비행입니다. 변경을 가하고, 출력 하나가 나아지는 걸 보지만, 프롬프트가 전체적으로 좋아졌는지 나빠졌는지 알 수 없습니다. 한 경우를 고치면서 조용히 세 경우를 망가뜨리는 변경은 진보처럼 보이지만 그 반대입니다.

기준선은 프롬프트 작업을 무작위 행보가 아니라 누적적인 것으로 만듭니다. 각 후보 변경은 같은 세트에 돌려져 기준선과 비교됩니다. 세트 전반에서 더 나으면 새 기준선이 됩니다. 더 나쁘면, 당신이 좋아한 출력 하나를 냈더라도 버립니다. 이것이 핵심 루프이며, 코드 리팩터링을 안전하게 만드는 바로 그 루프입니다. 언제든 대조할 수 있는, 좋다고 알려진 기준점 말입니다.

한 번에 하나씩 바꿔라

프롬프트가 부진할 때, 절반을 한꺼번에 다시 쓰고 싶은 유혹이 듭니다. 새 지시, 새 예시, 새 형식을 한꺼번에요. 결과가 나아지면 어떤 변경이 도움이 됐는지 모르고, 나빠지면 어떤 변경이 해를 끼쳤는지 모릅니다. 어느 쪽이든 옮겨갈 수 있는 지식은 아무것도 배우지 못합니다. 변수 하나를 바꾸고, 테스트 세트를 돌리고, 기준선과 비교하고, 결과를 기록하세요. 그런 다음 다음 것을 바꾸세요.

이것은 반복마다는 더 느리지만 전체적으로는 훨씬 빠릅니다. 당신의 프롬프트가 무엇에 반응하는지에 대한 실제 지식을 쌓기 때문입니다. 이 예시가 형식 문제를 고쳤고, 이 지시가 지어내기를 줄였으며, 이 재구성은 아무것도 하지 않았다는 것을 배웁니다. 그 지식은 프로젝트 전반에, 그리고 미래의 프롬프트에 걸쳐 복리로 쌓입니다. 반면 산탄총식 재작성은, 아무도 이유를 모르는 채로 작동하고 나중에 아무도 안전하게 수정할 수 없는 프롬프트를 낳습니다.

변경을 배포하기 전마다 세트를 다시 돌려라

마지막 조각은 테스트 세트를 회귀 스위트로 다루는 것입니다. 모델은 업데이트되고, 요구사항은 바뀌며, 잘 작동하던 프롬프트가 조용히 실패하기 시작할 수 있습니다. 예전에 처리하던 경우에서까지요. 프롬프트를 바꿀 때마다, 그리고 이상적으로는 바꾸지 않을 때도 정기적으로, 전체 세트를 다시 돌려 아무것도 회귀하지 않았는지 확인하세요. 새 경우를 개선하면서 옛 경우를 망가뜨리는 변경이 회귀이며, 그것을 잡는 유일한 방법은 옛 경우를 계속 돌리는 것입니다.

이것은 아래에 깔린 모델이 바뀔 때도 당신을 보호합니다. 테스트 세트가 당신이 실제로 의존하는 동작을 부호화하고 있으므로, 그것을 다시 돌리면 새 모델 버전이 여전히 요구사항을 충족하는지, 아니면 조용히 무언가를 망가뜨렸는지 즉시 알 수 있습니다. 테스트 세트는 지속되는 자산이 됩니다. 모델 변경, 팀 변경, 그리고 프롬프트가 왜 그렇게 작성됐는지에 대한 기억의 느린 침식을 견뎌내는 "작동함"의 정의 말입니다.

정리

프롬프트를 그것이 실제로 그러한 운영 코드처럼 다루세요. 예외 사례를 포함해 실제 사용처럼 보이는 테스트 세트를 만들고, 각 입력에 대해 좋은 출력이 무엇을 의미하는지 적어두세요. 채점 방법을 의도적으로 고르고, 무엇이든 바꾸기 전에 기준선을 세우며, 그 기준선에 맞춰 세트 전반을 측정하면서 한 번에 변수 하나씩 프롬프트를 개선하세요. 세트를 회귀 스위트로 유지하고, 모든 변경 전과 모든 모델 업데이트 후에 다시 돌리세요. 프롬프트 민간전승과 프롬프트 엔지니어링의 차이는 정확히 이것입니다. 하나는 데모 하나로 판단하고, 다른 하나는 세트 전반에 걸쳐 측정합니다. 그리고 입력이든 모델이든 요구사항이든 움직일 때 계속 작동하는 것은 두 번째뿐입니다.

#evaluation#testing#prompting#reliability

1차 출처

OpenAI — prompt engineering guide Anthropic — prompt engineering overview