고객 지원에 LLM을 투입하면 가장 먼저 무너지는 것

지원 챗봇은 가장 쉬운 AI 데모이면서도 제대로 운영하기는 가장 어려운 일입니다. 실제 배포가 무너지는 지점과, 살아남는 시스템을 가르는 기준을 짚어봅니다.

use-cases2026-04-02 12:31 KST·편집장·7 분

고객 지원은 기업에서 AI를 처음 적용하는 가장 인기 있는 사례이며, 그럴 만한 이유가 있습니다. 데모가 거부할 수 없을 만큼 매력적이기 때문입니다. 모델을 도움말 문서에 연결하고 질문을 던지면, 유창하게 답합니다. 그 데모와 실제로 운영할 수 있는 시스템 사이의 간극, 바로 그 지점에서 대부분의 프로젝트가 고전합니다. 이 글은 무엇이 가장 먼저 무너지는지를, 팀들이 실제로 부딪히는 대략의 순서대로 짚어봅니다. 그래야 운영 환경에서 실패를 발견하는 대신, 미리 대비할 수 있습니다.

데모는 쉽고, 운영은 어렵다

데모가 잘 돌아가는 이유는 가장 쉬운 경로를 보여주기 때문입니다. 명확한 질문에, 문서 안에 있는 깔끔한 답변. 실제 지원 트래픽은 그렇지 않습니다. 모호한 질문, 누락된 정보, 예외 상황, 화가 난 고객, 그리고 답변이 아니라 어떤 조치를 요구하는 요청들입니다. 데모에서 만점을 받은 모델이 첫날부터 이 모든 것과 마주합니다. 데모를 기준으로 계획을 세우는 것은, 애초에 문제였던 적이 없는 5퍼센트의 트래픽을 위해 계획을 세우는 셈입니다.

무너지는 지점 #1: 몰라야 할 때 답을 한다

가장 먼저 무너지는 것은 확신입니다. 지원 모델은 문서에 답이 없는 질문에도 답을 하며, 그럴듯한 정책이나 가격, 절차를 지어냅니다. 고객은 근거 있는 답변과 지어낸 답변을 구별하지 못합니다. 둘 다 똑같이 유창하게 들리기 때문입니다. 환불 정책에 대한 단 한 번의 확신에 찬 오답이, 시스템이 절약하는 비용 전체보다 더 큰 손실을 낼 수 있습니다.

해결책은 근거 제공(grounding)과 정직함입니다. 실제 문서에서 검색해 오고, 검색해 온 내용만을 근거로 답하도록 지시하며, 모를 때는 분명히 모른다고 말하고 인계하도록 만드는 것입니다. 어려운 부분은 지시 자체가 아닙니다. "잘 모르겠습니다, 담당자에게 연결해 드리겠습니다"가 실패가 아니라 좋은 결과라는 사실을 받아들이는 것입니다.

무너지는 지점 #2: 검색이 관련 문서를 놓친다

답변을 문서에 근거하도록 만들고 나면, 다음 실패는 상류로 옮겨 갑니다. 검색이 관련 문서를 놓쳐서, 모델이 엉뚱한 문서를 근거로 답하거나 아무 문서도 없이 답하는 것입니다. 이것은 모든 검색 시스템이 배우는 교훈입니다. 대부분의 실패는 검색의 실패라는 것 말입니다. 올바른 도움말 문서가 모델 앞에 놓이지 않는다면, 아무리 유창하게 생성해도 올바른 답은 나오지 않습니다.

바로 이 지점에서 화려하지 않은 작업이 빛을 발합니다. 지식 베이스를 깨끗하고 최신으로 유지하고, 문서를 적절히 청크로 나누며, 실제 질문에 대해 올바른 문서가 정말로 검색되는지를 측정하는 것입니다. 그것도 최종 답변이 매끄럽게 읽히는지와는 별개로 말입니다.

무너지는 지점 #3: 지식 베이스가 틀렸거나 낡았다

지원 모델은 그 뒤에 있는 문서만큼만 좋습니다. 대부분의 기업은 모델을 연결하고 나서야 발견합니다. 도움말 센터가 서로 모순되거나, 바뀐 기능을 설명하고 있거나, 고객이 가장 많이 묻는 바로 그것을 한 번도 문서화하지 않았다는 사실을 말입니다. AI가 이 문제를 만드는 것이 아닙니다. AI는 그것을, 대규모로, 고객 앞에서 드러낼 뿐입니다. 성공하는 팀은 문서 정비를 누군가 알아서 처리해 줄 사전 조건이 아니라, 프로젝트의 일부로 다룹니다.

무너지는 지점 #4: 조치를 안전하게 수행하지 못한다

질문에 답하는 것과, 무언가를 실제로 하는 것 — 환불을 처리하고, 주소를 바꾸고, 주문을 취소하는 것 — 은 다른 일입니다. 지원 어시스턴트가 조치를 취할 수 있게 되는 순간, 판돈이 달라집니다. 잘못된 답변은 민망한 수준이지만, 잘못된 조치는 돈이나 데이터를 움직입니다. 실제 배포에서는 신중하게 선을 긋습니다. 위험이 낮은 조치는 모델이 직접 수행하고, 위험이 높은 조치는 확인이나 사람이 필요하도록 하며, 모든 조치에 대해 명확한 감사 추적을 남깁니다. 이런 맥락 인식 기반의 위험 관리야말로 NIST AI 위험 관리 프레임워크 같은 체계가 권장하는 바입니다. 통제 수준을 결과의 무게에 맞추라는 것입니다.

무너지는 지점 #5: 인계가 어설프다

모든 것을 처리하는 지원 AI는 없으므로, 사람에게 넘기는 인계는 나중에 덧붙이는 것이 아니라 제품의 일부입니다. 무너지는 지점은 이렇습니다. 모델이 맥락을 전달하지 않고 인계해서 고객이 같은 말을 반복하다 더 화가 나거나, 인계를 거부해서 고객을 무한 루프에 가두는 것입니다. 좋은 인계는 매끄럽습니다. 대화 내용과 고객의 의도, 이미 시도해 본 것들을 함께 넘겨서, 담당자가 상황을 파악한 상태에서 시작할 수 있게 합니다.

무너지는 지점 #6: 아무도 제대로 된 것을 측정하지 않는다

마지막 실패는 조용합니다. 팀은 처리율(AI가 처리한 티켓 수)을 측정하고 자축하면서, 그 답변들이 정확했는지, 혹은 고객이 더 화가 나서 돌아왔는지는 측정하지 않습니다. 품질 없는 처리율은 그저 문제를 숨기는 것일 뿐입니다. 오래가는 배포는 해결 품질과 고객 결과를 측정하고, 실제 대화 기록을 정기적으로 읽으며, 평균이 아니라 최악의 답변을 신호로 다룹니다.

살아남는 자를 가르는 것

잘 돌아가는 배포들에서 공통으로 나타나는 패턴은 이것입니다. 그들은 모델을 시스템 그 자체가 아니라, 시스템 안의 한 구성 요소로 다룹니다. 답변에 근거를 부여하고, "잘 모르겠습니다" 경로를 의도적으로 설계하며, 지식 베이스를 정직하게 유지하고, 위험한 조치에 관문을 두며, 인계를 매끄럽게 만들고, 양이 아니라 품질을 측정합니다. 이 중 어느 것도 특별하지 않습니다. 그저 데모를 출시하는 것과 운영을 실제로 굴리는 것의 차이일 뿐입니다.

정리

지원 챗봇은 가장 쉬운 AI 데모이면서도 제대로 운영하기는 가장 어려운 일입니다. 그것은 순서대로 무너집니다. 과신, 검색, 낡은 문서, 안전하지 않은 조치, 어설픈 인계, 그리고 잘못된 지표. 이 모두는 예견 가능합니다. 미리 대비한다면 AI 지원 계층은 진정한 자산이 됩니다. 계획을 건너뛰고 데모를 출시한다면, 고객이 대신 실패를 찾아줄 것입니다.

#customer-support#deployment#rag#operations

1차 출처

NIST AI Risk Management Framework