사내 AI 검색: 현실적인 이야기
질문하면 사내 문서 전체에서 답을 받습니다. 데모는 마법 같습니다. 실제 데이터와 실제 권한이 들어오면 무엇이 어려워지는지 짚어봅니다.
모든 회사가 같은 꿈을 꿉니다. 무엇이든 물어볼 수 있고, 사내 지식 전체 — 위키, 문서, 채팅 기록, 아무도 못 찾는 옛 제안서 — 에서 답하는 어시스턴트 말입니다. 잘 쓰인 문서들이 담긴 깔끔한 폴더 위에 만든 데모는 정말로 마법 같습니다. 그러다 실제 회사를 향해 겨누고 나면, 문서는 엉망이고, 권한은 지뢰밭이며, 사람들이 실제로 던지는 질문은 데모와 전혀 다르다는 것을 알게 됩니다. 이 글은 현실적인 버전입니다. 사내 AI 검색이 왜 외부 검색보다 어려운지, 그리고 실제로 쓰이는 배치와 조용히 버려지는 배치를 가르는 것이 무엇인지를 다룹니다.
당신의 문서는 생각보다 형편없다
첫 번째 현실은 코퍼스입니다. 데모는 누군가 큐레이션한 문서 위에서 돌아갑니다. 회사는 수년간 쌓인 문서 위에서 돌아갑니다. 작은 차이가 있는 중복본들, 초안이라고 표시된 적 없는 초안들, 세 번의 조직 개편 이전의 정책이 그 대체본 옆에 나란히 놓여 있고, 가장 필요한 단 하나의 답은 누군가의 머릿속이나 묻혀버린 채팅 스레드에만 살아 있습니다. AI 검색은 이를 고치지 않습니다. 드러낼 뿐입니다. 두 문서가 서로 모순될 때, 시스템은 검색이 우연히 더 높게 매긴 쪽에서 자신만만하게 답합니다.
이것이 성공하는 프로젝트가 모델보다 코퍼스에 더 많은 노력을 쏟는 이유입니다. 중복을 제거하고, 문서를 권위 있는 것 또는 폐기된 것으로 표시하고, 낡은 것을 걷어내는 일이 어떤 튜닝보다도 답변 품질에 더 큰 기여를 합니다. 화려하지 않은 진실은, 사내 검색이 AI 의상을 걸친 지식 위생 프로젝트라는 것입니다.
검색이 승부의 전부다
문서에서 답하는 모든 시스템이 그렇듯, 품질의 천장은 생성이 아니라 검색이 정합니다. 관련 구절이 모델 앞으로 끌려오지 않으면, 아무리 유창하게 써도 올바른 답이 나오지 않습니다 — 대신 확신에 찬 틀린 답이 나옵니다. 사내 검색의 실패는 대부분 검색 실패이고, 답이 여전히 그럴듯하게 읽히기에 오진하기 쉽습니다.
사내 코퍼스는 검색을 특히 어렵게 만듭니다. 사람들은 회사 고유의 약어, 프로젝트 코드명, 재무에서는 한 가지를 뜻하고 엔지니어링에서는 다른 것을 뜻하는 머리글자로 검색합니다. 관련 문서는 질문과 전혀 다른 단어를 쓸 수도 있습니다. 답이 그럴듯하게 들리는지와는 별개로 — 올바른 문서가 실제로 검색되는지를 측정하는 것은 팀이 할 수 있는 가장 유용한 일이며, 대부분의 팀이 건너뛰는 일이기도 합니다.
권한은 당신을 곤경에 빠뜨릴 수 있는 부분이다
외부 검색은 청중이 하나입니다. 사내 검색은 여럿이고, 그들은 같은 것을 볼 수 없습니다. 영업 담당자가 미공개 로드맵을 검색해서는 안 되고, 외주 인력이 급여 스프레드시트를 검색해서는 안 되며, 신입이 임원 전용으로 표시된 문서를 검색해서는 안 됩니다. 검색 인덱스가 누가 묻는지를 무시하는 순간, 그것은 질문자가 결코 접근 권한을 받은 적 없는 정보를 유창하고 친절하게 답하는 유출 엔진이 됩니다.
이를 제대로 하는 것은 들리는 것보다 어렵습니다. 모델이 검색의 하류에 자리하기 때문입니다. 검색이 사용자가 접근할 수 없는 구절을 끌어와 모델에 넘기면, 모델은 기꺼이 그것을 요약해 줍니다. 따라서 권한은 어떤 문서가 모델에 도달하기 전에, 검색 계층에서 사용자별로 강제되어야 합니다 — 나중에 덧붙이는 것이 아니라요. 이것이 바로 NIST AI Risk Management Framework 같은 프레임워크가 팀을 떠밀어 향하게 하려는, 결과를 의식한 통제의 전형입니다. 틀린 답의 대가는 가볍지만, 기밀 유출의 대가는 그렇지 않으며, 통제는 그 차이를 반영해야 합니다.
질문은 데모 질문이 아니다
데모는 깔끔한 답이 있는 깔끔하고 사실적인 질문을 씁니다. 실제 질문은 더 지저분합니다. 사람들은 여러 문서에 걸친 것, 변경 이력에서 현재 상태를 종합해야 하는 것, 사실은 어떤 문서도 담지 못한 암묵지에 관한 것, 그리고 진정으로 모호한 것을 묻습니다. 하나의 구절을 찾아 인용하도록 튜닝된 시스템은, 솔직한 답이 "이건 다섯 개 문서에 흩어져 있고 그중 둘은 서로 어긋난다"일 때 쩔쩔맵니다.
또 다른 놀라움은, 사람들이 시스템이 무지를 우아하게 인정해 주길 바라며 질문한다는 것입니다. 관련된 게 없어도 항상 답을 내놓는 시스템은 "이에 대해 권위 있는 것을 찾지 못했습니다"라고 말하는 시스템보다 못합니다. 확신에 찬 공허함은 솔직한 공백보다 더 빠르게 신뢰를 무너뜨립니다.
이런 프로젝트가 버려지는 이유
사내 검색 프로젝트는 좀처럼 요란하게 실패하지 않습니다. 조용히 실패합니다. 데모에서는 작동하고, 출시되고, 사람들이 써보고, 답을 이미 알던 질문에서 확신에 찬 틀린 답을 몇 번 받고, 신뢰를 잃고, 동료에게 묻는 쪽으로 되돌아갑니다. 도구는 제거되지 않습니다. 그저 더 이상 열리지 않을 뿐입니다. 일단 신뢰가 사라지면, 맞는 답조차 믿어지지 않습니다.
이 패턴은 피할 수 있습니다. 신뢰는 쉽고 트래픽 많은 질문에서 먼저 맞히는 것으로, 사람들이 검증할 수 있게 출처 문서를 인용하는 것으로, 추측 대신 "모르겠습니다"라고 말하는 것으로 쌓입니다. 자기 작업 과정을 보여주고 한계를 인정하는 시스템은 의심의 혜택을 얻습니다. 모든 것을 유창하게 답하는 시스템은 첫 번째 확신에 찬 실수에 그 신용을 다 써버립니다.
작동하는 배치가 하는 것
살아남는 사내 검색 시스템은 공통된 윤곽을 가집니다. 코퍼스 정리를 설정이 아니라 핵심 작업으로 다룹니다. 권한을 검색 계층에서 사용자별로 강제합니다. 답변의 유창함만이 아니라 검색 품질을 직접 측정합니다. 출처를 인용해 모든 답을 검증 가능하게 합니다. "모르겠습니다" 경로를 의도적으로 설계합니다. 그리고 야심의 범위를 좁힙니다. 반복되는 상위 백 개 질문을 확실히 잡는 것이, 모든 것을 어설프게 답하는 것보다 낫습니다. 이 중 어느 것도 특별하지 않지만, 전부 데모가 건너뛰게 해준 작업입니다 — 그리고 그것이 바로 데모가 배치보다 훨씬 쉬운 이유입니다.
정리
사내 AI 검색은 회사의 흩어진 지식을 답할 수 있는 단일 자원으로 바꿔주겠다고 약속하고, 데모는 그것을 손쉬워 보이게 만듭니다. 현실은 네 갈래에서 더 어렵습니다. 문서는 생각보다 지저분하고, 품질의 천장은 생성이 아니라 검색이 정하며, 권한은 검색 계층에서 사용자별로 강제되지 않으면 시스템이 유출하고, 실제 질문은 데모 질문과 전혀 다릅니다. 코퍼스를 정리하고, 검색을 측정하고, 접근을 통제하고, 출처를 인용하고, 시스템이 무지를 인정하게 하십시오. 그러면 모두가 원하던 자원이 됩니다. 그것을 건너뛰고 데모를 그대로 출시하면, 사람들이 확신에 찬 오답을 처음 잡아내는 첫 주에 그 도구는 조용히 버려질 것입니다.
