RAG 도입 전 문서 데이터 정리 방법

이 글에서는 RAG 실패의 핵심 원인이 모델이 아닌 데이터에 있는 이유를 설명하고, 기업 문서를 AI가 활용 가능한 형태로 전환하는 3단계 프로세스를 정리합니다.
yuringpower's avatar
Apr 20, 2026
RAG 도입 전 문서 데이터 정리 방법

RAG를 도입했는데 답변이 부정확한 이유

기업 RAG 도입의 실패 원인은 데이터

RAG를 도입하면 사내 문서를 기반으로 정확한 답변을 받을 수 있을 거라 기대하게 됩니다. 하지만 실제로 구축해 보면 기대와 다른 결과가 나오는 경우가 많아요. 관련 없는 문서를 참조하거나, 핵심 정보를 빠뜨리는 답변이 반복되곤 하죠.

이 문제의 원인은 대부분 모델이 아니라 데이터에 있습니다. 2025년 CDC 정책 RAG 연구에 따르면 RAG 실패의 80%가 검색이나 생성이 아닌 청킹, 즉 문서 분할 단계에서 발생했어요. 모델을 바꾸기 전에 데이터 상태를 먼저 점검해야 하는 이유입니다.

데이터 전처리 없이 도입한 RAG는 왜 실패할까요?

기업의 문서 유형에 따른 RAG 실패 원인 4가지

RAG는 질문과 관련된 문서를 먼저 검색한 뒤, 그 문서를 근거로 답변을 생성하는 구조입니다. 그렇기 때문에 근거가 되는 문서 자체가 부실하면 답변도 부실해질 수밖에 없어요.

이런 문제는 기업에 쌓여 있는 문서들의 실제 상태를 보면 더욱 분명해집니다. 주로 활용할 문서인 PDF의 경우, 이미지로만 인식되어 텍스트 추출 자체가 어렵고요. 엑셀 파일은 셀 구조가 깨지면 행과 열의 관계가 손실되기 쉬워 AI가 맥락을 파악하기 힘들게 만듭니다.

또 워드나 한글 문서는 헤더, 푸터, 각주 같은 비본문 요소가 노이즈로 작용하기도 하죠.

이렇게 다양한 요인에 의해 제대로 처리되지 못한 데이터들은 부정확하거나 규정을 지키지 않은 LLM 출력으로 이어질 수 있습니다.

특히 제조, 에너지, 환경, 건설 같은 레거시 산업에서는 이 문제가 더욱 두드러집니다.

계약서와 인증서는 PDF 스캔본이 대부분인데, 이들은 OCR 처리 없이 이미지 상태로 보관되어 있어 AI가 내용을 읽기 어렵죠.

매뉴얼과 표준운영절차(SOP)는 워드, 한글, PDF가 혼재되어 있는데다가 버전 관리 또한 잘 안 되어 있는 경우가 많아 무엇이 최신본인지 식별하기 어려운 경우도 많고요.

회의록과 보고서는 대부분의 회사가 여러 부서에 분산 저장하고 있으며, 폴더 구조도 일관되지 않은 편입니다.

또한 설비 데이터와 검사 기록은 엑셀, CSV, 수기 기록이 섞여 있는 상태로 보관 중인 곳이 많죠.

이런 상태의 문서 그대로 RAG에 연결하면 검색은 되지만 정확한 답변은 기대하기 어렵습니다.

문서 데이터 정리 과정 3단계

기업 문서 데이터 정리를 위한 3단계 프로세스

그렇다면 기업에 산재한 문서들은 어떻게 정리할 수 있을까요? AI 데이터 전처리는 추출, 구조화, 정제의 3단계로 진행됩니다.

1단계. 추출(Extract)

가장 먼저 스캔 문서에서 텍스트를 추출해야 합니다. 이 과정에 활용하는 기술이 OCR 입니다.

OCR을 활용하면 이미지 속 글자를 인식하고 표나 이미지 내 텍스트를 포함해서 추출하는데, 대부분의 OCR 기술은 영어권 문서에 특화되어 있어 국내 기업이라면 한국어 OCR 정확도가 높은 기술을 선택하는게 중요합니다.

2단계. 구조화(Structure)

다음으로 추출된 텍스트를 의미 단위로 분류하고 태깅하는 과정이 필요합니다. 이때에는 문서 유형별로 날짜, 부서, 문서 종류 같은 메타데이터를 부여하고, 표 데이터는 행과 열의 관계를 보존한 채 구조화합니다.

이때 자동화만으로는 정확도를 보장하기 어렵기 때문에 초기 구조화를 자동 수행한 뒤에도 반드시 검증과 보정 작업을 진행해 주는 게 정확도를 높이기 좋습니다.

3단계. 정제(Clean)

마지막으로 중복 문서를 제거하고 최신 버전을 식별하는 단계를 진행합니다. 이 과정을 통해 헤더, 푸터, 워터마크 같은 비본문 요소를 걸러내고 불필요한 서식 정보를 정리하죠.

특히 정제 과정의 핵심은 원본 파일 포맷에 상관없이 공통 데이터 스키마로 변환하는 것에 있습니다.

정리된 데이터가 기업 RAG에 만드는 차이

기업 RAG에서 문서 데이터 정리 전후의 차이는 수치로 확인됩니다.

2025년 CDC 정책 RAG 연구에 따르면, 최적화된 시맨틱 청킹을 적용했을 때 충실도(Faithfulness) 점수가 0.47~0.51에서 0.79~0.82로 향상되었거든요. 같은 모델과 같은 질문이라도 데이터 품질에 따라 답변의 신뢰도가 크게 달라지는 거죠.

시맨틱 청킹(Semantic Chunking, 의미 기반 청킹)이란, 긴 텍스트를 고정된 글자 수로 자르는 대신, 문맥과 의미의 흐름(주제 변경 등)을 기준으로 나누는 기법을 뜻합니다.

RAG 도입 전 데이터 전처리를 하지 않으면, AI가 관련 문서를 찾긴 하지만 핵심 정보가 누락되거나 맥락이 오해된 답변이 나옵니다. 하지만 정리 후에는 정확한 문서를 정확한 맥락으로 검색해서 출처와 함께 신뢰도 높은 답변을 생성할 수 있어요.

RAG 도입, 데이터 준비 다음은 검색 구조화

RAG 도입을 고민하고 있다면 모델 선택보다 문서 데이터 정리가 먼저입니다.

아무리 성능 좋은 LLM을 연결해도, 검색 대상이 되는 문서가 정리되지 않았다면 정확한 답변을 기대하기 어려우니까요. 반대로 데이터가 체계적으로 정리되어 있다면 어떤 모델을 쓰더라도 답변 품질의 기본 수준이 올라갈 수 있습니다.

추출, 구조화, 정제. 이 3단계를 거친 데이터는 RAG의 검색 정확도를 높이는 것은 물론, 이후 파인튜닝이나 에이전트 확장 등 어떤 AI 활용 시나리오로 넘어가더라도 재활용 가능한 자산이 됩니다. 결국 데이터 전처리는 RAG 한 번 잘 쓰기 위한 작업이 아니라, 기업 AI 활용의 기초 체력을 만드는 과정이에요.

문서 정리가 끝났다면 다음 단계는 이 데이터를 검색 가능한 구조로 만드는 것입니다. RAG의 전체 흐름, 개념부터 벡터 검색 파이프라인 구축까지 한눈에 보고 싶다면 RAG 기반 기업 AI 검색 도입 가이드를 참고해 주세요.

Share article