비정형 데이터가 기업 AI를 막고 있다
AI를 도입했는데 기대한 성과가 안 나옵니다. 모델을 바꿔보기도 하고, 파라미터를 조정해보기도 하죠. 하지만 문제가 AI에 있는 게 아니라면 어떨까요?
많은 기업에서 AI 도입 성과가 정체되는 원인은 같은 곳을 가리킵니다. 데이터, 그중에서도 비정형 데이터입니다.
비정형 데이터란?
비정형 데이터는 사전에 정의된 형식이 없는 정보를 말합니다. 텍스트 문서, 이미지, 오디오, 이메일, 스캔 문서, 손글씨 기록 등이 모두 여기에 해당해요.
IBM에 따르면 기업 전체 데이터의 80~90%가 비정형입니다. IDC 역시 우리가 접하는 데이터의 80%가 비정형이라고 분석하고 있어요. 기업에 있는 데이터의 대부분은 AI가 바로 읽을 수 없는 형태로 존재한다는 뜻입니다.
기업 현장의 비정형 데이터 실태
실제 기업 현장에서 비정형 데이터는 어떤 모습일까요.
제조·에너지 분야에서는 팩스로 들어오는 발주서, 현장 수기 검침 기록, 설비 점검 보고서가 대표적입니다. 공공기관에서는 HWP 공문, 스캔된 계약서, 민원 처리 체계 내 텍스트가 흔하죠. 건설 현장에는 설계 도면 데이터, 시공 일지, 안전 점검 기록이 쌓여 있고, 일반 사무 환경에서도 이메일 첨부 엑셀, PDF 보고서, 회의 녹취록이 정리되지 않은 채 남아 있는 경우가 많습니다.
이런 문서들은 업무에 필수적이지만, 대부분 개인 PC나 부서 공유 폴더에 흩어져 있어요. IEEE 연구에 따르면 데이터 품질 문제로 기업 수익의 약 30%가 손실된다는 분석도 있습니다.
비정형 데이터가 AI 도입을 막는 3가지 이유
첫째, 확장성 문제입니다. 문서 수십에서 수백 건은 수작업으로 처리할 수 있지만, 수천에서 수만 건이 되면 거버넌스를 유지하면서 대량 처리하는 것이 현실적으로 어렵습니다.
둘째, 정확도 문제입니다. 문서를 청킹(AI가 읽을 수 있는 단위로 분할)할 때 테이블이 잘리거나 레이아웃 정보가 유실되는 등 정보 손실이 발생할 수 있어요.
셋째, 정형과 비정형 데이터 간 연계 문제입니다. ERP에 있는 정형 데이터와 파일 서버의 비정형 문서를 연결해서 분석하는 것이 기술적으로 쉽지 않습니다.
BCG 조사에서 AI 의사결정권자의 68%가 고품질 데이터 접근 부족을 핵심 장애로 꼽았고, 시스코에 따르면 AI용으로 정제·중앙화된 데이터를 갖춘 기업은 35%에 불과해요.
기존 해결 방식의 한계
비정형 데이터 문제를 해결하려는 시도는 이전부터 있었습니다.
전통 OCR은 텍스트 단순 추출만 가능하고 문서의 구조나 레이아웃을 파악하지 못합니다. 정규식 기반 규칙은 문서 유형마다 규칙을 수작업으로 만들어야 하기 때문에 전문 지식이 필요하고 유지보수 비용도 적지 않아요. 기존 딥러닝 모델은 특정 작업 전용이라 다양한 문서 유형에 유연하게 대응하기 어렵다는 한계가 있습니다.
해결 방향, IDP로 비정형 문서를 구조화하기
IDP(지능형 문서 처리)는 AI가 문서의 구조, 레이아웃, 맥락을 파악해서 데이터를 추출하는 기술입니다. 단순히 글자를 읽는 OCR과 달리, 문서가 담고 있는 정보의 의미까지 이해할 수 있어요.
발주서에서 품목·수량·금액을 구분하고, 보고서에서 핵심 지표를 추출하며, 스캔 문서에서도 테이블 구조를 유지한 채 데이터화할 수 있습니다. 수천 건의 문서를 AI가 읽을 수 있는 구조화된 데이터로 변환하는 것. 이것이 AX의 실질적인 첫 단계예요.
문서 기반 AX가 실무에서 어떻게 작동하는지 궁금하다면 [유링파워, 기업 문서 AX 핵심 기능 총정리]를 확인해 보세요. 우리 회사 문서 데이터 상태가 궁금하다면 무료 문서 진단으로 AI용 변환 범위와 기간을 확인해 볼 수 있습니다.