Kwon & Company
Projects

데이터 · 중견기업 (제조)

ERP 비정형 데이터 구조화 파이프라인

"이 거래처 발주 패턴 정리해줘." 한 마디에 PDF·이메일·메신저 메모가 한꺼번에 떠오릅니다. 비정형 자료를 OCR과 LLM이 함께 읽고 표준 코드로 정리해 ERP에 자동 적재하는 파이프라인을 한 페이지로 정리했습니다.

Claude Sonnet 4.6Upstage Document AICLOVA OCRLangGraphn8nGreat Expectations
ERP 비정형 데이터 구조화 파이프라인

"이 거래처 작년 발주 패턴 좀 빨리 정리해줘." 이 한 줄에 ERP 화면 캡처, 메일에 첨부된 견적서 PDF, 영업이 카톡으로 보낸 메모, 회계가 엑셀로 따로 관리하는 부가세 시트가 한꺼번에 떠오릅니다. 정형 데이터는 ERP 안에 있는데, 의사결정에 필요한 맥락 절반은 그 바깥에 흩어져 있는 풍경입니다.

ERP 비정형 데이터 구조화 파이프라인은 PDF·이미지·이메일·메신저 같은 비정형 자료를 LLM과 OCR이 함께 읽고, ERP 표준 코드와 매핑된 표 형식으로 정리해 자동으로 적재하는 시스템입니다. 사람이 매번 손으로 옮겨 적던 작업을 자동화하면서, 누락·오타·중복 입력으로 인한 데이터 부정합을 동시에 줄이는 흐름이라 평가됩니다.

이 글은 ERP 운영 팀과 재무·물류·영업 백오피스가 함께 들여다볼 수 있도록, 어떤 자료가 들어오고 어떤 단계로 정리되는지, 어디서 막히고 어디서 신뢰를 쌓아야 하는지를 정리한 가이드입니다.

어떤 자료가 들어오나요

회사마다 부르는 이름은 다르지만, 자주 들어오는 비정형 자료는 다섯 묶음으로 정리됩니다.

거래처 견적·발주 PDF — 메일 첨부로 들어오는 비표준 양식. 거래처마다 항목 순서·세금 처리 방식이 다름.

스캔된 종이 영수증·세금계산서 — 이미지 또는 사진. 글자 굵기·각도·조명에 따라 OCR 난이도가 달라짐.

이메일 본문 안 표·숫자 — 첨부 없이 본문에 표가 들어 있거나 "수량 12, 단가 35,000" 같이 평문으로 적힌 경우.

내부 메신저·메모 — 영업이 카톡으로 보낸 발주 변경, 물류가 슬랙에 남긴 입고 지연 노트.

협력사 포털 캡처 — 거래처 시스템 스크린샷. ERP가 직접 연동되지 않은 경우 자주 등장.

한눈에 보는 흐름

오렌지 박스가 LLM·OCR이 일하는 단계, 베이지 박스는 사내 자산입니다. 핵심은 "들어온 자료 → 표준화된 표 → ERP 적재" 사이에 검증 게이트가 끼어 있다는 점입니다.

다이어그램을 그리는 중…

한 건의 상태가 어떻게 바뀌나요

들어온 한 건은 다음 6개 상태 사이를 오갑니다. 자동 통과만 가능한 게 아니라 보류·재학습 상태가 있어야 잘못된 데이터가 ERP까지 흘러가지 않습니다.

다이어그램을 그리는 중…

대부분의 사고는 보류 단계가 없을 때 발생합니다. 신뢰도가 낮은 항목까지 그대로 ERP에 들어가면 결산 직전에 데이터를 다시 뒤지는 일이 반복된다고 알려져 있습니다.

무엇이 바뀌나요

입력 방식 — 담당자가 PDF를 보면서 ERP 화면에 직접 타이핑 → 자료가 들어오면 자동으로 표준화된 행이 생성되고, 사람은 보류 건만 검토.

결산 마감 — 월말마다 누락 자료를 찾아 메일·메신저를 거꾸로 뒤짐 → 마감 직전에 보류 건 리스트만 정리하면 끝.

데이터 신뢰도 — 같은 거래처가 ERP에 다른 코드로 두 개 등록되는 일이 종종 있음 → 카탈로그가 매번 동일한 코드로 정렬해 중복이 줄어듦.

담당자 업무 비중 — 단순 입력에 50% 이상 → 검토·예외 처리·카탈로그 보강에 집중.

어떤 조합이 어울리나요

자료 종류와 보안 레벨에 따라 조합이 갈립니다. 보통 다음 세 가지 묶음으로 정리됩니다.

OCR — Naver CLOVA OCR 또는 Upstage Document AI는 한국어 표·숫자 인식 정확도가 높다고 알려져 있고, 영문 위주라면 Azure Document Intelligence·AWS Textract도 후보가 됩니다.

LLM 추출·매핑 — Claude Sonnet 4.6과 GPT-5.5가 비정형 텍스트에서 표를 정확히 떠내는 데 강점이 있고, 사내 반출 금지 환경에서는 Haiku 4.5나 sLLM을 셀프호스팅하는 구성을 검토합니다.

오케스트레이션·검증 — n8n·Airflow·LangGraph 가운데 한 가지로 파이프라인을 연결하고, 검증 게이트는 Great Expectations나 자체 룰 엔진으로 통과·보류·반려를 분기시킵니다.

현장의 함정

첫 번째 함정은 카탈로그 없이 시작하는 것입니다. 거래처명·품목명을 LLM이 매번 자유롭게 해석하면 같은 회사가 매번 다른 이름으로 들어옵니다. 도입 첫 2~3주는 카탈로그를 만드는 데 그대로 써야 한다고 평가됩니다.

OCR 신뢰도 임계값을 한 가지로 고정하는 것도 흔한 실수입니다. 견적서·세금계산서·영수증마다 글자 품질이 다르므로, 자료 종류별로 다른 임계값과 검증 룰을 두는 편이 안전합니다.

검증 게이트가 너무 엄격하면 보류함이 쌓이고, 너무 느슨하면 잘못된 데이터가 ERP까지 갑니다. 초기 한 달은 매주 보류 비율과 오류율을 같이 보면서 임계값을 다시 맞추는 호흡이 권장됩니다.

마지막은 권한입니다. 자동 적재가 ERP 안에서 어떤 계정으로 일어나는지, 누가 사후 수정할 수 있는지를 처음부터 정해두지 않으면 감사 추적이 어려워집니다.

어떻게 측정하나요

자동 확정률 — 들어온 건 가운데 사람 검토 없이 ERP까지 도착한 비율. 도입 6개월 후 70% 이상이면 안정 단계.

입력 평균 시간 — 한 건당 사람이 손대는 시간. 도입 전 대비 80% 이상 단축이 일반적인 목표.

데이터 부정합 건수 — 월 결산 시점에 발견되는 중복·누락 건수. 카탈로그가 자리 잡으면 점진적으로 0에 가까워짐.

보류 처리 평균 대기 — 보류함에서 사람이 결정 내리기까지 평균 시간. 6시간 안이 권장.

지금 도입할 시점인가요

잘 어울리는 신호는 다음과 같습니다. ERP를 이미 쓰고 있는데 일부 부서가 엑셀·메일로 별도 관리 중이고, 비정형 자료가 월 수백 건 이상 들어오며, 결산이나 마감 직전에 데이터를 다시 정리하는 일이 반복된다면 이 파이프라인의 ROI가 뚜렷하게 나옵니다.

아직 이른 신호도 있습니다. ERP 자체 도입이 1년 미만이라 마스터 데이터가 정착되지 않았거나, 자료가 모두 표준 양식으로 들어오는 환경이라면 비정형 처리 자동화의 효과가 작습니다. 먼저 카탈로그 정리부터가 권장된다고 알려져 있습니다.

자주 묻는 질문

기존 ERP를 그대로 두고 얹을 수 있나요?

대부분의 경우 가능합니다. SAP·더존·영림원·Oracle EBS·자체 구축 ERP 모두 표준 API나 DB 직접 적재 가운데 한쪽이 열려 있으면 연결됩니다. 어렵다면 RPA로 화면을 채우는 옵션도 함께 검토됩니다.

회사 자료를 외부 모델에 보내야 하나요?

데이터 반출이 금지된 환경이면 OCR과 LLM을 모두 사내에서 운영하는 구성이 가능합니다. 비용은 늘지만, 추출 정확도 자체는 셀프호스팅 모델로도 실무에 충분한 수준에 도달했다고 평가됩니다.

도입에 얼마나 걸리나요?

PoC 한 자료 종류 기준 3~4주, 카탈로그 안정화까지 8~10주가 일반적입니다. 자료 종류가 늘어날 때마다 추가 2~3주씩 잡으면 무리가 없습니다.

정리하면

비정형 자료를 손으로 ERP에 옮기던 작업을 OCR + LLM 추출 + 카탈로그 매핑 + 검증 게이트의 4개 축으로 자동화하는 흐름입니다. 핵심은 모델 선택보다 카탈로그와 보류·반려 상태 설계에 있다고 정리할 수 있습니다.

더 깊이 들어가고 싶다면

이 가이드대로 사내에서 직접 시작할 수도 있습니다. 한 자료 종류(예: 거래처 견적 PDF)만 골라 카탈로그와 검증 룰을 만들어 보고, 자동 확정률이 60%를 넘는 시점부터 다음 자료 종류로 넓혀가는 방식이 가장 사고가 적다고 알려져 있습니다.

조직 차원에서 도입 호흡을 잡거나 자체 데이터로 PoC를 돌려보고 싶다면 권앤컴퍼니의 사내 강의·컨설팅 옵션도 활용할 수 있습니다. 강의는 운영팀·재무팀이 함께 듣는 구성이 자주 채택됩니다.

강의·PoC 모두 30분 무료 상담으로 함께 검토할 수 있습니다 → 상담 신청하기

같은 카테고리의 다른 프로젝트

유사한 AI 프로젝트를 우리 회사에 도입하고 싶다면

업종·도메인·일정을 알려주시면 가장 가까운 진행 사례와 함께 회신 드립니다. 권앤컴퍼니의 AI 도입 뉴스와 프로젝트 사례는 뉴스레터로도 받아보실 수 있습니다.