Kwon & Company
Projects

데이터 · 대기업 (전략기획)

비정형 PDF 리포트 데이터 추출

"이 PDF 50장에서 핵심 수치만 표로 뽑아줘." 매일 책상 위에 쌓이는 리서치·협회·시장조사 PDF의 표·수치를 LLM과 OCR이 함께 읽어 사내 스키마로 정리하는 시스템을 한 페이지로 정리했습니다.

Claude Sonnet 4.6Upstage Document AIpdfplumberCLOVA OCRPythonLangGraph
비정형 PDF 리포트 데이터 추출

"이 PDF 리포트 한 50장에서 핵심 수치만 표로 뽑아줘." 증권사 리서치, 협회 산업 보고서, 시장조사 기관 PDF가 책상 위에 매일 한 묶음씩 쌓이는 풍경입니다. 본문 자체는 잘 정리돼 있는데, 그 안의 표·수치를 사내 분석에 쓰려면 사람이 한 줄씩 다시 옮겨 적어야 합니다.

비정형 PDF 리포트 데이터 추출은 PDF 안의 표·수치·각주·출처를 LLM과 OCR이 함께 읽어, 사내 분석에 그대로 쓸 수 있는 표 형식 데이터로 자동 정리해주는 시스템입니다. 사람이 매번 손으로 옮기던 작업을 자동화하면서, 출처·페이지 번호 같은 추적 정보도 같이 따라붙어 사후 검증이 쉬워집니다.

이 글은 리서치·전략·기획 백오피스가 PDF 자료를 다루는 일상이 어떻게 달라지는지, 어떤 도구·모델 조합으로 만들 수 있는지, 도입 시 어디서 가장 자주 막히는지를 한 페이지로 정리한 가이드입니다.

이런 질문에 답합니다

PDF 한 묶음을 받아둔 다음 날 아침, 사내 채팅창에 이런 한 줄을 던지면 5~30분 안에 표가 만들어진다는 풍경이 일상이 됩니다.

"이번 분기 받은 증권사 리포트 50개에서 매출·영업이익 컨센서스만 표로 뽑아줘."

"협회 산업 보고서 30장에서 시장 규모·성장률·주요 플레이어만 정리해줘."

"경쟁사 IR 자료 10년치에서 R&D 비용 추이만 한 시트에 모아줘."

"정부 통계 PDF에서 2020~2025년 산업별 고용 인원만 표로."

"이 보고서들의 핵심 표 모두 출처 페이지 번호와 함께 정리해줘."

한 장으로 보는 시스템

오렌지 박스가 LLM이 일하는 단계, 베이지 박스는 사내 자산입니다. 핵심은 추출과 검증이 분리돼 있다는 점입니다 — 추출만 잘하는 시스템은 신뢰가 안 쌓입니다.

다이어그램을 그리는 중…

한 사이클의 풍경

추출 한 사이클은 다음 4단계로 정리됩니다. 한 단계라도 빠지면 결과가 흔들린다고 알려져 있습니다.

다이어그램을 그리는 중…

1단계 — 페이지 분할과 표·본문 분류 — 먼저 PDF를 페이지 단위로 분할한 뒤 각 페이지가 표 중심인지 본문 중심인지를 LLM이 판별합니다. 표 페이지에는 다른 추출 전략, 본문 페이지에는 요약·키수치 추출 전략이 적용됩니다.

2단계 — 표 추출과 OCR 보정 — 디지털 PDF는 직접 파싱, 스캔 PDF는 OCR을 통합니다. 한국어 표·각주·병합 셀이 많을수록 Naver CLOVA OCR이나 Upstage Document AI 같은 한국어 특화 도구가 안정적이라고 평가됩니다.

3단계 — 사내 스키마 매핑 — 추출된 raw 표를 사내 분석에서 쓰는 표준 컬럼명·단위로 변환합니다. "매출액(백만원)"이 회사 안에서는 "revenue_krw_mil"인지 "sales_m"인지 일관되게 정리됩니다.

4단계 — 검증 게이트와 출처 첨부 — 추출된 모든 행에 출처 PDF·페이지 번호·원문 좌표가 함께 따라붙습니다. 의심스러운 값은 보류함으로 빠지고, 사람이 한 번 클릭하면 원문 페이지가 바로 열립니다.

어떤 조합이 어울리나요

도구는 PDF 종류와 보안 레벨에 따라 갈립니다. 결정 트리로 정리하면 다음과 같습니다.

다이어그램을 그리는 중…

디지털 PDF만 다룬다면 옵션 A가 가장 짧은 학습 곡선이라고 알려져 있습니다. 한국어 스캔본·표가 많은 환경에서는 옵션 B가 안정적이고, 외부 반출 자체가 금지된 금융·공공 환경에서는 옵션 C로 추론까지 사내에서 처리하는 구성이 일반적입니다.

도입 후 일상의 변화

한 묶음 처리 시간 — PDF 50개를 사람이 표로 옮겨 적어 평균 3~5일 → 자동 추출 후 사람 검수 30분.

데이터 정합성 — 담당자마다 컬럼명·단위가 달라 합치기 어려움 → 사내 스키마로 강제 정렬돼 시트 합치기가 즉시 가능.

근거 추적 — "이 숫자 출처 어디였지?" 추적 어려움 → 모든 행에 출처 PDF·페이지 번호 첨부.

담당자 시간 분배 — 단순 옮기기 50% → 검수·해석·새 분석에 집중.

흔한 실패 패턴

가장 자주 보이는 실패는 "한국어 표가 잘 안 잡힌다"는 한 줄짜리 문제입니다. 영문 위주로 학습된 추출 도구는 한국어 병합 셀·세로쓰기 헤더를 자주 놓친다고 알려져 있습니다. 한국어 특화 OCR과 LLM의 조합으로 해결되는 경우가 대부분입니다.

두 번째는 환각입니다. PDF에 없는 수치를 LLM이 그럴듯하게 만들어내는 사고가 가장 신뢰를 무너뜨리는 순간입니다. "원문 좌표가 잡히지 않으면 추출하지 않는다"는 룰을 넣어 막는 편이 안전하다고 평가됩니다.

세 번째는 단위와 통화입니다. "백만원"·"억원"·"USD mn"이 같은 표 안에 섞여 있으면 합계가 무의미해집니다. 스키마 매핑 단계에서 단위를 한 가지로 강제 변환하는 룰이 필요합니다.

마지막은 라이선스입니다. 외부 리포트 PDF를 LLM에 보내거나 사내 시트에 보관하는 것이 라이선스 약관과 충돌하지 않는지를 도입 전에 확인해야 합니다.

지표 4가지

자동 통과율 — 사람 보강 없이 분석 시트까지 도착하는 행 비율. 도입 6개월 후 75% 이상이면 안정 단계.

오추출 비율 — 검수에서 잡히는 잘못된 값 비율. 5% 이하 권장.

한 묶음 처리 시간 — PDF 50개를 분석 시트로 만드는 데 걸리는 시간. 도입 전 대비 90% 이상 단축이 일반적인 목표.

출처 추적 가능률 — 추출된 모든 값에 출처 PDF·페이지가 따라붙은 비율. 100%가 기본 요구.

자주 묻는 질문

데이터를 외부 모델에 보내야 하나요?

디지털 PDF는 추출 단계에서 일부 페이지가 LLM에 전달되는 구조가 일반적입니다. 외부 반출이 금지된 환경이면 OCR과 LLM을 모두 사내에서 운영하는 옵션 C가 채택됩니다. 비용은 늘지만 추출 정확도 자체는 충분한 수준에 도달했다고 평가됩니다.

한 페이지짜리 표 하나만 추출해도 되나요?

가능합니다. 오히려 단일 표·단일 보고서 PoC부터 시작해 정확도와 검증 룰을 확인한 뒤 묶음 단위로 확장하는 호흡이 사고가 적다고 알려져 있습니다.

도입에 얼마나 걸리나요?

한 종류 보고서(예: 증권사 리서치) PoC 기준 3주, 사내 스키마 매핑과 검증 룰까지 포함하면 8~10주가 일반적입니다. 보고서 종류가 늘어날 때마다 추가 2~3주씩 잡으면 무리가 없습니다.

더 깊이 들어가고 싶다면

이 가이드대로 사내에서 직접 시작할 수도 있습니다. 가장 단순한 형태는 자주 받는 보고서 한 종류만 골라 디지털 PDF에서 표 한 가지를 추출하고, 사내 스키마로 변환해 분석 시트로 보내는 구성입니다. 출처 페이지 첨부와 보류함만 잘 잡으면 첫 PoC만으로도 시간 절감을 체감할 수 있다고 평가됩니다.

여러 보고서 종류를 동시에 다루거나, 한국어 스캔본 처리·라이선스 정책·검증 룰까지 포함된 구조를 처음부터 잡고 싶다면 권앤컴퍼니의 사내 강의·컨설팅 옵션도 활용할 수 있습니다.

강의·PoC 모두 30분 무료 상담으로 함께 검토할 수 있습니다 → 상담 신청하기

같은 카테고리의 다른 프로젝트

유사한 AI 프로젝트를 우리 회사에 도입하고 싶다면

업종·도메인·일정을 알려주시면 가장 가까운 진행 사례와 함께 회신 드립니다. 권앤컴퍼니의 AI 도입 뉴스와 프로젝트 사례는 뉴스레터로도 받아보실 수 있습니다.