영업 · B2B SaaS

교육 과정에서 수강생과 함께 만든 AI 활용 예시

리드 스코어링 AI 모델

"이번 달 리드 380건, 누구부터 전화 돌릴까?" — 매일 던지는 이 질문을 자동으로 끝내는 시스템이 있습니다. LLM이 회사·행동·과거 거래를 종합해 0~100점과 근거를 붙입니다. 도입 후 무엇이 달라지고 어떻게 만드는지 정리했습니다.

Claude Sonnet 4.6GPT-5.5HubSpotSalesforceLangGraphPostgreSQL

"이번 달 들어온 리드 380건, 누구부터 전화 돌릴까?" — 영업 회의가 끝나기 전 누군가는 이 질문을 던집니다. 답을 못 정하면 그날 오후는 이름순으로 콜이 시작되고, 정작 가장 따뜻한 리드가 일주일 뒤에야 손에 닿습니다.

리드 스코어링 AI 모델은 이 결정을 자동으로 끝내는 시스템입니다. 회사·담당자·웹사이트 행동·과거 거래 이력을 종합해 0~100점을 매기고, "지금 전화"부터 "보류"까지를 자동으로 분류합니다. 단순 규칙(BANT, 룰 기반)보다 LLM이 사내 사례를 학습한 뒤 점수를 보정하는 구조가 정확도가 높다고 평가됩니다.

이 글은 리드 스코어링 모델이 사내에 자리 잡으면 무엇이 어떻게 달라지는지, 어떤 데이터·도구로 만들어야 하는지, 도입 시 무엇을 미리 정해야 하는지를 도입 판단에 필요한 내용을 정리한 가이드입니다.

이런 경우에 빛납니다

리드는 들어오는데 응답률이 떨어지고 있을 때, 또는 한정된 영업 인원이 어디부터 손대야 할지 매일 고민하는 조직에서 효과가 두드러집니다. 다음과 같은 신호가 두세 개 겹친다면 도입을 검토할 시점입니다.

"월간 인바운드 리드가 100건을 넘어 사람 손으로 못 따라간다."

"광고비는 늘었는데 영업 전환율은 그대로다."

"같은 리드를 두 명이 동시에 콜하는 사고가 종종 난다."

""왜 이 리드부터 콜했어?"라는 질문에 답이 직감뿐이다."

"시즌별 리드 품질 차이가 크지만 측정해본 적이 없다."

도입 후 일상의 변화

한 달만 돌려도 회의 풍경부터 달라집니다. 가장 자주 보고되는 변화 다섯 가지입니다.

아침 회의 — 엑셀 정렬 30분 → 점수 상위 20건이 자동으로 화면에 떠 있음.

콜 우선순위 — 담당자 직감과 인맥 → 점수와 근거 코멘트(왜 90점인지) 동시 제공.

응답률 — 평균 12% 수준 → 상위 25% 리드만 보면 30% 이상으로 상승하는 사례가 보고됨.

신입 적응 속도 — 선배 따라다니며 6개월 → 모델이 추천하는 리드부터 콜하면 2개월 안에 평균 성과 도달.

예산 의사결정 — "이 채널이 좋아 보여"의 감 → "이 채널 리드가 평균 65점, 다른 채널은 38점"이라는 수치 근거.

한 장으로 보는 시스템

리드가 들어와 점수와 근거를 받아 CRM 카드에 다시 꽂히기까지의 전체 흐름입니다. 오렌지 박스가 LLM·AI 모델이 일하는 단계, 베이지 박스는 사내에 이미 쌓여있는 자산입니다.

다이어그램을 그리는 중…

어떤 도구가 어울리나요

리드 스코어링은 정확도와 도입 속도가 트레이드오프 관계에 있습니다. 빠른 파일럿이 우선인지, 정밀한 자체 학습이 우선인지에 따라 도구 조합이 갈립니다. 네 가지 옵션을 정확도-속도 사분면에 놓으면 다음과 같이 정리됩니다.

다이어그램을 그리는 중…

HubSpot·Salesforce 내장 스코어링은 며칠 안에 가동되지만 자사 도메인 학습이 약합니다. Sonnet 4.6 + RAG 조합은 사내 거래 이력과 통화 요약을 컨텍스트로 넣어 한국어 B2B 도메인에서 높은 정확도가 보고됩니다. 자체 ML 파이프라인은 데이터가 충분히 쌓인 뒤(연 5천 건 이상 거래)부터 ROI가 생기는 구성입니다.

점수가 만들어지는 과정

0~100점이 한 건당 결정되는 과정은 네 단계로 흐릅니다.

다이어그램을 그리는 중…

1단계 — 행동 시그널 추출 — 회사 규모·업종·직급은 기본, 여기에 웹사이트 방문 페이지·체류 시간·자료 다운로드·이메일 오픈을 더합니다. 가격 페이지를 두 번 봤는지, 도입 사례를 끝까지 읽었는지가 강한 신호로 평가됩니다.

2단계 — 사내 과거 거래 매칭 — 비슷한 회사가 과거에 어떻게 전환됐는지를 RAG로 조회합니다. "비슷한 규모 제조업이 우리 자료를 받고 평균 32일 안에 미팅으로 전환됐다"는 패턴이 점수 보정에 들어갑니다.

3단계 — LLM 종합 평가와 카테고리 분류 — Sonnet 4.6 같은 LLM이 위 두 정보를 종합해 0~100점, 그리고 Hot/Warm/Nurture 세 카테고리로 분류합니다. 단순 합산이 아니라 "이 회사는 가격 페이지를 봤지만 직급이 맞지 않아 -10점" 같은 맥락 추론이 들어갑니다.

4단계 — 근거 코멘트 자동 생성 — 점수만으로는 영업이 신뢰하지 않습니다. "85점 이유: 가격 페이지 2회, 동종업계 작년 파일럿 프로젝트 4건, 의사결정자 직급 매칭"처럼 두세 줄로 근거를 붙여야 채택률이 두 배 이상 올라간다고 알려져 있습니다.

현장의 함정

가장 흔한 실패는 "점수만 있고 근거가 없는 모델"입니다. 영업이 직감과 점수가 충돌하면 직감을 따르고, 모델은 한 달 안에 사용 중단됩니다. 근거 코멘트는 옵션이 아니라 필수입니다.

두 번째는 데이터 편향입니다. 과거 잘 팔린 패턴만 학습하면 신규 시장·신규 페르소나가 항상 저점을 받습니다. 모델 출력에 "신규 영역 가산점" 같은 보정 룰을 두거나, 분기마다 샘플 검증으로 편향을 점검합니다.

세 번째는 점수의 시간 감쇠입니다. 한 달 전 90점이 오늘도 90점은 아닙니다. 점수에 유효기간(예: 7일)을 두고, 행동 데이터가 갱신될 때마다 재평가합니다.

마지막은 영업 인센티브와의 충돌입니다. "왜 내 리드는 항상 50점이야?"가 한두 번 반복되면 신뢰가 깨집니다. 점수 산식과 가중치를 사내에 공개하고, 분기마다 영업 피드백으로 보정하는 운영 사이클을 함께 설계해야 합니다.

어떻게 측정하나요

리드 스코어링 모델의 효과는 다음 네 지표로 추적하기를 권장합니다.

점수 상위 25% 응답률 — 도입 전 평균 대비 1.5배 이상이면 모델이 작동 중.

미팅 전환율(점수 80점 이상 vs 50점 이하) — 3배 이상 격차가 정상 범위.

근거 코멘트 채택률 — 담당자가 점수를 보고 "그래서 콜한다"고 답한 비율 70% 이상.

월 평균 리드 처리 시간 — 한 건당 분석 시간 8분 → 30초로 단축이 일반적 목표.

한 가지 덧붙이면, 정확도 95%를 처음부터 노리지 않습니다. 70%에서 시작해 분기마다 영업 피드백으로 보정하는 게 더 실용적이라고 평가됩니다.

Q&A

CRM 데이터가 부족한데 시작 가능한가요?

가능합니다. 초기 6개월은 외부 시그널(회사 규모·업종·웹사이트 행동) 위주로 점수를 매기다가, 사내 거래 데이터가 50건 이상 쌓이는 시점부터 RAG 기반 보정을 켜는 단계적 도입이 일반적입니다.

B2C에서도 작동하나요?

작동하지만 모델 구성이 다릅니다. B2B는 회사·직급 같은 정적 시그널이 강한 반면, B2C는 행동 시그널(앱 체류·재방문·장바구니)이 결정적입니다. B2C는 별도 기획으로 다루는 게 정확도가 높다고 알려져 있습니다.

도입에 얼마나 걸리나요?

파일럿 프로젝트 2주, 운영 안정화까지 6~10주가 일반적입니다. CRM이 잘 정리된 회사는 절반, 데이터 정제부터 시작하는 회사는 1.5배 정도 걸립니다.

한 발 더 들어가기

이 가이드는 리드 스코어링 모델 도입 의사결정에 필요한 핵심을 핵심만 정리한 자료입니다. 사내에서 직접 시작한다면 1단계의 행동 시그널 정의부터, 그리고 옵션 사분면의 1사분면 도구로 파일럿을 돌려보는 것이 가장 짧은 학습 곡선을 제공합니다.

이런 시스템을 조직 차원에서 어떻게 도입할지, 영업·마케팅이 함께 쓰는 운영 사이클을 어떻게 설계할지를 한 번에 정리해 듣고 싶다면 권앤컴퍼니의 사내 강의를 활용할 수 있습니다. 자체 데이터로 직접 파일럿을 돌려보고 싶다면 컨설팅 옵션도 준비되어 있습니다.

강의·파일럿 모두 30분 무료 상담으로 가능성부터 함께 검토할 수 있습니다 → 상담 신청하기

같은 카테고리의 다른 프로젝트

이런 AI 활용 예시를 우리 팀과 함께 만들고 싶다면

이 예시는 권앤컴퍼니 기업 AI 교육에서 수강생들과 함께 만든 결과물입니다. 우리 팀에 맞춘 교육과 도입이 궁금하시면 알려주세요.

상담 문의 카탈로그와 견적 가이드 받기 →