본문으로 건너뛰기

구글·네이버는 가짜 트래픽을 어떻게 잡아낼까 — 봇 탐지의 원리

‘봇 트래픽은 단기간에 걸러진다’는 말을 자주 합니다. 그런데 검색엔진은 대체 어떤 근거로 사람과 기계를 구분할까요? 핵심은 단순 접속 횟수가 아니라, 한 번의 방문 안에서 일어나는 행동 신호를 다층으로 교차 검증한다는 데 있습니다.

접속 횟수가 아니라 '행동'을 봅니다

초기 검색엔진은 링크 수와 키워드 빈도 위주로 순위를 매겼습니다. 하지만 지금은 사용자가 검색 결과를 클릭한 뒤 실제로 만족했는지를 추정하는 행동 신호의 비중이 큽니다. 기계가 흉내 내기 가장 어려운 영역이 바로 이 부분입니다.

1) 체류 시간과 포고스티킹

사용자가 검색 결과에서 A 사이트를 클릭했다가 1~2초 만에 뒤로 가기를 눌러 다른 결과를 클릭하는 행동을 '포고스티킹(pogo-sticking)'이라고 합니다. 이 패턴이 누적되면 검색엔진은 'A는 이 검색 의도를 만족시키지 못한다'고 학습합니다. 봇은 보통 페이지를 읽지 않으므로 이 신호에서 가장 먼저 들통납니다.

2) 스크롤·포인터·터치의 미세 패턴

사람은 문장을 읽다가 멈추고, 되돌아가고, 불규칙하게 스크롤합니다. 자동화된 트래픽은 일정한 속도로 내려가거나 아예 움직이지 않습니다. 이런 미세한 상호작용의 분포 차이는 통계적으로 명확히 구분됩니다.

3) Chrome UX Report(CrUX)와 실사용 데이터

구글은 실제 크롬 사용자들의 익명 실사용 데이터를 집계합니다(CrUX). 여기에는 로딩 성능(LCP·INP·CLS) 같은 실제 체감 지표가 포함됩니다. 가짜 트래픽은 이 실제 사용자 풀에 섞이지 못하므로, 데이터센터에서 만든 방문은 진짜 사용자 경험 지표를 채우지 못합니다.

4) 네이버 C-Rank와 DIA·DIA+

네이버의 C-Rank는 출처(블로그·사이트)의 주제 전문성과 신뢰도를 평가하고, DIA·DIA+는 개별 문서의 정보 충실도와 사용자 반응을 봅니다. 기계가 찍은 조회수는 전문성·신뢰도·정보성 어느 쪽에도 긍정 신호를 남기지 못합니다. 오히려 짧은 시간에 몰린 비정상 트래픽은 어뷰징 탐지의 트리거가 됩니다.

그래서 결론은 같습니다

봇 탐지를 우회하려는 노력은 검색엔진의 핵심 평가 축(사용자 만족)과 정면으로 충돌합니다. 검색엔진이 보상하려는 것은 '사용자를 만족시킨 페이지'이고, 그 신호는 진짜 사용자에게서만 나옵니다. 결국 가장 확실한 우회 불가능한 전략은 진짜 사용자를 만족시키는 것뿐입니다.

자주 묻는 질문

체류 시간을 길게 설정한 봇은 안 걸리나요?
체류 시간 하나만 맞춰도 스크롤 패턴, 포인터 움직임, 전환 부재, 재방문 부재, 디바이스 지문 등 다른 축이 동시에 비정상으로 남습니다. 검색엔진은 단일 지표가 아니라 신호의 조합과 분포를 보기 때문에 한 가지 항목 위조로는 통과하기 어렵습니다.
그럼 검색엔진은 모든 클릭을 추적하나요?
개별 사용자를 식별해 추적한다기보다, 익명화·집계된 행동 데이터와 패턴을 통계적으로 평가합니다. 핵심은 '특정 페이지가 검색 의도를 만족시켰는가'를 다수 데이터로 추정하는 것입니다.

지금 필요한 건 제작 견적보다, 방향입니다.

업종, 목표, 예산, 일정만 알려주시면 가능한 범위를 먼저 정리해 드립니다. 불필요한 기능을 부풀리기보다, 실제 문의와 운영에 필요한 구조부터 제안합니다.

상담 전에 알려주시면 빠르게 범위를 잡습니다
업종필요한 작업예산 범위희망 일정