Google Analytics

데이터를 감추는 GA4 Data Threshold를 해결할 수 있는 3가지 방법

  • -

Google Analytics4를 사용하다 보면, 이상한 점을 몇 가지 발견합니다. 하나는 실시간 보고서에서 데이터가 있어도, 탐색에서 보고서로 구성하면 없다고 나타나는 경우가 있입니다. 그리고 두 번째는 어느순간 GA4 화면에 주황색 경고등과 "기준점 적용됨"이 존재하는 것이죠.

data threshold 이미지

 

두 가지 문제는 모두 소수 데이터를 보여주지 않는 Data Threshold(데이터 기준점)가 적용됐기 때문입니다. 그렇다면 데이터 기준점은 무엇이고 이를 해결할 수 있는 방법은 무엇이 있을까요?

 

Data Threshold(데이터 기준점)가 GA4에 추가된 이유

개인정보보호를 위해서 존재합니다.

소수의 데이터로 개인을 특정하는 것을 방지

GA4는 기존 웹에 특화된 Universal Analytics에서 모바일 환경 등 다양한 디바이스에서도 자유롭게 사용할 수 있도록 업데이트 됐습니다. 하지만 단순히 다양한 디바이스 분석만을 위해 업데이트되진 않았습니다. 개인정보보호 이슈가 커지면서 웹(Web)에서는 쿠키(Cookie)로 인한 개인정보 침해 이슈가 지속적으로 발생했고, Google의 UA는 쿠키를 기반으로 분석하기에 동일한 이슈가 제기됐었습니다.

GA4는 모바일 시장이 커진 부분을 고려해서 업데이트 되었지만, 더불어 개인정보보호 측면을 강화하기 위한 업데이트이기도 합니다. 즉, GA4로 업데이트 되면서 데이터를 역추적해 개인을 특정하지 못하도록 업데이트가 됐습니다. 그 일환 중 하나가 바로 데이터 기준점(Data Threshold)입니다. 그렇다면 Data Threshold는 어떻게 개인정보보호를 만들 수 있을까요?

 

Data Threshold가 적용되면 소수의 데이터는 보여주지 않습니다.

만약 GA4에 소수의 데이터를 감추는 Data Threshold가 없다고 생각해보죠. 그렇다면 우리는 아래와 같은 방식으로 사용자를 추적할 수 있습니다.

 

고객 A는 9월 6일 우리 사이트에서 X 제품을 구매한 유일한 유저입니다.
GA4에서도 9월 6일 X 제품이 판매된 데이터가 노출되고 있습니다.
인구통계학 정보를 확인하니, 9월 6일 X 제품을 구매한 사용자는 20대이며, 경기도에 거주합니다. 그리고 음악과 의류에 관심이 있습니다.

 

위 에시로 우리는 고객 A가 회원가입 시 제공한 정보 (예. E-mail, 이름, 나이 등) 정보 외에도 관심사나 거주 지역을 알게 됐습니다. 즉, 고객이 제공하지 않은 정보를 우리는 GA를 활용해 무단으로 추론할 수 있게되죠.

 

이 외에도 매개변수(Parameter) 값을 필터 User-Id를 특정해 개인 정보를 취득할 수도 있습니다. 특정 유저의 user_id를 필터로 고객의 인구통계학 정보를 얻을수도 있는 것이죠. 결국 GA4에서 데이터 기준점이 없다면 고객이 희망하지 않은 고객의 추가 정보를 얻을 수 있습니다.

 

그렇기에 데이터 모수가 적으면 사용자를 추론할 수 없도록 Data Threshold가 적용돼, 소수의 데이터는 전혀 보이지 않는 것이죠. 만약 아래의 경우라면 대체로 GA4에서 데이터를 볼 수 없습니다.

 

  • 이벤트의 수가 너무 적은 경우 - 이벤트를 볼 수 없음
  • 이벤트의 수는 많으나 매개변수가 너무 적은 경우 - 특정 매개변수를 확인할 수 없음

결국 GA4는 소수의 데이터를 감추는 것으로 사용자 데이터의 무단 취득을 막습니다.

 

Data Threshold(데이터 기준점)의 문제점

초기 사업자나 이용자가 적은 비즈니스는 빠른 데이터 분석을 하기 어렵습니다.

데이터 기준점은 개인정보보호 역할을 하기에 개인정보보호 관심이 높은 현재에 적절한 방침입니다. 하지만 데이터 기준점이 GA4의 사용성을 저해하기도 합니다. 특정 소수 시장(Micro Market)이거나 초기 스타트업 등 데이터를 원활히 쌓을 수 없는 사용자라면 데이터 분석이 어려워집니다. GA4에서 데이터를 확인하기 위해 일정량 이상의 이벤트가 쌓아야만 하고, 이벤트가 쌓여서 데이터를 볼 수 있는 기간까지 데이터 분석을 실시간으로 진행할 수 없는 단점이 발생하죠.

만약 이벤트를 쌓기 어려운 비즈니스라면 분석 기간을 길게 잡아서 최대한 이벤트의 수가 많도록 해야합니다. 즉, 특정 일자의 데이터를 확인하는 것보다 일주일 데이터 등 분석 기간을 길게 잡아야하죠. 결국 규모가 작은 비즈니스는 데이터 분석에 제한이 발생하게 됩니다.

 

Data Threshold(데이터 기준점)의 문제를 해결할 수 있는 방법들

다행히도 Data Threshold를 해결할 수 있는 방법들이 몇 가지 존재합니다. 방법은 크게 두 가지로 GA4 내에서 해결하는 방법과 외부 툴을 추가해서 해결하는 방법이죠.

 

Google Analytics4에서 Data Threshold를 해결할 수 있는 방법

GA4 설정 내 보고서 ID를 기기 기반 옵션으로 변경합니다.

 

GA4 내 설정에 있는 보고서 ID에서 모두 표시를 선택하면 나타나는 추가 옵션들이 있습니다. 이 중에 “기기 기반”으로 선택한다면 Data Threshold(데이터 기준점)를 피할 수 있습니다. 기기 기반으로 선택하면 아래와 같은 일이 생기게 됩니다.

  1. Google Analytics4는 Client ID와 App ID를 별도 사용자로 인식하게 됩니다.
  2. 만약 A 유저가 Web으로 접속 후, 모바일로 재접속을 한다면, Client ID와 App ID가 다르기에 GA4는 두 명이 유입된 것으로 확인됩니다.

만약 하나의 디바이스로 서비스를 이용자가 많다면 보고서 ID를 기기 기반 옵션으로 변경하면 좋습니다. 하지만 커머스와 같이 PC와 모바일 디바이스의 교차 방문이 잦다면, 오히려 기기 기반 옵션을 끌 경우 과장된 이벤트로 분석이 힘들어질 수 있습니다.

 

 

구글 신호 데이터를 미수집 합니다.

google 신호 데이터 설정 화면

 

GA4 설정 > 데이터 설정 > 데이터 수집 항목 > Google 신호 데이터 수집을 비활성화로도 Data Threshold를 해결할 수 있습니다. 하지만 Google 신호 데이터를 미수집할 경우, GA4에서 인구통계학 정보를 확인할 수 없게됩니다. 만약 인구통계학적 정보가 아닌 사용자의 행동이 중요하고, User-ID를 기반으로 명확한 추적이 중요하다고 생각된다면 Google 신호 데이터 수집을 비활성하는 것도 좋습니다.


이 경우 user_id가 없는 사용자의 데이터 추적은 어려울 수 있으나, user_id가 있는 유저의 데이터 확인에 좋습니다. 만약 서비스를 이용하기 위해 필수적으로 로그인을 진행하거나, 인구통계학 정보 확인이 중요하지 않다면 구글 신호 데이터를 미수집하는 것으로 Data Threshold를 해결할 수 있습니다.

 

Google Analytics4 외 서비스로 해결할 수 있는 방법

GA4 초기에는 Looker Stuiod에서 Data Threshold가 적용되지 않았으나, 현재는 적용되는 것으로 보여 해당 Looker Studio로 해결은 이제 불가능합니다.

 

 

Google Biq Query(빅쿼리) 또한 Data Threshold 적용이 없습니다. Big Query는 GA4 데이터의 Raw 데이터를 저장하고 사용하기 때문에 Data Threshold가 적용될 수 없습니다. 빅쿼리를 사용할 경우 장점은 Looker Studio와 함께 사용 시, 데이터 호출 제한에 걸릴 일이 줄어들게 됩니다. 단점의 경우 Big Query는 무료 서비스가 아닌 유료 서비스라는 점과 사용하면 SQL 구문을 알아야 하는 점이 있죠.

 

물론, Big Query는 일정 데이터 저장량 이하이거나 데이터 호출수가 적다면 무료로 사용할 수 있습니다. 초기 스타트업 등 데이터가 적은 경우에는 비용 발생할 일이 거의 없습니다. 만약 초기 사업자이거나 Google Cloud Platform을 이미 이용하면서 데이터 저장을 하고 있다면 Big Query를 연결해 Data Threshold를 해결하는 것도 방법입니다.

 

 


Google Analytics4는 Universal Analytics 대비 많은 장점을 가졌지만, 개인정보보호를 위해 데이터 확인의 일부 요소를 제한하였습니다. 물론, Google Big Query로 어느정도 해결이 가능하지만 서비스 이용을 많이 하면 비용이 발생하는 것이 단점이죠. Google Analytics4의 문제인 데이터 확인에 대해서 다양한 방식의 해결방식이 존재하니, 각 서비스에 맞는 해결 방법을 사용해서 GA4를 사용해보세요.

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.