AB테스트란 서비스의 일부분 혹은 전체를 교체하기 전, 랜덤한 특정 모수를 대상으로 개선안을 먼저 보여줘 의도된 효율을 만들 수 있는지 확인하는 실험을 말합니다. 보통은 랜딩페이지를 수정하거나, 서비스의 UX/UI를 수정하는 등 다양한 방면에서 AB테스트가 사용되고 있죠. 그리고 AB테스트의 사례를 보면 굉장히 매력적입니다. 글자나 배너의 색상을 바꿨는데 매출이 늘었거나, CTA 텍스트를 바꾸니 가입자가 증가하는 등의 사례를 확인할 수 있습니다.
하지만 우리 비즈니스에서 동일하게 색상을 교체하거나, 텍스트를 바꾼 경우 실험의 결과값(p-value 달성)을 얻기 힘듭니다. 왜냐면 위 사례는 대체로 빅테크 기업의 사례이기 때문이죠. 그렇다면 우리는 왜 AB테스트로 효과적인 결과값을 얻지 못할까요?
우리 A/B 테스트는 왜 효과성이 낮은걸까?
아무리 성공사례를 확인하고, 그 사례를 기반으로 A/B테스트 실험을 진행해도 실험 효과를 얻기 어렵습니다. 그 이유는 위와 같이 사례는 대체로 빅테크 기업의 사례로 나타나고, 우리는 빅테크 기업이 아니기 때문입니다. 우리 기업과 빅테크 기업의 대표적인 차이는 표본의 수입니다.
만약 Google에서 검색 결과에 나타나는 광고 텍스트의 글자 두께를 바꿨다고 생각해봅시다. Google은 손쉽게 실험의 유효성이 있다고 판단하는 통계적 유의성 지표 P-value를 달성할 수 있습니다.
Google 검색 일간 검색량은 약 90억 건으로 알려져 있다. 만약 검색광고의 클릭율이 평균 5%(4.5억 회) 로 가정한다. 실험군에서 클릭율이 0.0008%가 증가한다면 36,000회의 클릭이 발생하며, P-Value 0.05 이하가 달성된다.
이번에는 반대로 우리 비즈니스에서 유사한 실험을 진행했다고 생각해보죠. 우리 비즈니스의 일 방문자는 약 10,000명으로 본다면 아래와 같은 실험 결과를 얻을 수 있습니다.
우리 비즈니스 사이트의 방문자는 일 10,000명 정도이다. 사이트의 배너 이미지 클릭율은 평균 5%(250회)이다. 배너 실험의 클릭율이 실험군에서 0.0008%가 증가하면 250.002회가 되며, P-Value 0.05이하가 달성되지 못한다.
Google과 우리 비즈니스 모두 5%의 클릭율을 가지고 있고, 실험에서는 실험군이 0.008%가 증가했지만, 실험의 결과값 P-Value의 달성에서 차이가 납니다. 두 실험에서의 표본 차이가 크기 때문이죠. 90억 명의 0.0008%는 의미있는 숫자를 만들 수 있지만, 1만 명의 0.0008%는 수치적 변화가 작습니다.
즉, 작은 변화를 통해서 유의미한 실험 결과를 얻으려면 많은 표본이 필요합니다. 적은 변화를 주었기에 반응을 만들기 어렵기 때문입니다. 하지만 실험 표본가 적어도 유의미한 실험 결과를 빠르게 얻는 방법이 있습니다. 바로 “큰 변화”를 주는 것입니다.
변화 방식에 따라 분류하는 A/B 테스트
해당 분류 방식은 온전히 제 개인적인 의견입니다. 각자의 의견이 다를 수 있으며, 더 나은 분류 방식이 있을 수 있습니다.
작은 변화로 많은 표본이 필요한 실험 - UI A/B 테스트
UI를 일부 교체하는 것은 누구나 간단하게 진행할 수 있습니다. 단순히 배너의 색상을 바꾸거나, 위치를 조정하는 등의 실험을 진행하는 것이죠. 이러한 작은 변화는 쉽게할 수 있는 만큼, 사용자들에게 임팩트를 주기 어렵습니다. 그렇기에 이런 실험에서는 많은 표본값이 필요하게 됩니다.
대체로 적은 모수를 가지고 실험했으나, P-value 지표가 잘 나타나지 않는 경우에는 UI 변화를 실험한 경우가 많습니다. 물론, 일부 실험들은 UI를 교체했을 때에도 효과성을 가질 수도 있습니다. 하지만 일반적으로 UI 실험은 표본의 수가 많아야 합니다.
작은 비즈니스라면 UI A\B Test는 불가능할까?
작은 비즈니스도 UI A\B Test는 충분히 가능합니다. 다만, 실험 설계를 잘 해야합니다. 표본 모집의 기간을 오래 설정한다면, 동일한 사용자의 재방문 등으로 사용자 누적률이 저선형으로 될 수 있습니다. 그렇기에 적은 모수로 UI A\B 테스트를 진행할 때는 최대한 많은 표본이 확인할 수 있는 위치를 실험하는게 좋습니다.
만약Footer의 전경색을 바꾸는 실험이라면 굉장히 실험 기간이 오래 걸릴겁니다. 왜냐면 방문자가 이탈하지 않고 랜딩페이지 최하단까지 와야하는 과정(Depth)가 필요하니까요. 이미 적은 표본의 수를 더욱 줄인 상태로 실험을 하기에 사용자 저선형을 고려하지 않더라도 기간이 오래 필요하거나, 표본이 더욱 많이 필요합니다.
큰 변화로 적은 표본이 필요한 실험 - UX A/B 테스트
회원가입 양식의 길이를 줄이거나, 구매에 필요한 정보를 서버에서 자동으로 입력하는 등 UX를 교체하는 것은 어려울 수 있지만 효과가 좋습니다. UX 교체가 어려운 이유는 구현의 어려움도 있지만 위험 요소가 존재하기 때문입니다. 만약 회원가입 양식의 길이를 줄였더니 회원가입 수가 크게 증가했다고 생각합시다. 그렇다면 좋은 실험이 맞을까요?
상품 추천 알고리즘에 사용하는 회원 정보를 없앴다면 비즈니스에서 큰 위험이 됩니다. 즉, UX 테스트는 유저의 경험을 바꾸는 큰 변화를 만들어 적은 표본에서도 검증이 될 확률이 높지만, 비즈니스의 위험을 가져올 수도 있기 때문에 진행이 어렵습니다. 그렇기에 가드레일 지표를 잘 설정하고 UX A/B 테스트를 진행한다면 적은 표본으로도 큰 성과를 확인할 수 있습니다.
UX A\B 테스트는 반드시 빠른 결과를 만들 수 있을까?
UX A/B 테스트는 UI 변화보다 결과값을 얻을 확률이 높을 뿐입니다. 만약 기존 주요 지표의 수치와 실험 효과성에 따라 결과를 얻는 기간이 달라집니다.
만약 방문자는 일 1,000명이고, 회원가입율이 1%라면 어떨까요? 회원가입율이 실험군에서 1.4%가 된다는 가정하에 약 9일 정도는 필요할 겁니다.
하지만 회원가입율이 10%였고, 실험군이 14%라면 당일 실험으로도 P-Value 달성이 가능합니다.
즉, 표본이 많거나, 실험군의 증감이 큰 경우에는 빠르게 P-Value 달성이 가능합니다. 이 부분은 UI A\B 테스트와 UX A\B 테스트가 모두 동일하죠. 다만, UX의 교체는 수치적 변화를 만들기 용이합니다. 결국 변화의 폭을 생각했을 때 작은 비즈니스에서는 UX A\B 테스트가 조금 더 좋은 것 뿐입니다.
올바른 A\B 테스트를 위해서 고려해야 하는 요소가 굉장히 많습니다. "UI를 교체할 것인가? UX를 교체할 것인가?" 보다 “얼마나 많은 모수를 유입시킬 수 있는가”와 “실험 임팩트의 크기는 얼마나 클 것인가”, "비즈니스 주요 지표를 훼손할 가능성이 있는가" 등 입니다. 여기서 UX A\B 테스트는 실험 임팩트가 클 확률이 높아 UX A\B 테스트를 조금 더 권장합니다. 물론 모수가 굉장히 많다면, UI A\B 테스트 또한 빠르게 성과를 확인할 수 있습니다.
만약 A\B 테스트를 고려하고 있다면, 현재 기획하고 있는 A\B 테스트가 실험군과 대조군 간 차이가 명확한지 확인해야 합니다. 아니라면 충분히 많은 모수가 단기간 동안 채워질 수 있는지를 고려하고 준비하면 좋습니다.