본문 바로가기

STUDY

A/B 테스트 실무자 완벽 가이드

 

AB 테스트 실무자 완벽 가이드 - 인프런 | 강의

AB Test의 인기와 관심이 폭발적으로 커지는 만큼, 국내 최초 AB Test강의를 지금 바로 알려드릴게요!, [사진] 여러분의 고민이지 않나요? 🥲 A/B 테스트가 중요한 건 알지만 왜 해야하는지, 세팅하는

www.inflearn.com

위 강의를 듣고 내용을 정리한 글입니다.


1. A/B Test 핵심 기초

A/B Test는 기존 서비스(A)와 새롭게 적용하고 싶은 서비스(B)를 통계적인 방법으로 비교해, 새롭게 적용한 서비스가 기존 서비스에 비해 더 개선되었는지를 확인하는 방법론.

- 상관관계는 데이터적 관계성만을 가지고 있는 것, 인과관계는 데이터적 관계성에 방향성까지 가지고 있는 것: B를 도입함으로 인한 변화 정도, 즉 인과관계를 밝히고자 활용

- 조직은 OEC(Overall Evaluation Criterion, 실험목적의 정량적 측정)를 공식화해야 함: 단기간에도 측정이 가능하고, 변화에 민감하고, 장기적인 목표를 예측 가능해야 함

- 조직의 아이디어 중 다수는 좋은 아이디어가 아니다: A/B Test의 성공률은 30%가 채 되지 못한다는 것을 이해해야 한다

 

2. A/B Test 필수 통계학 개념

가설검증의 근간이 통계학: 현실적 문제로 인해 모집단의 일부인 표본 사용, 유의성 확인 등을 위해 통계 사용

- 확률표본추출: 임의 추출 시 각 개체가 선택될 확률 동일. 단순임의추출, 층화임의추출, 체계적 추출, 집락추출이 해당 / 비확률표본추출: 각 개체가 선택될 확률 비동일. 편의표본추출, 판단표본추출, 할당표본추출이 해당

- 검정 통계량(t-value): 두 그룹의 평균 차이를 불확실도로 나누는 것. 두 그룹 평균 차이를 정규화한 것. 표본 수에 따라 모양이 다름

    - t검정(t-test): 두 그룹의 (연속형 변수의) 유의미한 차이를 비교하기 위한 통계량. t-value를 활용. n값(자유도)이 커질수록 표준정규분포와 가까워지며 분산이 작아져 추론 정확성이 높아짐:: 불확실성을 낮추기 위해서는 샘플 수가 충분해야 함

    - 카이제곱검정(Chi-square Test): 성공/실패로 나뉘는(≒범주형 변수) 베르누이 분포의 경우 t-test를 활용할 수 없어 카이제곱검정 활용. 합계를 포함한 분할표를 만든 뒤 자유도를 (로우수-1)*(컬럼수-1)로 계산. 유의통계량 표의 값과 비교하여 그보다 크거나 같을 경우 유의하다 판단.

- 유의확률(p-value): t-value만으로는 두 집단 간의 차이를 비교하기 어려운 상황을 해결하는 방법. 귀무가설이 맞다고 가정할 때, 관찰되거나 그보다 극단적인 결과가 일어날 확률. 즉, "어떤 사건이 우연히 나타날 확률". 0.05 이하여야 귀무가설 기각(대립가설 채택)

- 신뢰구간: 예상의 불확실성을 고려하기 위한 것.

- 가설 검정: 대상 집단에 가설을 설정하고 검토하는 통계적 추론. 실험 설계에서의 가설이 효과가 있는지를 판단하는 과정. 귀무가설(효과/차이가 없다, 동일하다)과 대립가설(효과/차이가 있다, 동일하지 않다), 양측검정(같다/같지 않다)과 단측검정(크거나 작다)을 확인해야 함: 가설 종류에 따라서도 유의수준(alpha값, 기각역)을 설정(단측일때는 α, 양측일때는 α/2)

- p-value가 가설 의사결정의 완벽한 지표는 아니다. 표본으로 인해 얻은 값인 만큼 오차가 발생할 수 있음.

    - 1종 오류: 귀무가설이 사실인데 기각할 오류. 효과가 없는데 있다고 보는 것. 유의수준 α값으로 설정. 이를 기준으로 귀무가설 기각 여부를 판단함

    - 2종 오류: 귀무가설이 거짓인데 기각하지 않을 오류. 효과가 있는데 없다고 보는 것. β값.

 

3. A/B Test 실험 계획

One pager 실험 기획서 작성 -> 실험 -> 통계 검증 -> 리뷰

- Target User가 누구인지, Observation되는 현상이 무엇인지, Problem Statement는 무엇인지, Benchmarks할 게 있는지, Hypothesis 수립, Experiments Group 구분, 성과 평가를 위한 Metric 설계, Trade-off 관계가 있는지, Andon

    - Andon: 결함이 발견되는 경우 생산 라인을 중단시키는 것. 이를 판단할 수 있는 지표를 설계해야 하고, 실험에 연루된 누구나 중단시킬 수 있어야 함.

- 집단 크기 결정(최소 샘플 사이즈) 계산을 위해서는 mu0, mu1, alpha, 1-Beta 네 가지의 값이 필요함

    - mu0: Base value. 실험하고자 하는 지표의 과거 일반적인 평균 데이터.

    - mu1: Expected value. mu0의 상승에 대한 기대값. MDE(Minumum Defectable Effect, 최소효과크기)

    - alpha: 유의수준. 귀무가설 기각 여부를 판단하는 기준. 주로 5% 사용.

    - 1-Beta: 검정력. 귀무가설을 올바르게 기각할 확률. 주로 80% 사용.

    - (1)두 분포의 겹치는 부분이 많고 (2)표본의 크기가 작으면 상대적으로 검정력이 낮다: 따라서 (1)기존 귀무가설에 해당하는 분포에 alpha(유의수준)를 지정하고 (2)대립가설이 되는 분포를 올려놓아 1-β값이 0.8이 될 때까지 찾음

 

4. A/B Test 예시

One pager 작성: Target User, Observation, Problem Statement, Hypothesis, Experiment Group, Metric, Experiments Group, Trade-off, Andon을 (존재하는 경우)모두 작성

- 실험 주제, 실험 기간, 실험 위치, 실험 목표, 실험 분배(A/B 비율), 실험 분석가 포함

- 검증에 필요한 지표로 이용률, 구매 전환율, 매출 등 포함: 카테고리별, 기기별 측정

- Map@K: MAP(Mean Average Precision)은 정보 검색 시스템의 평가 모델 중 하나. (유저가 원하는 대로)정렬이 잘 되었는가(검색 결과의 정확성과 순위)에 대한 평가 지표.

'정렬 정도 / 선택한 것 개수'인 듯 하다. 첫번째 것을 선택하지 않았으니 0/1*0, 두번째 것은 선택했으니(두 개 중 한 개 선택) 1/2*1

 

5. A/B Test 유의점

A/B Test는 통계적 가설검정으로 두 개 이상의 대안 중 어느 것이 더 효과적인지 결정하는 실험 방법.

- 훔쳐보기 문제: Peeking problem. 실험 중간 결과를 확인하고 실험을 중단하는 것. 

    - 사전 정의한 것들을 충실히 지켜야 함. 혹은 일정 시점 마다 '계획적 엿보기'를 사용하거나 본페로니 교정방법 시행

    - 본페로니 교정: 다중 비교 시 생길 수 있는 오류를 보정하는 방법. 원래의 유의수준을 가설 검정 수(n)로 나눠 계산. 훨씬 보수적인 검정을 이용하여 유의성 판별

- 교란 변수: Confounding Factor. 미처 파악하지 못한(수집하지 못한) 변수로 실험 결과를 왜곡시킴.

    - 랜덤화 그룹 분배(고객 특성에 관한 교란 변수를 가진 고객군을 무작위로 섞음), 층화 랜덤화 그룹 분배(특이집단의 요소 분포 편차가 클 때, 특이 집단을 그룹에 무작위로 분배), 교란 변수 영향력 추정(미리 조사 후 제거)로 해결

- 초두 효과: Primary Effect. 기존 방식에서의 변화를 꺼리는 현상. 지표 변화가 없다가 점진적으로 지표 상승이 일어나는 경우

- 신기 효과: Novelty Effect. 기존 방식에서의 변화를 선호하는 현상. 지표 급상승 이후의 하락이 발생하는 경우

    - 새로운 기능이 다른 실험군에게 동일한 결과를 보이는지, 같은 실험군에게 다른 결과를 보이는지를 통계적 검정으로 확인해 해결

종료된 A/B Test의 후속 모니터링도 중요: 이전 결과를 통해 얻은 통찰력 활용 가능. 제품, 서비스의 성능 변화를 파악해 개선점을 찾아낼 수도 있고, 실험의 결과가 일시적인 효과였음을 확인할 수도 있고, 실험 결과에 영향을 미치는 외부 요인을 파악할 수도 있기 때문

'STUDY' 카테고리의 다른 글

취준로그 ver2.2  (1) 2023.09.04
취준로그 ver2.1  (0) 2023.08.19
2022 이스포츠 실태조사  (0) 2023.08.14
취준로그 ver2.0  (4) 2023.08.01
취준로그 ver1.9  (1) 2023.07.24