AB 테스트 보고서 이렇게 쓰세요! P값(P-value) 5분 정복

콘텐츠 홈 트렌드 마케팅 전략 비즈니스 프로덕트 기획 데이터 업무 스킬 커리어 리포트 자료실 오리지널 행사 행사

프로덕트 분석 입문하기

마켓핏랩 솔루션즈

2024.11.18 15:03

1221
콘텐츠에 ‘좋아’해줘서 고마워요 -

0
0

“이 결과, 정말 믿어도 되는 거야?”

AB 테스트 결과를 보며 이런 생각이 든 적 있으신가요?

클릭률, 전환율, 광고 성과 등 다양한 KPI를 위해 AB 테스트를 자주 실행하지만, 그 결과가 진짜 의미 있는지 판단하기 어려울 때가 많아요. 단순히 “이쪽이 더 높네! 유의미하다고 봐도 되겠어”라고 결론 내리기엔 충분하지 않으니까요.

이번 글에서는 AB 테스트 결과를 제대로 해석하기 위해 필요한 P값(P-value), 신뢰 구간, 효과 크기 개념을 알아보고, 사례와 함께 결과를 분석해볼게요.

1. P값(P-value)이란?

P값(P-value)은 두 그룹(A그룹과 B그룹) 간의 결과 차이가 유의미한지 판단하는데 도움을 주는 지표예요. P값(P-value)을 제대로 이해하려면 귀무가설에 대해 알아야 해요.

• 귀무가설이란?

두 그룹(A와 B) 간 차이가 없다고 가정하는 가설이에요. 즉, A와 B의 클릭률 차이는 단순히 우연에 의해 발생한 것이라는 기본 가정이에요.

• P값(P-value)과 귀무가설의 관계

P값(P-value)은 귀무가설이 맞다(두 그룹 사이에 차이가 없다)는 전제하에, 실험 결과가 우연일 가능성을 나타내는 숫자에요. P값(P-value)이 낮을수록 귀무가설이 맞을 가능성은 줄어들고, 차이가 실제 효과일 가능성이 높아집니다.

예를 들어, 버튼 위치에 따른 클릭률을 비교하는 실험에서 A와 B의 결과가 다음과 같다고 해볼게요.

• A 그룹: 100명 중 6명이 클릭 (클릭률 6%)

• B 그룹: 100명 중 10명이 클릭 (클릭률 10%)

B 그룹의 클릭률이 A 그룹보다 더 높게 나왔지만, 100명 중 4명 차이가 정말로 의미 있는 차이인지, 아니면 단순히 우연히 생긴 차이인지 궁금할 수 있죠. 이럴 때 P값(P-value)을 확인하면, 이 차이가 우연이 아닌지 판단할 수 있습니다.

2. 유의수준: P값(P-value), 어느정도여야 유의미할까?

그렇다면 P값(P-value)이 어느 정도로 낮아야 실험 결과가 유의미하다고 볼 수 있을까요?

이 기준을 유의 수준이라고 합니다. 유의 수준은 실험의 신뢰도와 정확성의 중요성에 따라 결정되며, 설정해둔 유의 수준보다 P값(P-value)이 작으면 결과가 유의미하다고 해석해요.

일반적으로 AB 테스트같은 프로덕트 테스트에서는 유의 수준을 0.05(5%)로 설정해요. 그러나 신뢰도가 특히 중요한 의학이나 금융 분야에서는 유의 수준을 더 엄격하게 0.01(1%) 미만으로 설정하기도 합니다.

즉, 유의 수준은 절대적인 값이 아니며, 테스트 결과의 정확성이 얼마나 중요한지와 그로 인해 발생할 리스크가 어느 정도인지에 따라 더 낮거나 높게 조정할 수 있어요.

3. AB테스트 결과 더 정확히 분석하기

P값(P-value)으로 테스트의 성공 여부를 판단했다면, 이후 테스트를 실패하거나 성공한 이유를 구체적으로 분석할 때는 **업리프트(효과 크기)**와 신뢰 구간 지표를 함께 살펴보는 경우가 많아요. 업리프트와 신뢰 구간이 P값(P-value)을 계산하는 기본 요소이기 때문에, 결과가 실제로 의미 있는 변화인지, 그리고 그 결과가 일관성 있게 나타났는지 더 구체적으로 분석하는 데 중요한 역할을 해요.

• 업리프트(효과 크기)는 두 집단 간의 차이가 얼마나 실질적으로 얼마나 큰 영향을 미치는지를 나타내는 지표에요. 두 그룹의 차이가 실제 비즈니스에 중요한지를 평가해요.

업리프트(효과 크기)가 크면 비즈니스 성과에 의미 있는 변화를 가져올 가능성이 높다고 판단할 수 있습니다.

• 신뢰 구간은 실험 결과가 실제 값에 얼마나 가까운지를 추정하는 범위예요. 결과의 일관성을 평가하는 척도로 사용돼요.

신뢰 구간이 좁을수록 결과가 일관적이라고 볼 수 있고 넓을수록 추가 데이터가 필요할 수 있어요.

P값(P-value), 업리프트(효과 크기), 신뢰 구간은 요즘 쉽게 계산해주는 사이트와 도구가 많아서 직접 계산할 필요가 없어요. ABTasty, VWO, Optimizely 등의 AB테스트 툴에서 자동으로 결과를 계산해주니, 이 지표들의 개념을 잘 이해하고 해석하는 방법을 아는 것이 더 중요해요.

VWO 통계적 유의성 계산기 활용하기(AB Test 계산기) >>

4. 함께 분석해보는 AB테스트 결과

온라인 교육 플랫폼의 AB 테스트

한 온라인 교육 플랫폼은 강의 상세 페이지를 수정하여 강의 구매 전환율을 높이고자 했어요. 기존 그룹(A)에서는 강의 소개와 수강료만 표시되고, 새로운 그룹(B)에서는 커리큘럼과 강사 정보를 추가하여 두번의 테스트를 진행했어요.

두개의 테스트 중 어떤 테스트가 더 유의미한 결과라고 말할 수 있을까요?

 http://

첫 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 5%와 5.5%로, 0.5%의 차이가 있고,

두 번째 테스트에서는 A그룹과 B그룹의 전환율이 각각 10%와 15%로, 5%의 차이가 나타났어요.

그렇다면 두번째 테스트가 전환율 차이가 크니 “두 번째 테스트가 더 유의미하다”라고 결론 내리면 될까요?

P값(P-value) 계산기로 두 결과를 확인해볼게요.

P값 계산하기 > VWO AB Test Calculator

*VWO AB Test Calculator 사용

여기서 주목해야 할 점은 단순히 업리프트만으로는 실험 결과를 정확히 판단할수 없다는거에요. 샘플 사이즈가 작으면 데이터가 우연에 의해 쉽게 왜곡되고 신뢰도가 떨어질 수 있어요.

이런 경우 충분한 샘플 사이즈를 확보하면 변동성을 줄이고 더 정확한 결과를 얻을 수 있어요.

따라서 실험의 성공 여부를 평가할 때는 신뢰 구간과 효과 크기를 반영한 P값(P-value)을 확인해, 통계적으로 유의미한지를 판단하는 것이 중요해요.

그런데 사실 첫번째 테스트 또한 성공적인 테스트라고 하기에는 어려워요. 첫번째 테스트의 업리프트(효과크기), 신뢰구간를 살펴볼게요

• 업리프트: 8.0%

• 신뢰 구간: -0.04% ~ 0.84%

업리프트가 8%라면 보통 의미 있는 변화로 해석할 수 있지만, 신뢰 구간에 0이 포함된다는 것은 두 그룹 간 차이가 없을 가능성도 있다는 뜻이에요. 즉, 이 차이가 단순히 우연일 수 있어 통계적으로 유의미하지 않다고 볼 수 있어요.

따라서 실험 결과가 완전히 무의미하진 않지만, 두 그룹 간에 차이가 있다고 확신하기는 어려워요. 이런 경우에는 추가 데이터 수집이나 반복 실험을 통해 결과의 신뢰성을 높이는 것이 좋아요.

이번 글에서는 P값(P-value) 개념을 살펴보고 AB 테스트 결과를 더 깊이 분석하는 방법을 함께 알아봤어요. 어렵게 느껴졌던 AB 테스트 결과 해석이 조금 더 쉬워지셨기를 바랍니다.

이러한 결과 분석을 위해서는 AB 테스트 전문 툴의 활용이 중요해요. 전문 툴 없이 진행하면 데이터 수집과 통계적으로 유의미한 결과 해석에 어려움이 있을 수 있거든요.

AB 테스트를 통해 근거 있는 의사 결정을 내리고 효과적인 프로덕트 그로스를 하고싶으시다면, 언제든 mixpanel@mfitlab.com 으로 문의해 주세요!🫶🏻

마켓핏랩 솔루션즈

프로덕트분석

비즈니스 성장에 도움되는 솔루션을 제공합니다. 믹스패널과 행동 데이터 분석 인사이트를 공유합니다.