진짜 A/B 테스트: 토스의 푸시 생태계를 데이터로 재설계한 방법
안녕하세요, 토스 Data Analyst 고은솔입니다.
저는 토스에서 전략·FP&A·커머스 도메인의 데이터를 분석하고, 그 결과를 바탕으로 전략적 의사결정을 지원하는 일을 하고 있어요.
토스의 데이터 중심(Data-Driven) 문화는 이미 널리 알려져 있습니다. 이번 시리즈에서는 토스가 데이터를 바탕으로 의사결정을 내리는 과정 속에서, 데이터 분석가가 어떤 역할을 하는지 소개하려 해요. 특히, 토스 데이터 분석가가 푸시(모바일 알림) CTR 하락 문제를 해결한 사례를 공유하면서 문제 정의 → 가설 수립 → EDA → 실험 설계/운영 → 확장(Rollout)에 이르는 전 과정을 구체적으로 보여드리려고 합니다.
이 글이 데이터 기반으로 기여하고자 하는 분석가분들, 그리고 데이터 중심 의사결정 과정에 관심있는 분들께 도움이 되기를 바랍니다.
토스의 성장과 함께 낮아진 푸시 효율성
토스의 제품 사일로는 PO, 디자이너, 개발자, 데이터분석가 각자가 고유한 DRI(Directly Responsible Individual)를 갖고 서비스 운영과 성장을 위해 푸시를 적극적으로 활용하고 있습니다. 푸시는 별도 비용이 거의 들지 않고, 사용자와 즉시 소통할 수 있는 효과적인 채널이죠. 특히 2,900만 가입자 기반을 보유한 토스는 푸시를 보다 잘 활용할 수 있는 좋은 환경을 갖추고 있어요.
그러나 슈퍼앱으로 확장하면서 운영 중인 서비스가 100개를 넘어섰고, 그 과정에서 푸시 효율이 점차 떨어지는 문제가 나타났어요. 서비스가 늘어나며 푸시 발송량이 급격히 증가했고, 그 결과 사용자의 푸시 반응 역치가 높아질 수 밖에 없었습니다. 전사 푸시 CTR은 점진적으로 하락하는 추세였고, 개별 팀의 카피·템플릿·타이밍 개선 노력에도 불구하고 근본적(시스템적) 해법 없이는 방어가 어렵다는 공감대가 형성되었어요.

신속한 처방보다 정확한 진단
표면적으로 푸시는 단순해 보이지만, 실제로는 타겟팅·빈도·콘텍스트·의도가 복잡하게 얽혀 있습니다. 예를 들어 ‘푸시를 많이 받은 사용자일수록 CTR이 낮다’는 가설은 직관적으로 타당해 보이죠. 그러나 토스는 관심 가능성이 높은 유저에게만 푸시를 발송하기 위한 정교한 세그멘테이션을 설계해왔기 때문에, 단순 비교만으로는 오히려 왜곡된 결과가 나올 수 있어요.
따라서 가장 먼저 EDA(Exploratory Data Analysis)를 통해 문제를 정확히 진단했습니다.
이 과정을 통해 운영 개선 포인트를 다수 발견했지만, 단순한 빈도·타이밍·세그먼트 정비만으로는 전사 차원의 반전을 만들기 어렵다는 결론에 도달했습니다.
‘지속적 무반응’을 신호로 보는 De-Targeting
실용적이고 전사적으로 적용 가능한 새로운 규칙이 필요했습니다.
‘원하는 푸시만 발송한다’는 것은 곧 ‘원하지 않는 푸시는 줄인다’는 의미와 같습니다. 그렇다면 “최근 N일 동안 동일 혹은 유사 목적의 푸시에 N회 연속 반응하지 않은 사용자는, 해당 카테고리 푸시를 불필요하다고 여긴다”고 정의할 수 있어요. 이 기준에 따라 해당 유저를 일정 기간 푸시 대상에서 제외(쿨다운)하는 디타게팅 룰을 설계했습니다.
핵심은 최적의 n값 설정이었습니다. 불필요한 푸시를 최대한 줄이면서도 필요한 푸시를 놓치지 않기 위한 균형점을 찾기 위해 다양한 시뮬레이션을 수행했고, 리스크를 관리하면서도 의미 있는 CTR 개선이 가능한 후보군을 도출했어요.
AB가 아닌 ABC 테스트
이번 실험은 전사 임팩트가 크고 장기적 습관 형성과도 연결될 수 있어 2개월이라는 장기 실험으로 진행해 보았어요. 표본은 전체 유저 중 6%를 무작위 추출했으며, 실험군 간 랜덤화와 독립성을 보장했습니다.
또한, 전사 공감대 형성을 중요한 절차로 삼았습니다. 디타게팅은 각 서비스의 도달 범위를 줄일 수 있는 민감한 주제였기에, 실험 목적·가설·보호 지표·리스크 관리 방안을 투명하게 공유하고 각 제품 담당자의 의견을 수렴했습니다. 이 합의가 이후 확장과 배포 결정에 큰 힘이 되었죠.
클릭은 유지 발송만 줄인, 불필요 푸시 제거 작업
2개월 후, 실험 결과는 시뮬레이션과 거의 일치했습니다.

실험군을 30%로 확장해 6주간 추가 관찰했으며, 결과는 동일했어요. 최종적으로 전사 배포를 결정했고, 리스크를 최소화하면서도 전체 효용을 극대화할 수 있는 보수안(2)으로 배포를 진행했습니다.
Next Step: 스스로 건강하게 도는 푸시 생태계
디타게팅 룰을 시작으로, 건강한 푸시 생태계를 만들기 위한 다양한 방안을 고민하고 있습니다.
고정된 N값을 일괄 적용하는 것이 아니라, 유저별·서비스별 특성에 따라 동적으로 최적의 N값을 조정하는 방안, 그리고 반대로 타겟팅을 더욱 정교화할 수 있는 방법을 함께 연구 중입니다.
이번 프로젝트에서 가장 중요하게 확인한 점은, 제품의 개선 사이클이 처음부터 끝까지 데이터 분석과 함께했다는 사실이에요. 문제를 명확히 정의하고, 가설을 세우고, 실험으로 검증해 조직이 움직일 수 있는 액션으로 연결했을 때 비로소 진정한 임팩트가 발생합니다.
토스에서는 이러한 ‘진짜 AB 테스트’를 일상적으로 수행하고 있습니다. 데이터로 문제를 정의하고, 실험으로 가설을 검증하며, 액션으로 임팩트를 만드는 과정에 함께하고 싶은 분들을 기다립니다.
✅ 이번 아티클은 아래 Toss Makers Conference 25의 세션을 바탕으로 재구성되었습니다.