들어가면서..
많은 조직들 중 변화에 민감하지 못한 몇몇 리더들이 자신의 직관을 과신하여 효율적이고 시중에 맞는 의사결정을 하지 못하는 것을 목격하고 있습니다. 이와 반대로 어떤 조직들은 데이터를 활용하여 뿌리내린 직관을 점검하고 개선하는 과정을 실험을 통해 엄밀하게 적용하고 있는 대조적인 모습을 기분 좋게 살펴 보고 있습니다. 글을 적는 이 순간에도 웹사이트 상에서 그리고 공공 분야에서 활동한 고객의 행동 데이터와 고객 정보를 활용하여 특정한 목적을 위한 무수히 많은 실험과 알고리즘의 최적화가 진행되고 있습니다. 물론 이런 현상이 발생할 수 있었던 것은 많은 기록들의 디지털화와 플랫폼의 비약적인 확대가 수반되었기 때문입니다.
최근에는 심리학과 경제학의 경계가 희미해지고 있고 그 경계를 행동과학이라는 비교적 새로운 분야가 메꾸고 있는 상황입니다. 이러한 상황 속에서 작게는 웹페이지 최적화나 마케팅 캠페인 설계부터 크게는 국가의 세금 징수 관련 프로젝트까지 다양한 영역에 걸쳐 행동과학을 기반으로한 풍부한 가설들이 생산되고 있습니다. 물론 생성된 가설들은 관련된 데이터를 활용한 실험으로 끊임없이 검증되고 있습니다.
현재 저는 이커머스 도메인에서 데이터 분석 직무를 맡으면서 “데이터를 활용하여 효과적이고 객관적인 실험을 설계하고 이커머스 상에서 발생하는 비즈니스 문제를 풀 때 연결할 수 있는가? 만약 할 수 있다면 어떻게 데이터를 활용하고 해석해야 하는가? ”라는 질문을 수시로 떠올리면서 관련 내용들을 팀원들과 공유하고 고민하고 있습니다. 이 상황에서 실험과 데이터 기반의 의사 결정에 있어 인사이트를 제공하는 책(『실험의 힘』)을 읽었습니다. 이 책은 공적인 부분부터 테크 기업까지 다양한 도메인의 실험 적용 과정을 다루지만 저는 위의 질문과 관련된 부분과 제가 미처 생각하지 못한 것을 다루고자 합니다.
Process in E-commerce
E-commerce의 전반적인 틀은 다음과 같이 표현할 수 있습니다.
위의 그림을 통해 확인할 수 있듯이 이커머스의 비즈니스 로직은 각 파트들이 서로 유기적으로 연결되어 있고 지표의 선택, 이커머스 사이트의 개별적인 특성에 따라 특정 파트에 대한 실험의 평가와 해석이 달라질 수 있습니다.
저는 전환율과 같은 여러 관련 지표들이 있지만 “트래픽을 발생시키는 검색”을 사고해 보았습니다. 이커머스 상에서 검색이 고려되는 상황은 세 가지입니다.
(1) 검색 엔진
(2) 온사이트 상의 내부 검색
(3) 웹 브라우저
Michael Luca는 위의 세 가지 요소들 중 “검색 엔진"의 실험 효과에 주목하였습니다. 먼저 소비자 입장에서는 구글을 검색 엔진으로 생각하지만 기업은 구글을 광고 플랫폼으로 여긴다는 것을 전제로 구글 검색시 다음과 같은 상황을 목격할 수 있습니다.
구글 광고 플랫폼에 연간 5000만 달러를 쓰는 E-Bay는 인과관계를 상관관계와 동치로 파악하는 기본적인 실수를 저질렀고 그 결과 철저하게 자원을 낭비한 것을 일련의 실험을 통해 확인할 수 있었습니다.
당신은 구글을 검색 엔진으로 생각할지 모르지만, 기업계는 구글을 광고 플랫폼으로 생각한다. 이베이 경제 팀에서 일하던 경제학자들, 톰 블레이크와 크리스 노스코, 스티브 타델리스는 구글 광고에 대한 수익률을 정확히 알아내기 위해 일련의 실험을 실시했다. 구글은 구글 광고를 게시하거나 중단하며 시장에 변화를 주었고, 구글 광고를 통해 이베이에 접속하는 사람들을 추적했다. 물론 유기적 결과를 통해 접속하는 사람들, 즉 광고료를 지불하지 않은 구글 검색 결과를 통해 이베이에 접속하는 사람들도 추적했다.
시장에서 유기적 검색 결과를 통한 접속은 확연히 증가했다. 구글에서 ‘이베이' 혹은 이베이와 관련된 검색어를 검색하고는 광고보다 아래쪽에 위치한 유기적 결과를 보려고 아래로 스크롤할 이유가 없었던 사용자들이 상단의 유기적 검색 결과를 클릭한 것이었다. 달리 말하면, 이베이가 매년 구글에 지불하던 거액의 광고비가 거의 낭비였다는 뜻이다.
정보가 부족한 잠재 고객에게 다양한 정보를 제공할 때 광고가 더 효과적이라는 이론인 새삼스레 입증되었다.
하지만 비즈니스는 맥락과 상황에 따라 같은 실험도 다른 결과를 불러옵니다. 이 점이 매우 어려우면서 재밌는 것 같습니다. 루카는 같은 실험을 소규모의 지역 기업 및 서비스 사업체에 대한 리뷰를 게재하는 플랫폼인 옐프에 적용하고 반대의 결론을 이끌어 냅니다.
옐프는 루카 팀의 대규모 실험에 협력하며, 수천 곳의 식당을 석 달 동안 무료로 광고했다. 광고는 다양한 방식으로 노출되었다. 예컨대 피자를 검색하면 티 앤서니 피자 전문점의 광고로 연결될 수 있었다. 이베이가 구글에 광고한 경우처럼, 이 경우는 일종의 검색 광고와 다를 바가 없었다. 하지만 구글에 광고한 경우와 달리, 해당 기업이 핵심어를 선택하지는 않았다. 옐프가 알고리즘을 사용해 광고가 노출되어야 하는 곳과 때를 결정했다.
이베이 실험의 결과와 대조적으로, 옐프를 이용한 광고는 적어도 루카 팀의 표본에서 소기업들에 상당한 효과가 있었다. 광고 혜택을 받은 기업들은 웹페이지의 방문자 수에서는 물론이고, 옐프가 소비자 의도를 측정하는 데 사용하는 기준들 — 예컨대 식당에 전화하거나 위치를 검색한 획수 — 에서도 급격한 증가를 보였다.
이런 결과는 두 실험 사이의 중대한 차이에서 비롯된다. 이베이는 경쟁자가 소수이고 다수에게 알려진 대기업이다. 반면에 옐프에 광고하는 소기업은 덜 알려져서, 광고로 인해 브랜드 인지도가 높아지는 효과를 고스란히 누릴 가능성이 크다. 이런 추정을 뒷받침하듯, 루카 연구 팀은 옐프 광고가 유명한 대형 체인점(맥도널드나 애플비스)보다 독립 자영업에 더 큰 영향을 준다는 걸 밝혀냈다. 게다가 옐프 광고는 리뷰에서 높은 점수를 받은 기업들에게 더 효과적이었다.
위의 두 사례를 통해 이커머스의 성격에 따라 유사한 실험의 결과가 확연히 다를 수 있다는 것과 다양한 상황에서 실험을 실시하여 실험의 기준틀을 개발하는 것이 중요함을 알 수 있습니다.
저는 여기서 한발 더 나아가 “검색 엔진의 광고 효과의 유무를 옐프에 있는 소기업과 E-Bay와 같은 거대 이커머스 사이트를 단순히 트래픽으로 비교하는 것이 아니라 특정한 지표로 파악할 수 없나”를 고민하고 있던 도중 해당 책들을 통해 범용적으로 통용되는 지표의 후보를 발견할 수 있었습니다. 그것은 연간 재구매율입니다. 연간 재구매율은 사실 이커머스 기업을 구분할 때 사용되는 지표이지만 이 지표가 해당 이커머스 사이트에 대한 검색 엔진의 효과를 측정할 때도 사용될 수 있음을 내일 회사에 가서 당장 실험을 통해 파악하고 싶습니다. 연간 재구매율을 기준으로 회사를세분화하면 다음과 같습니다.
신규 고객 확보 유형
재구매율이 40% 이하
로 예상되는 사업이라면 신규 고객 확보에 사업의 초점을 맞춥니다. 이런 종류의 사업에서는 포인트 제도가 도움이 되지 않습니다. 케빈 힐스트롬은 전자상거래 사업이 성숙기에 접어들면 70%가 이 유형에 속한다고 말합니다. 예를 들어 온라인 안경 쇼핑몰이라면 구매자가 안경을 여러 개 사도록 만들려고 노력하는 대신, 구매자가 다른 사람들에게 이 쇼핑몰을 추천하도록 만드는 데 마케팅 노력을 더 기울이는 편이 좋습니다.
하이브리드 유형
재구매율이 40~60%
라면 신규 고객과 기존 고객 둘 다를 바탕으로 회사가 성장합니다. 기존 고객의 구매 빈도를 높이는 일과 신규 고객을 확보하는 일 모두에 초점을 두어야 합니다. 사용자들은 일반적으로 연평균 2~2.5회 구매할 것입니다.
고객 충성도 유형
재구매율이 60% 이상
이면 회사는 고객 충성도에 초점을 맞춰 충성도 높은 고객이 더 자주 구매하도록 만들어야 합니다. 이 유형만큼은 포인트 제도가 효과적입니다. 사업이 성숙기에 접어들었을 때 이 유형에 속하는 전자상거래 사업은 10%에 불과합니다. 아마존과 이베이가 이 유형에 속합니다.
‘고객 충성도 유형'에 속하면서 대중적으로 인지도가 높은 이베이 키워드를 구글 광고 플랫폼에 유료로 노출 시키는 것은 옳지 않은 것 같습니다. 반면에 ‘신규 고객 확보 유형'에 속하며 인지도를 높이고 싶은 “엘프에 등록된 소규모 업체”는 구글에 광고를 집행하는 것이 적절합니다.
오프사이트 마케팅의 효율성을 살피기 위해서 많은 기업들이 채널별 유입률을 살펴보고 있습니다. 하지만 채널별 유입률이 높지만 온사이트상에서 활동을 하지 않고 바로 고객의 비율이 높다면 그 채널은 효과적일까요?
해당 이커머스 사이트마다의 맥락에 따라서 KPI가 다르므로 그 지표를 임의로 A라고 하겠습니다. “채널별 유입되는 고객들이 A 단계에 최종적으로 도달하였는지”에 대한 퍼널 분석이 이루어져야 합니다. 하지만 회사 내에 아직 특정한 KPI가 산정되지 않았을 경우 고객들 중 해당 사이트에 들어온 후 바로 나간 고객의 비율을 구하여 채널의 효과를 정량적으로 알 수 있습니다.
검색 효과를 보다 깊게 알아보기 위해 이번에는 ‘온사이트 내의 내부 검색’에 집중하겠습니다. 온사이트 내의 내부 검색의 결과를 통해 먼저 해당 사이트에서 판매하는 물건들이 효과적으로 배치되어 있는지를 알 수 있습니다. 먼저 해당 검색어와 매칭이 되는 상품이 존재하지 않는다면 고객은 떠날 것입니다. 그리고 고객들이 해당 검색어를 특정 시간대나 시기에 폭발적으로 검색한다면 그 시기에 맞춘 재고 물량이 항상 준비되어 있어야 합니다. 그리고 내부 검색의 통계가 한 카테고리에 집중될 경우 메인 페이지에 해당 카테고리에 해당하는 상품들을 전면에 배치하는 전략을 취할 수도 있습니다.
그리고 만약 내부 검색 페이지의 결과가 독립된 페이지로 구성되어 있고, 검색 엔진의 성능을 자체적으로 개선하기 힘들다면 검색 결과와 가장 관련된 상품들을 알고리즘을 통해 검색 엔진의 효율성을 증대할 수 있을 것입니다.
다음으로 제가 주목한 지표는 “장바구니 포기율”입니다. 포기율은 구매 과정을 시작했지만 결제로 이어지지 않은 사람의 비율을 말합니다. 많은 분들이 겪었지만 사실 이커머스상에서 구매 과정은 쇼핑 카트에 담은 물건을 확인하고 배송 정보와 결제 정보를 입력하는 등 여러 단계로 구성되어 있습니다. 이러한 각 구매 단계에서 퍼널을 빠져 나오는 사람의 수가 포기율입니다. 각 단계마다의 포기율을 분석하면 어떤 단계가 구매에 가장 큰 장애물로 작용하는지 알 수 있습니다. 저자는 이 중에서 비용과 장바구니 포기율간의 관계를 파악하기 위한 알리바바의 거대한 실험을 소개합니다. 물론 이 실험이 가능한 이유는 판매자가 고객에게 할인권을 제공할 수 있는 때에 관한 결정권을 알리바바가 가지고 있기 때문입니다.
알리바바는 사용자 참여와 사용자 유지라는 면에서 할인이 가장 효과를 발휘하는 상황을 알아내고 싶었다. 대부분의 테크 기업이 그렇듯이, 알리바바에도 엄청난 양의 사용자 데이터가 축적된 상태였다. 그 중에는 각 고객의 검색 기록, 과거의 구매 내력, 주소 등에 대한 정보도 있었다. 대다수는 쇼핑 카트에 담아 둔 물건을 구매하지 않았다.
알리바바는 판매자들에게 고객이 24시간 이상 쇼핑 카트에 담아 둔 물건들을 대폭 할인해 판매하는 걸 허용했다. 할인이 없어도 물건을 구매하는 사람들과 달리 구매를 망설이는 사람들에게, 쇼핑 카트에 담긴 물건을 겨냥한 할인은 매력적으로 느껴질 수 있다. 유효 기간이 있는 할인 행사를 알리는 이메일 발송과 달리, 이 전략에는 고객에게 구체적인 물건의 구매 결정을 독촉한다는 이점이 있다.
연구팀은 (1)사용자가 할인을 받으면 쇼핑 카트에 넣어 물건을 구매할 가능성이 높아지느냐, (2) 사용자가 알리바바에서 전체적으로 더 많은 물건을 구입하느냐를 살펴보기로 결정했다.
할인 효과는 총비용에 비해 그다지 크지 않았고 사용자가 할인되지 않은 물건에서 구매를 바꿀 수 있다는 실험의 결론에 따라 기존에 세웠던 가설이 옳지 않음을 파악할 수 있었습니다. 다시 말해서 해당 프로젝트가 사용자에게 원하는 물건을 정가에 구입하도록 유도하지 못하고 할인을 기다리게 하는 Cherry Picker의 성향으로 변하게 할 수 있다는 것을 의미합니다.
사실 알리바바의 입장이 아닌 소비자의 입장에서 보았을 때는 장바구니 포기율이 개선됨에 따라 매출 확대로 이어질 수 있지만 장기적인 효과 측면에서 설계를 제대로 진행하지 못한 알리바바 입장에서는 ‘초특가 할인' 프로젝트는 계속 진행할 수 없을 것입니다.
실험에서 부딪치는 다섯 가지 장벽
실험을 진행할 때 흔히 다음의 다섯 가지 장벽을 경험할 수 있습니다.
장벽1. 충분하지 않은 실험 참가자
장벽2 . 무작위로 추출하는 게 쉽지 않을 수 있다
장벽3. 실험에는 그 효과를 측정하기 위한 데이터가 필요하다
장벽4. 예측하지 못하는 의사결정자에 대한 저평가
장벽5. 어떤 조치에 대한 결과를 얼마든지 짐작할 수 있다는 지나친 자신감
이 중에서 중소규모의 업체는 첫번째 장벽을 맞이하게 되고 첫번째 장벽은 두번째 장벽과 자동으로 연결이 됩니다. 표본 크기가 많이 작으면, T-test와 같은 규격화된 통계 실험을 진행하여 두 집단 간의 차이가 크게 나타난다면 객관적인 설득력을 갖기 힘들 것입니다. 그렇다면 어느 정도 표본이 있을 때 통계적으로 유의미한 결론을 이끌 수 있을까요? 그리고 필연적으로 작은 표본 크기는 실험 시간과 관련되어 있습니다. 이 문제를 부분적으로 상쇄하기 위해서 특정 시점에서 특정 군이 이기는 확률을 알기 위해 Bayesian A/B Test와 같은 도구를 도입하고 있습니다.
무작위 추출 방법은 여러 방법이 있지만 이커머스 상에서 대조군과 실험군을 구분할 때 독립 변인을 제외한 나머지 요소들이 비교적 동질적이어야 합니다. 이 부분을 제어하기 위해 고객의 정보를 많이 사용합니다.
주요한 테크 기업의 플랫폼은 규격화된 무작위 추출법을 운영하여 사용자에 따라 다른 형태의 웹페이지를 보여 주며 사용자의 행동이 웹페이지에 따라 어떻게 달라지는지 추적한다.
세번째 장벽은 ‘조직이 실험의 목적을 어떻게 설정하는가’와 ‘어떤 데이터를 수집하고 이상적인 데이터와 어떤 차이가 있나'에 따라서 맞이하는 상황이 다를 것입니다. 저자는 신문사를 예시로 이것을 쉽게 설명해 줍니다.
더 많은 독자를 확보하면 좋은 일이지만, 일회성 독자의 확보는 신문사가 유념해야 할 유일한 관심사가 결코 아니다. 올바른 신문사라면 독자가 기사를 클릭하는데 그치지 않고 기사를 읽고 정보를 얻어, 장기적인 독자가 되기를 원할 것이다. 따라서 클릭을 유도하는 자극적인 기사 제목은 단기적으로 더 많은 독자를 끌어들일 수 있겠지만, 장기적으로 처참한 결말을 맞이하기에 십상이다.따라서 진정한 성공을 위해서 어떤 데이터를 어떻게 사용해야 할 지 신중하게 생각해야 한다.
세번째 장벽과 관련하여 제가 눈여겨 본 부분은 이커머스 상에서 “추천 엔진의 효과”입니다. 추천 엔진은 결국 “추천을 통해 얼마나 많은 매출이 추가적으로 발생하는가"를 달성하기 위해 다양한 ML 기법을 활용하고 추적하는 지표를 다양하게 구성합니다. 위의 신문사 처럼 단순히 해당 상품의 클릭률(CTR)만을 고려한다면 추천 엔진의 궁극적인 효과를 무시하는 추천 엔진으로 구성되고 장기적으로 치명적인 결과를 맞이할 수 있습니다. 다시 말해서 CTR을 높이는 것이 고객의 구매 여정(CJM)의 최종 단계와 아주 작은 상관성만을 가질 수 있습니다. 그리고 추천 엔진의 효과는 다른 비즈니스 요소(e.g.마케팅 캠페인에 따른 특정 웹페이지의 기하급수적인 증가율, 웹페이지 최적화를 위한 실험)에 영향을 많이 받으므로 유관 부서와의 많은 논의와 함께 추천 엔진 효과에 대한 엄밀한 실험을 설계할 필요가 있습니다.
Reference
- How Do Price Promotions Affect Customer Behavior on Retailing Platforms? Evidence from a Large Randomized Experiment on Alibaba
- Daisy Dai, Michael Luca / “Effectiveness of paid search advertising experimental evidence” / 2016
- Digital Discrimination: The Case of Airbnb.com
- https://hbr.org/2016/12/fixing-discrimination-in-online-marketplaces
- https://opengov.seoul.go.kr/mediahub/18724599
- https://support.google.com/google-ads/answer/1722080?hl=ko