微软、亚马逊、脸书如何靠A/B测试创收上亿美金?

来源: MarTechApe 责任编辑:全球赢

2020-06-24 08:41:21


2012年,微软的一位Bing的工程师想改变广告标题在Bing的搜索结果中的展现方式。实现这个想法只需要几行代码,但是它被淹没在成百上千的新提议中,没有受到重视。直到6个月后,一名工程师重拾了这个“遗珠”,在Bing上测试了一个实验——A/B Test。通过A/B Test,一部分的用户可以看到改变后的广告展示方式,而另一部分用户看到的界面保持原样不变,以此测试效果。惊人的是,几小时内新的广告展示方式就产生了极高的广告收入,高到监测系统误认为这是一个程序内的bug。这个小小的改变,成功将Bing的收益提高了12%,即每年1亿美金。可谓是Bing史上最厉害的赚钱点子了。

Bing的这个例子告诉我们,一一测试所有的新点子,绝对是一件大工程。但是人们也开始意识到,如果同时进行多个版本简单的测试,性价比极高。

 

时至今日,MicrosoftAmazonBooking.comFacebook,和Google,这样的大体量互联网公司每年进行的实验高达上万个,测试几百万用户的行为。而初创公司,和对互联网依赖程度较低的公司,像Walmart,租车公司,航空公司,也会定期进行小规模测试。因为决策者们普遍发现,“测试一切”的方法能为公司带来极大回报。对Bing来说,A/B测试每月成功地帮助公司敲定了和数十个收益相关的改动,这些改动每年将Bing每次搜索的收益增加了10-25%。

除此以外,A/B测试也对提升用户满意度做出了巨大贡献。每月数以百计的改动,不仅提高了Bing的获利能力,还将Bing在美国搜索引擎的市场占有率,从初创时的8%提高至23%

在这个网络对所有行业都至关重要的时代,严格的在线测试应该成为企业标准操作程序中的一环。除了网站,A/B测试还能方便快捷地评估商业模型,企业决策,产品,服务,营销活动等不同方面。有了A/B测试,企业决策的过程变得更科学,告别了依赖直觉,拍脑袋做决定的时代。但是遗憾的是,很多企业并不知道如何科学合理地进行测试,或者测试的次数远远不够。

今天我们来看看,如何合理地设计、执行测试,解读测试结果,解决可能的问题。利用文中的例子,举一反三,你就可以从容应对更复杂的A/B测试。


A/B测试的价值

A/B测试中,实验设计人员会设计两个版本的实验。

A:控制版,通常是已有系统,假设为成功版。

B:实验版,经过改动的版本,借以挑战现存的成功版。

随机分配不同版本给用户体验,并比较两个版本的关键性指标(单变量测试:比较A/B/C,和A/B/C/D版本。多变量测试:同时评估多个变量的不同版本)。不同版本的变量,可以是新功能的增加,用户界面的更改(例如新的排版),后端的改动(例如改进亚马逊书籍推荐的算法)或不同商业模型的测试(例如提供免费送货) 。对于决策者关心的,企业运营中的各个环节(比如:销售量,重复使用率,点击率或用户在页面停留的时间),都可以通过线上A/B测试来对其进行优化。


任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试,公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试,从而快速精准,低成本地评估许多实验,达到系统的快速迭代,企业发展的迅速转向。在今天,许多科技公司意识到了A/B测试的优点,这些公司有一个单独的团队负责构建、管理和改进测试架构的工作,为产品组提供服务。合理利用A/B测试,会为公司提供极大的竞争优势。

1. 小改变可能有大影响

一个常见的商业误区是:只有大投入才会产生大影响。但在互联网世界并非如此,成功更多源于很多正确的小改变。虽然商业世界更推崇大的、颠覆性的想法,实际上,大多数成功都是通过累积成百上千的小改进来实现的。

再来看一个Microsoft微软的例子,2008年,一名英国的微软员工提出了一个看似很小的建议:当用户点击MSN主页上的Hotmail链接时,自动为Hotmail打开一个新窗口,而不是在同一个页面上跳转至Hotmail。通过在90万英国用户中进行了测试,微软发现了一个激动人心的结果:通过MSN主页打开Hotmail的用户量增加了8.9%。然而,大家对这个改变众说纷纭,因为当时几乎不会有网站会在新的标签页上打开链接,所以微软只在英国采取了这个小小的改变。

20106月,Microsoft微软对270万美国用户进行了同样的实验,获得了类似的结果,因此微软开始在全球推行这项改变。除此以外,微软还探寻了此项改变是否能同样作用于其他功能上。在一项针对美国1200万用户的测试中,微软发现,通过在新的标签页上展现用户在MSN的搜索结果,用户点击量增加了5%。新标签中打开链接是一个极易实现的改变,只需几行代码,使这成为了微软提高用户参与度的最佳方法之一。除了Microsoft微软,Facebook脸书、Twitter推特等在内的许多网站至今都在使用这项技术。

微软的例子并非独一无二。亚马逊在测试中发现,将信用卡优惠活动从网站主页移到购物车页面,每年可增加数千万美元的利润。

这些公司的经验说明,小投资可以产生大回报。然而,大投资可能只很产生很少,甚至0回报。比如微软曾花费超过2500万美元,将Bing必应与社交媒体一体化——在搜索结果页面的第三窗格内展示FacebookTwitter的相关内容,但此举在用户参与度和收入方面产生的影响微乎其微。

 

2. 实验可以引导投资决策

线上测试可以帮助决策者了解对于潜在改进的理想投资数额。举个例子,微软曾面临一个问题:如何缩短Bing显示搜索结果所需时间。当然,结果显示肯定是越快越好。但是公司该如何量化提高搜索速度所带来的价值呢?团队应该用3个人、10个人还是50个人来提升性能呢?为了解决这些问题,微软进行了一系列的A/B测试:通过为搜索速度添加人为延迟,研究了加载速度的细微差异所产生的影响。数据表明,每100毫秒加载速度差异对公司收益的影响为0.6%。与此同时,Bing必应的年收益已经超过30亿美元,那么每100毫秒的提速就能增加1800万美元的年收入——足以维持一个规模可观的团队运作。

A/B测试结果也帮助了必应Bing权衡重要商业决策,尤其是那些可能提高搜索结果相关性,但会减慢软件响应速度的功能。为了避免多个小改动累积导致的显著性能下降,Bing会在团队改良搜索引擎和其他组件性能后,再上线会降低响应速度毫秒或以上的新功能。

大浪淘沙始见金 

早在100年以前,百货公司老板John Wanamaker就有一句营销名言:“我在广告上的投入有一半都是浪费,但我不知道是哪一半。”这句话同样适用于A/B测试,因为绝大部分试图超越已有版本的新实验都会以失败告终,即使是专家也经常错误地估计实验结果。在GoogleBing,只有10%~20%的测试会有积极成果。在Microsoft1/3的测试有积极影响,1/3的有负面影响,还有1/3没有产生影响。这就像青蛙王子的故事,想要发现好点子,公司需要亲吻很多青蛙(进行大量的实验)才能找到王子。

1. A/B测试极易被错误使用

正式进行A/B测试之前,团队应该确保测试版本既不会降低性能,也不会产生意料之外的结果。在必应Bing,除了一些低风险的bug修复和硬件类操作系统升级,其余80%的改动会首先以控制变量的实验方式进行。

大部分的科学测试的基础框架都需要以下几项:记录工具(记录例如用户点击、鼠标悬停和事件时间等数据)、数据流和专业的数据科学家。随着A/B测试的发展和普及,网络上出现了一些针对A/B测试的第三方工具和服务。但如果企业有大规模测试的需求,第三方工具和服务很难胜任。稳定的基础框架能降低每次的实验成本,并提高实验结果可靠性。相反,如果基础框架缺失,企业测试的成本会居高不下,从而导致决策者不愿进一步投入,或进行更多试验。

 

微软的A/B测试基础架构就是一个优秀范例:Microsoft的分析实验团队有80多人,每天可以实行数以百计的产品在线对照试验(包括Bing, Cortana, Exchange, MSN, Office, Skype, WindowsXbox等各种产品)。每次测试会有数十万至千万用户参与试用新改动,团队对测试结果进行严密的统计分析,并自动生成记分板,一一检查几百到上千个指标后,标记那些成效显著的改动。(当然如果你的企业规模较小,或对实验依赖度较低,实验团队投入可以降低)

3. 三种企业常见的实验团队人员结构:

1.     集中型(Centralized model

集中型结构意味着会有一组数据科学家为整个公司服务。这种结构的优点是,实验组人员可以持续关注长期项目,比如设计更好的实验工具和开发更先进的统计算法。但一大缺点是,一个实验组在服务所有产品组时,会对实验任务有不同的优先级,这可能导致各组之间资源和成本分配的冲突。另一个问题是,当数据科学家着手商业项目时,可能会因为缺乏专业知识和商业经验而难以将实验结果关联起来,更难看到结果背后的关键点。除此以外,数据科学家的身份可能缺乏影响力,无法说服决策层相信实验结果或者为技术投资。

2.     分离型(Decentralized model

分离型结构是企业为不同的业务部门配置数据科学家。这种的优点是,数据科学家可以成为其负责业务领域的专家。但缺点也很明显:对于员工而言,只为一个业务部门工作,数据科学家未来的职业道路并不明朗,同时也会缺乏同事的反馈和指导。而对于实验而言,只针对单个部门的实验可能不足以证明改动提案的合理性。

3.     卫星型(Center-of-excellence model

卫星型是让一些数据科学家成为团队,集中工作,剩余的数据科学家分散在不同的业务部门(微软采用的结构)。团队中心主要负责对照实验的设计、执行和结果分析。有了团队统一为公司构建的实验平台和实验工具,企业可以显著降低A/B测试所需的时间和资源。除此以外,团队还能基于优秀实验开设课程,举办Lab和会议,在全公司范围推广。卫星型结构的主要的缺点是,中心团队和产品团队的责任划分可能并不明晰,比如当需要增加测试数量时,哪个团队应为招聘更多的数据科学家来买单呢?

实验团队结构的好坏不是绝对的非黑即白。小公司一般会使用第三方服务,或者从集中型结构起步。待公司发展壮大后,转向其他结构。对于拥有多个业务组的大公司,那些高度依赖测试的业务组管理层,会在企业统一规划前实行测试,那么分离型结构就较为适用这种情况。如果在线实验是公司决策环节中的不可或缺的一环,可以通过卫星型结构的中心团队先构建实验范例,制定实验标准,然后再将其推行至各个业务部门。


强调“成功”的定义

每个商业团队都必须为实验定义一个合适的评估体系(这个评估通常不是一个度量,而是多个指标),以与它的战略目标保持一致。这听起来可能很简单,但要确定哪些短期指标能最佳预测长期结果是困难的,许多公司都在这上犯了错误。制定一个全面的评估标准(OEC)——需要深思熟虑和广泛的内部讨论。它需要了解战略目标的高级管理人员和了解指标和权衡的数据分析师之间的密切合作。而且这不是一次性的,我们建议OEC每年调整一次。

Bing的经验可以看出,实现全面评估(OEC)并不简单。它的主要长期目标是增加搜索引擎查询的市场份额和广告收入。有趣的是,降低搜索结果的相关性会导致用户提出更多的查询(从而增加查询份额)并点击更多的广告(从而增加收入)。显然,这样的收益只是短暂的,因为人们最终会转向其他搜索引擎。那么,哪些短期指标能够预测关于查询份额和收入的长期增长呢在讨论OEC时,Bing的高管和数据分析师共同决定,他们希望最小化用户对每个任务或会话的查询数量,同时最大化用户执行的任务或会话数量。

 

同样重要的是分解OEC的内容并追踪它们,因为它们通常提供了一个想法之所以成功的原因。例如,如果点击次数是OEC不可或缺的一部分,那么衡量页面里的哪个部分被点击就非常有必要。查看不同的衡量标准是至关重要的,因为它有助于团队发现一个实验是否对另一个领域产生了影响。对相关搜索查询结果进行更改的团队可能没有意识到它改变了查询的分布(通过增加相关查询的搜索),这可能会对收入产生积极或消极的影响。例如搜索“哈利波特”,将显示查询关于哈利波特的书,《哈利·波特》电影,,这些电影的投射,等等。

随着时间的推移,构建和调整OEC以及理解因果缘由变得更加容易。通过运行实验、调试结果并解释它们,公司不仅将获得哪些衡量标准对某些类型的测试最有效的宝贵经验,而且还将开发新的衡量标准。多年来,Bing已经创建了6000多个实验人员可以使用和追踪的指标,这些指标根据测试涉及的领域(网络搜索、图像搜索、视频搜索、广告变化等等)被分组到各种报告模板中。

 

不要忽视低质量数据

如果人们不相信实验的结果,那么评估标准有多好都无关紧要。获得数据很容易,获得人们可以信任的数据很难。你需要分配时间和资源来验证实验系统,建立自动检查和保障。一种方法是运行严格的A/A测试——即针对其本身进行测试,以确保95%的时间系统正确地识别不存在统计上的显著差异。这种简单的测试方法已经帮助微软识别了数百个无效的实验和公式的不当应用(比如使用一个假设所有测量值都是独立的公式,而实际上这些公式不是独立的)

我们已经意识到最好的数据科学家都是持怀疑态度的,他们遵循特维曼定律(Twymans law:任何看起来有趣或与众不同的数据通常都是错误的。令人惊讶的结果应该被复制——以确保它们的有效性和平息人们的怀疑。例如,2013年,Bing对出现在其搜索结果页面上的各种文本的颜色进行了一系列实验,包括标题、链接和标题。尽管颜色变化是非常微小的,但结果却出人意料:在标题中看到略深的蓝色和绿色以及标题中看到略浅的黑色的用户成功搜索的几率更高,找到自己想要的内容的的时间也更短。

 

由于颜色的差异几乎是不可见的,所以结果被很多的来自不同学科背景的专家质疑。多年来,微软和许多其他公司一样,一直依靠专业的设计师——而不是实际用户的行为——来定义公司风格和颜色,所以这个实验在3200万用户的更大样本下又重新进行。结果是相似的,分析显示,在向所有用户推出后,这种颜色的细微变化每年将使得微软增加1,000多万美元的收入。

高质量的数据是实现高可信度结果的前提,为实现这一设想,研究人员需要排除数据里的异常值,识别集合错误等等。在网络世界里,这个问题尤其重要。首先是因为网络机器人(internet bots),Bing有超过50%的请求来自机器人,这些数据可能会扭曲结果或增加“干扰”,从而使检测统计的显著性变得更加困难。另一个原因是因为异常数据点(outlier data points)的普遍存在,例如亚马逊发现,某些用户的大量图书订单可能会影响干扰A/B测试,会将他们自动识别为是图书馆账户。

当某些部分的影响比其他部分大得多或小得多时(统计学家称这种现象为“异质处理效应”)。管理者也应该注意,在某些情况下,单个好的或坏的部分可以使平均值倾斜到足以使整体结果无效的程度。在微软的一次实验中,有一部分IE 7用户由于JavaScript错误而无法点击Bing的搜索结果,结果原本是积极的,却因为这个系统bug变成了消极的。一个实验平台应该检测到这种不寻常的部分;如果没有的话,实验人员可能会错把一个好主意当作坏主意而不予考虑。

 

如果公司在新实验中重复使用上次实验的控制组,结果也可能产生偏差。这种做法导致了“牵连效应”(carryover effects),即人们在实验中的经历改变了他们未来的行为。为了避免这种现象,公司应该在实验之间“洗牌”用户,重新挑选控制对照组。

微软实验平台执行的另一个常见检查是验证实际实验中控制组和实验组的用户比例是否与实验设计相符。当这些差异出现时,就会出现“样本比例不匹配”,这通常会导致结果无效。例如,控制处理组50.2/49.8的比率与预期的50/50比率相差甚远,因此它偶然发生的概率小于50万分之一。这种不匹配经常发生(通常是每周发生一次),所以团队需要努力理解原因并解决它们。

避免假设因果关系

由于对大数据的大肆宣传,一些高管错误地认为因果关系并不重要。在他们的头脑中,他们所需要做的就是建立相关关系,然后推断出因果关系。这种想法大错特错!

下面的两个例子说明了原因,并强调了缺少控制组实验的缺点。第一个例子是微软的两个团队分别对Office的两个高级功能进行了观察性研究。每个人都得出他们正在评估的新功能减少了用户损耗的结论。然而事实上,几乎所有的高级特性都会显示出这种相关性,因为尝试高级特性的人往往是重度用户,而重度用户往往具有较高的用户粘性,本来就不易损耗。所以,虽然一种新的高级特征可能与更低的拥护损耗有关,但它并不一定是造成损耗降低原因。收到错误提醒的Office用户也有较低的损耗,因为他们也是重度用户。但是这是否意味着向用户显示更多的错误信息会减少消耗呢?结果是否定的。

第二个例子与雅虎所做的一项研究有关,该研究评估了在雅虎网站上显示某个品牌的展示广告是否会增加该品牌名称或相关关键词的搜索量。该研究的观察部分假设这些广告使搜索次数增加了871%,达到了1,198%。但当雅虎进行控制实验时,这个增幅仅为5.4%。如果没有控制实验,公司可能最终会认为广告对搜索量有巨大的影响,而不会意识到搜索的增加是由于在观察期间其他变量的变化。

显然,观察性研究不能确定因果关系。这在医学界是众所周知的,这就是为什么美国FDA要求制药公司进行随机临床试验来证明他们的药物是安全和有效的。

测试中包含太多的变量也可能使得了解因果关系变得困难。这种测试很难理清结果并解释因果关系。理想情况下,实验应该足够简单,这样因果关系就很容易理解。


复杂设计的另一个缺点是实验更容易受到错误的攻击。如果一个新特性有10%的几率触发一个严重的问题,从而需要中止测试,那么包含七个新特性的更改将使得产生致命错误的几率超过50%

如果你知道两件事的因果联系,但你不知道原因,那该怎么办呢?你应该试着去理解这个因果机制吗?回答是肯定的。

15001800年间,大约有200万海员死于坏血病。今天我们知道坏血病是由饮食中缺乏维生素C引起的,水手们产生这种情况是因为他们在长途航行中没有足够的水果供应。1747年,皇家海军的外科医生Dr. James Lind决定做一项实验,测试六种可能的对抗坏血病的治疗方法。在一次航行中,他给一些水手橘子和柠檬,给另一些水手醋。实验表明柑橘类水果可以预防坏血病,尽管没有人知道原因。Dr. James Lind错误地认为水果的酸度是治疗方法,所以他创造一种不易腐烂的治疗方法,那就是把柑橘汁加热成浓缩物,但这种方法极大的破坏了水果中维生素C。所以直到50年后,当没有被加热的柠檬汁添加到船员的日常口粮后,,皇家海军终于消除了坏血病在船员中的肆虐据推测,如果Dr. James Lind用加热和不加热的柠檬汁进行对照实验,坏血病的治愈可能会来得更早并挽救许多人的生命。


这也就是说,你不必总是通过了解“为什么”和“如何做”来获取“是什么”的知识。当涉及到用户的行为时,这一点尤其如此,因为他们的动机很难确定。在Bing,很多最大的突破是在没有基本理论的情况下取得的。例如,尽管Bing能够通过字体颜色的细微变化来改善用户体验,但目前还没有关于颜色的成熟理论来帮助它理解其中的原因。在这里,证据和现象取代了理论的地位。

总结

网络世界通常被认为是动荡和充满危险的,但A/B实验可以帮助我们驾驭它。当答案不明显,人们出现矛盾的观点,或者对一个想法的价值不确定时,A/B测试便是明灯,可以为我们指明正确的方向。

几年前,Bing就是否加大广告规模使得广告主可以在广告中加入特定登陆页面的链接进行了讨论,例如,贷款公司可能会提供“比较利率”和“关于公司”之类的链接,而不是只提供一个到主页的链接。关于这个想法的一个缺点是,这样的广告显然会占据更多的屏幕空间,这将增加用户的不满度。因为参与讨论的人想法不一,所以Bing团队尝试增加广告的大小,但保持分配给广告的整体屏幕空间不变以此显示更少的广告。这样的结果展示,规模更大但数量更少的广告为Bing带来了巨大的改善,使其在不损害用户体验的情况下,营收每年增长逾5,000万美元。

  • 相关渠道

    相关市场

    暂无
    所属市场: 暂无
    投放咨询

推荐了解

外贸推广
了解详情

全球赢团队已专注外贸推广17年,累计为20000多家外贸企业提供海外营销推广服务;未来,我们将帮助更多的中国企业出海,“赢”销全球!

立即咨询专属推广方案