范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AB测试,国内外为何冰火两重天

  "A/B测试不一定是最好的评估方法,它不是万能的,但是我觉得,不会A/B测试肯定是不行的。"
  撰文 | 蓝洞商业 郭朝飞
  抖音为什么叫抖音?
  当然,这不是张一鸣拍脑袋的结果,它与字节跳动内部一个名为A/B测试的工具有关。
  抖音做出产品demo之后,起了很多名字,各自logo也不同。他们将这些名字放在不同应用市场,但位置、预算等条件是一致的,测试了各自对用户的吸引力程度、下载转化率等指标。
  抖音当时排第二,团队讨论后认为,长期来看抖音更符合认知,也更能体现产品形态,就选了这个"第二名"。
  从最初的今日头条,到后来的抖音、西瓜视频,再到懂车帝、飞书等构建成的产品矩阵,外界一直好奇,字节跳动持续迭代的方法论到底是什么?
  事实上,在字节跳动过去的九年间,大量的A/B测试几乎每天都在进行。就在不久前,字节跳动旗下面向企业的智能科技品牌——火山引擎举行品牌发布会,基于大数据、人工智能和基础服务等技术能力,为企业提供系统化的全链路解决方案,助力企业务实地创新,给企业带来持续、快速增长,而A/B测试是火山引擎智能营销套件中的一个工具。
  如果说字节快速迭代的秘诀是数据驱动的话。A/B测试是最能够体现数据驱动价值,也最能代表数据驱动理念的。
  事实上,A/B测试早已在亚马逊、谷歌等海外互联网公司被广泛应用和传承。
  但在国内,A/B测试还处于初级阶段。不久前,火山引擎市场部做过一个市场调研。1000家企业的样本数据显示:在企业的日常业务和管理中,A/B测试的普及率并不高,渗透率不足30%。
  A/B测试到底是什么?有何神奇之处?既然如此强大,在国内外市场为何"冰火两重天"? A/B测试并不是互联网的专利
  互联网圈有一句话,顶级PM(产品经理)只能跑赢一半A/B实验。
  但如果追溯起来,A/B测试并不是互联网的专利。很早的时候,A/B实验就被用于医药实验等科研领域,比较著名的便是英国海军外科医生詹姆斯·林德出海,在船上用临床实验治疗坏血病的案例。
  那是1747年,航行中很多人患上坏血病。林德选了12名比较严重的病例,分为6组,在6天的时间里,把他们安排在一起,吃食完全一样。实验的关键之处在于,根据当时的流传说法,给每组吃不同的可能治疗坏血病的东西。比如,一组每天吃两个橘子、一个柠檬,一组喝苹果汁,其他方案还包括喝酸醋、海水等。后来,实验证明吃橘子、柠檬是有用的。
  回过头来看,该实验未必完全严谨,比如患者的年龄、民族、地区等问题是否考虑进去。时至今日,其背后蕴含的A/B实验精神与理念已经进入多个领域和行业,尤其在互联网行业被广泛应用。
  A/B实验,又被称为小流量实验。在互联网领域,简单说就是针对要改进的某项功能、UI、逻辑策略等,提供两种或多种备选方案,从总体用户中抽取一小部分,随机将抽取出的流量分配给不同方案。比如让一部分用户使用A方案,一部分用户使用B方案,最终结合一定的统计方法,通过实验数据对比来确定最优方案。
  A/B测试在互联网公司大规模应用,是在美国的谷歌、亚马逊、Facebook等公司。
  一位有谷歌工作经历的人士透露,谷歌用A/B测试最广泛的是搜索、广告两大团队,因为这两项业务用户量超级大,结果都容易用数据衡量。
  上述人士透露,他曾在谷歌总部工作过一段时间,他当时的主要任务就是通过改进谷歌搜索广告的产品,来提升谷歌广告点击率和营收。
  当时,谷歌每月搜索广告的产品上会做几百、上千次实验,他会尝试不同的产品改动,不同的优惠策略、卖点,看看哪个转化率更高。他发现,100个实验版当中,可能60~70个都对用户没有影响,剩下的几十个版本中,有十几个可能会比正在用更好,把这些更好的版本上线、推给更多的用户,就可以持续提升转化率,高效率地试错。
  谷歌翻译设计师Pendar Yousefi与Olivia Grace在一篇文章中指出,在谷歌翻译网页版的改版中,A/B测试就起到了重要作用。
  一开始谷歌将翻译结果文本框做成了蓝底白字,但用户反馈不好。重新设计时,很多设计人员犹豫甚至质疑,是否要换掉蓝底白字。
  谷歌做了A/B测试,一组实验用蓝底白字,另一组用灰底黑字。A/B测试的结果显示,采用蓝底白字的翻译结果文本框后,用户使用谷歌翻译的频率和次数明显减少。最终,为了便于长篇翻译结果的可读性,谷歌还是改了过来。
  "虽然有种种不情愿,但我们还是将蓝底白字更新成了灰底黑字。"Pendar Yousefi与Olivia Grace在文章中写道。
  相比谷歌,亚马逊的产品更复杂、繁琐,运营策略也更复杂,因此亚马逊的实验数量更多,因为它可以优化的点特别多。
  贝索斯曾经说过,亚马逊的成功,秘诀就是每年、每月、每天不断进行实验。
  字节跳动一位高级实验工程师曾这样描述A/B测试:一方面我们无法承担任何一个错误特性影响上亿用户体验的严重后果;另一方面我们又希望能够分离并量化每个特性的影响。
  这就需要我们设计并坚持使用一套数据驱动的方法,使得我们可以以较小的风险对新特性进行评估,积极试错积累经验;并且这个方法有能力排除其他因素(如同时开发的其他特性、时间因素等)的干扰;最后,除了"好"或者"不好",我们希望这个方法也能够给出定量的结果。
  为了解决上述问题,普遍使用的方法是小流量随机实验,也就是A/B实验。 理念和认知受限
  在国内,A/B测试也算不上新鲜事物。
  一位资深互联网运营人记得,2012年前后他第一次接触A/B测试,彼时A/B测试与精益创业等理念一同从外国传入。后来创业时,他第一次将A/B测试应用于课程详细页的版本测试中。
  但不得不承认,目前A/B测试在国内关注度并不高,普及程度与影响力也远不及美国市场。
  从根子上说,A/B测试首先不是技术问题,而是理念与认知问题。
  在前述管理者看来,一些国家的教育体系中,贯穿着类似A/B测试的理念,比如早在幼儿园时期,就会让儿童观测豆子生长过程中淋水与不淋水的差异。当这种A/B测试、实验系统根植于理念中时,在产业界、企业界就不用推广,是自然而然的选择。
  在国内市场,很多时候决策者判断是否要做A/B测试,不是根据数据判断,更多是依据经验。这里的决策者是广义的,可能是技术总监、产品总监,也可能是产品经理、研究人员。一些团队会认为,某个产品的好坏,产品经理可以根据用户洞察、产品价值洞察来判断,最重要的、最关键的是产品经理的个人能力。
  事实上,决策者也明白A/B测试的重要性,但并不认为它是最重要的。原因在于,在他们看来,不做A/B测试可能不会直接影响产品的成败,也不会直接决定产品的后续发展。
  对于企业来说,是否选择A/B测试,还需要平衡成本与效率的问题。选择做A/B测试,不仅有研发成本,还有时间成本。也就是说,搭建测试系统需要支出更多开发版本,搭建完成后,还要经历一个测试、等待、决策的时间周期。
  从管理角度来看,是否做A/B测试,完全依赖于怎么算账。一个应用如果不做精细测试,很可能发展了三四个月之后发现,方向不对,就会浪费时间和机会;但是做测试,就需要投入金钱成本。总的来说,提前通过测试来试错,结果会更高效。
  "所以为什么越大的团队、大厂越容易做A/B测试,而越小的公司就越难?"前述管理者提醒道。
  据火山引擎一位数据智能解决方案负责人透露,他们做过调研和沙盘推演后发现,企业自建A/B测试平台会涉及到各种技术成本和运维成本。小企业虽然存在刚需,但是自建系统压力大。
  所以,最终的行业走向应该是,企业无需自行搭建测试系统,尤其是传统企业、创业公司,可以采购第三方的产品与服务,把专业的事交给专业的人。目前已有字节跳动这样的大厂,通过自己的ToB品牌火山引擎开放相关产品,是做A/B测试的不错选择。 并非"万能公式"
  A/B测试系统的研发,护城河并不低。
  因此,对于采购A/B测试的公司来说,尴尬之处就是国内市场可选择的标的并不多,而且相当一部分还是小规模公司,这也是当前国内A/B测试发展缓慢原因之一。
  在火山引擎A/B测试的一位产品工程师看来,准确的分流是A/B测试的基础门槛,A/B测试平台要保证科学的流量分割、流量层直接的正交互斥,使得实验不受干扰。
  "如果分流不准,实验效果就肯定不准,就不知道怎么去迭代你的推荐模型,然后不能更多地留住用户,不能卖更多的广告,这是一个完整的链条。"这位产品架构师补充道。
  此外,更复杂的是指标设计和解读以及置信度的统计方法,一旦出现失误,更易导致错误的结论。
  因此,在A/B测试中存在很多"坑",一不小心就会出错。
  比如,经常被采用的奇偶数分流,就是一种错误的分流方式。
  有些企业通过用户的ID尾号奇偶性做分流测试。虽然从极限理论上来看,奇数和偶数各占一半,看起来没有什么问题。但是从实操上来看,企业的数据的充分积累达到极限的边界并不现实,而且用这些数据来做A/B测试,更是完全违背了小流量实验的原则。
  实际上,A/B测试要求,尽可能地保持实验组和对照组流量分布一致(与总体流量也需保持分布一致),否则得出的实验数据并不具有可信性。
  再比如,A/B测试中不能只简单观测实验数据的涨跌,不考虑实验结果是否显著。这是因为,实验观测得到的是样本数据,不是整体数据。如果只对数据进行简单的计算,对于实验结果的判断很可能会出错。
  因此,需要结合统计学的方法,在评估实验结果时加入相应的统计学指标,如置信度、置信区间、统计功效等。原则上,如果实验结果不显著,或者说不置信,便不能判断数据的涨跌,是否是由实验中采取的策略造成的,也可能由抽样误差造成的,就不能盲目地全量发布新策略/否定新策略。
  当然,有必要提及的是,A/B测试不是万能的,并不一定适用于所有场景。
  用字节跳动副总裁杨震原的话说,"A/B测试不一定是最好的评估方法,它不是万能的,但是我觉得,不会A/B测试肯定是不行的。" 破局者出现
  火山引擎全面开放,为市场提供了一种选择。
  与很多公司不同的是,A/B测试是写入字节跳动的基因与文化当中的,也曾在字节跳动的产品矩阵中扮演重要角色。
  杨震原2014年加入字节跳动,进入公司他就听说,当时张一鸣还在写代码,那时字节就已经在做A/B测试。两年后,A/B测试变成字节内部广泛使用的工具,增加了很多功能,被叫作Libra平台。2019年以后,A/B测试对外开放,服务外部客户。
  目前,A/B测试在字节内部可谓应用广泛,从产品命名、交互设计,到广告优化、市场活动、用户增长,甚至包括修改字体、弹窗、界面大小这样的细节。
  两个月前,火山引擎大数据应用产品总监张锦波分享过一个案例。字节旗下一款短视频APP,与同类产品相比,留存比较低。持续分析后,发现主要原因是大部分新用户没有上滑操作,体会不到上滑会带来更多、更丰富、好玩的视频。
  产品经理做了一个A/B测试。他们设计了一个半动态化的上滑引导,一个月内针对新用户采用10%的流量,对照组和实验组各占5%,希望借此提升上滑操作渗透率与新用户留存。
  他们失败了。新用户的次留、2留、3留没有显著提升,错误操作的渗透率却提升了4%。实验结论是:这种半动态式的引导样式其实对于核心指标是没有收益的。
  在第二轮测试中,他们设计了全动态式的引导方案。结果新用户的次留、2留、7留上全部显著提升,幅度在8%—10%之间。
  进一步分析发现,发达地区与欠发达地区也有差异,前者上滑功能渗透率提升明显,高于平均水平,后者新用户留存并没有提升。原因可能是,发达地区工作生活节奏快,如果没有直观的上滑操作引导,耐心用完就会马上跳出。
  "内部基本上就是,能用A/B测试的都用。"杨震原总结道。
  数据显示,当前字节跳动每日新增约1500个A/B测试实验,服务于400多项业务,累计做了70多万次实验。
  火山引擎A/B测试与对手相比,竞争力主要在两个方面。
  一方面,从能力的完备性和实验场景的丰富度来讲,火山引擎是相对领先的。比如实验基础的流程管控能力、实验后报告分析能力等,这些都是在字节内部反复实践沉淀下来的。场景自不用说,字节有短视频、直播、推送、广告、搜索等等。
  另一方面,火山引擎开放后,除了产品,更强调服务,客户采购之后,会在实验方法论、分析、后续运维等方面帮助客户,让工具在客户内部真正落地,产生业务价值。
  拿悟空租车来说,其租赁平台在付款时,有一个押金缴纳环节,无法使用信用免押的用户,必须同时支付一笔数额较大的押金,这可能会给用户用车决策带来较大的影响,直接影响平台成单率与收入。悟空租车希望找到一种方式,降低押金开销对用户用车决策的负面影响,从而提升平台的下单转化率。
  悟空租车团队与火山引擎合作,推出新的设计方案,通过A/B实验产品,用小流量进行方案试错。实验两周后,新方案为"最终下单完成"指标直接带来近7%的增长。
  火山引擎A/B测试成为一个行业变量,同时也是字节To B的一把密钥。

Switch二月购买指南真女神异闻录5续作登陆鬼泣3来袭以前春节假期是越过越短,今年春节假期是越过越长,初二一觉睡醒假期还剩五天,初三一觉睡醒假期还剩七天,等初四一觉睡醒,假期还剩十三天,确实不敢再睡了,再睡怕是快退休了。估计上面这些也女神异闻录5R评测上学恋爱偷心救世界,最具魅力的JRPG游戏可是一个新的故事,一个人逐渐再生的故事,一个他逐渐洗心革面逐渐从一个世界进入另一个世界的故事,一个直到如今根本还没有人知道的现实的故事正在开始。这个故事可以作为一部崭新的小说的题材2021女性退休年龄最新规定女性职工法定退休年龄最新规定来了!连续工龄满10年五十周岁就可以申请退休根据国务院关于安置老弱病残干部的暂行办法和国务院关于工人退休退职的暂行办法文件所规定的退休年龄。即全民所有制在玩女神异闻录5S之前,你必须要知道的事情在整个2020年的上半年里,评测君最期待的游戏分别是女神异闻录5皇家版集合啦!动物森友会异度之刃决定版和女神异闻录5幻影打击者(以下简称在女神异闻录5S)。可能由于女神异闻录5本体幸福有礼,呼伦贝尔宋MAX限时特惠0。4万元刚刚小编在车友圈看到好多朋友都在讨论宋MAX购车优惠0。4万元,这么诱人的降价幅度,想要购车的朋友们不考虑一下趁机拿下?比亚迪益丰祥泰店,活动时间截止到10月20日,机会难得,不容呼伦贝尔秦ProDM店内最高优惠0。5万元,欢迎到店鉴赏公司里忙不完的项目,每日地铁口的拥堵,没有个人空间怎么办?我要买秦ProDM,我要买秦ProDM,我要买秦ProDM。重要的事情说三遍!近日,比亚迪益丰祥泰店秦ProDM销售,颜色呼伦贝尔秦可试乘,降价4。62本周秦最新报价比亚迪益丰祥泰店即日起到10月20日限时促销,限时特惠4。62,如此优惠的降幅,大家可千万不要错过,店铺地址内蒙古自治区呼伦贝尔市鄂温克族自治旗巴彦托海镇南工业园区利比亚迪宋Pro限时优惠速来抢购。本周宋Pro最新报价比亚迪益丰祥泰店10。28日限时促销,降价10。78,如此优惠的降幅,大家可千万不要错过,店铺地址内蒙古自治区呼伦贝尔市鄂温克族自治旗巴彦托海镇南工业园区利丰汽呼伦贝尔宋MAX限时大促,直降4。22观望很久的宋MAX终于降价了,比亚迪王朝呼伦贝尔益丰祥泰店即日起到10月29日,店铺活动购车降价4。22,真是迫不及待的想要到店一睹宋MAX的风采啊促销时间2021年10月29日至呼伦贝尔唐可试乘,最高优惠0。3万元汽车报价早知道比亚迪王朝呼伦贝尔益丰祥泰店,唐限时特惠大酬宾,10月29日10月29日最高优惠1。81,有购车意向的朋友不妨亲自去试驾一下,店铺地址内蒙古自治区呼伦贝尔市鄂温克族自呼伦贝尔秦ProEV限时大促,购车优惠3。34手握购车款犹豫不决的你是不是还在为买车而观望,当前比亚迪益丰祥泰店秦ProEV最高优惠3。34颜色可选,现车充足,优惠时间截止到10月27日,犹豫不决的朋友不妨到店亲身试驾一下,店
中国电信优化算力资源布局,降低数据中心运营成本近日,中国电信集团有限公司副总经理刘桂清就东数西算情况答记者问时介绍,中国电信全面推进云改数转战略,一直高度重视和积极参与全国一体化大数据中心体系总体布局设计,积极响应国家号召,围东数西算板块狂掀涨停潮,大数据产业ETF(516700)涨近3香港万得通讯社报道,2月21日,受东数西算工程全面启动刺激,相关概念股强势领涨,首都在线20涨停,数据港云赛智联10涨停,奥飞数据飞利信网宿科技等涨逾10。截至1330,东数西算概MySQL数据库性能优化之分区分表分库分表是分散数据库压力的好方法。分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条我国物联网呈现高速发展态势车联是物联网发展重点近年来,我国政府出台各类政策大力发展物联网行业,不少地方政府也出台物联网专项规划行动方案和发展意见,从土地使用基础设施配套税收优惠核心技术和应用领域等多个方面为物联网产业的发展提供追查个人收款码近4年数据?微信支付宝回应有两条关于微信的新闻最近火遍互联网。据网传,去年微商教父一直用个人的微信的收款码进行收款,补缴了45的个人所得税,甚至被罚款到破产。该消息一出,关于商业和个人的收款边界问题被推到舞日本开发出能够再现自然声音的人工喉东京大学研究生竹内雅树等人开发出了可穿戴式电子人工喉(助讲器)。这款人工喉运用了人工智能(AI)技术,适用于因疾病等摘除声带而无法说话的人。只需动动嘴就能生成接近于本人声音的语音。戴上助听器就可以和自己耳朵一样听声音了吗?为什么?首先,我很荣幸回答题主的这个问题。题主之所以会问出这样的问题,那么一定是对助听器的工作原理,不是特别的了解,下面我来给题主解答一下什么是助听器,助听器的工作原理又是怎么样的呢?助听全球首次6G,中国继续领先美国随着中国6G通讯网络专利领先全球,难道说,这一次美国又要落后了?实际上在5G网络性能超越不了的前提下,想要弯道超车研发6G网络实际上也没戏,再怎么封锁都没用了,看来这次老美又要白折是上学苦还是上班苦?一个是为了前途,一个是为了养家糊口,苦又能怎样?长期吃甜会得糖尿病的。只要努力学习,考上大学才有出路,上班苦,为了生活在苦也上班,不上班没饭吃害羞握手汤圆汤圆汤圆汤圆汤圆上学求学也策略模式短信模板业务场景业务代码本文主要是介绍策略模式,重点就只在于短信发送时拒绝策略逻辑的处理,不相关的代码就不介绍了。主要的接口有两个SmsTemplatePlaceHolderHandler短信模板诺基亚5。4现身Geekbench跑分平台搭载Android12Geekbench最近的一份清单显示,诺基亚5。4现在是使用新的Android12操作系统进行测试的诺基亚设备之一。此前,人们已经知道诺基亚2。4诺基亚3。4和诺基亚G10已经出现