童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

常见的AB测试误区分析:重复检验显著性

8月20日 楚倾云投稿
  避免重复检验显著性错误的最好方式就是不去重复地检验显著性。
  一、一种常见的AB测试误区
  如果网页正在运行AB测试的时候,你时不时地去查看试验结果的显著性,你就会陷入误区。
  统计学上,重复检验显著性是错误的行为。这样做的后果是,即使数据报告显示统计显著,实际上仍有较大可能性非统计显著。下面解释原因。
  二、背景
  当AB测试的数据面板显示“95可能性比原版本有提升”,或者“90可能统计显著”,需要考虑如下的问题:假如A版本和B版本没有潜在的差别,我们能看到数据中显示出区别的可能性有多大?
  这个问题的答案就是显著性水平,“统计显著的结果”意味着显著性水平数值比较小,5或1。数据面板一般会取补集(95或99),作为“优于原版本的概率”或类似的东西来报告。
  然而,显著性水平的计算有严格的假设:样本数量的多少是事先指定的。你很可能违反了该假设而不自知。如果开始试验之前你没有“本次试验将采集1000个样本”这样的预期,而是打算“一看到统计显著的结果就结束”,那么上报的显著性水平将毫无意义。这一结论完全反直觉,大量AB测试工具忽略了这一点。下面会用一个例子解释问题出在哪里。
  三、例子
  假设你在样本量达到200和500时对试验进行分析,4个可能发生情景如下:
  假设AB版本效果相同,显著性水平为5,那试验结束时,我们有5的可能性得到统计显著的结果。
  而如果我们一观察到显著结果就停止试验,事情会像下面这样发展:
  第一行和之前一样,收集200个样本之后报告的显著性水平没啥问题。然而问题出在第三行,试验结束时,假设AB两个版本实际效果相同,我们得到统计显著结论的比例上升了。因此,显著性水平用来衡量因为运气因素观察到区别的概率,将是错误的。
  四、问题有多严重?
  如果你的转化率是50,想测试一下新的logo是否能把转化率提升到50以上。你打算观察到5级别的统计显著性就停止试验,否则在收集150个样本后停止试验。
  假设新logo没有任何影响,得到错误的统计显著结果的概率有多大?不过5?根据前面的分析,也许是6?
  结果是26。1比你预计的显著性水平的5倍还多。这是最差的情况,因为我们每收集一个新样本都检查统计显著性(也不是没有这样先例)。至少有一家AB测试平台确实提供在出现统计显著就停止试验的功能。听起来这是个巧妙的花招,直到你意识到在统计学上这是恶习。
  重复进行显著性检查总会增加虚报概率,也就是说会把许多本来非显著的结果变成显著(而不是反之)。只要你有“偷窥”数据,发现统计显著就结束试验的行为,该问题就会存在。偷窥地越频繁,显著性水平偏差越大。
  例如,在试验过程中偷窥10次,表面上是1的显著性实际上仅是5的显著性。下面的表格展示了在有偷窥的情况下,数据报表中的显著性需要达到多少才能有实际上的5显著性。
  偷窥次数达到实际显著性水平5时,所需要的报告显著性水平:
  看一下自己犯了多大的错误,如果你在AB测试过程中不时地查看统计结果并快速的做决定,上面的表格会让你起鸡皮疙瘩。
  五、应该如何做
  避免重复检验显著性错误的最好方式就是不去重复地检验显著性。
  事先决定样本数量,等试验结束后再去AB测试软件中查看“优于原版本的概率”。如果你能抑制提前结束试验的想法,那中途偷窥数据也无妨。这有些反人性,所以最佳建议还是不要偷窥。
  既然要事先决定样本数量,应该取多少呢?下面是经验公式:
  是能检测到的最小变化,是样本的标准差。样本的标准差可能不好预知,但是如果参与计算的样本取值是2值的(比如统计转化率),则有:
  保证样本的规模就能避免问题。
  对AB测试软件的建议:在试验结束之前不要报告显著性水平,不要用显著性水平来决定是继续试验还是停止试验。试验进行中不报告显著性水平而是报告目前样本数量能检测出多大的差别,计算公式为:
  两个t是给定显著性水平2和统计功效1的t统计量。
  听起来痛苦,你甚至可以考虑把试验效果的“当前估计值”去除掉,直到试验结束再显示。如果该信息用于提前结束试验,则报告的显著性水平毫无意义。
  如果你真想把这事做对:事先固定样本大小可能令人沮丧,如果改动后效果确实不错,难道不应该立刻部署吗?
  这个问题长期困扰着医学界,因为医学研究人员通常希望在新的疗法看起来有效时停止临床试验,但是他们还需要对其数据进行有效的统计推断。下面是两种用于医学试验设计的方法,有些部分应该也适用于网页试验:
  序贯分析试验设计:序贯分析试验设计让你可以预先设定检查点,决定是否继续试验,给出正确的显著性水平。
  贝叶斯试验设计:贝叶斯试验设计让你可以随时停止试验并给出正确推断。实时反映网页试验的状态,贝叶斯方案看起来是未来发展方向。
  六、结论
  虽然数据面板看起来很强大和方便,但在进行中的AB测试中被滥用。任何时候,当它们与手动或自动的“停止规则”结合使用时,显著性检验结果会无效。除非在软件中实现序贯分析或贝叶斯实验设计,否则任何运行网页试验的试验者都应该只在样本量已经提前固定的情况下进行试验,并且像虔诚的教徒一样坚持该样本量。
投诉 评论 转载

智能硬件之配套软件产品设计总结(1)本文从选择适宜的软件产品入手,通过确定需求和功能,分析智能硬件之配套软件产品的设计思路。截止今日,公众号各上线功能已趋向稳定,从微信公众平台统计信息来看:单用户使用公众号……汽车后市场模式解析之(二):谁适合做汽后企业的产品经理?人员配置的错误会造成人力资源的严重浪费,同时对于产品经理来说,会限制其工作成长空间。汽车后市场的发展现状之前文章已经讲过,这里不再赘述,可以参考上一篇《汽车后市场模式解析……产品经理天天提MVP,到底该怎么用?产品需求是为了解决用户在某个场景下的操作,需求发生的具象是故事,产品经理需要学会将具象的故事抽象为产品需求。产品经理太不容易了,就想桥梁工程师一样,除了把桥梁的设计搞定,……常见的AB测试误区分析:重复检验显著性避免重复检验显著性错误的最好方式就是不去重复地检验显著性。一、一种常见的AB测试误区如果网页正在运行AB测试的时候,你时不时地去查看试验结果的显著性,你就会陷入误区……C端产品需求分析:提炼转化需求分析对产品发展有多重要就不多说了,直接开门见山吧!一、需求来源平时工作中需求来源有很多:用户反馈、同事建议、老板命令、自己头脑风暴、竞品分析、数据分析、技术需求……如果以后不做产品经理了,你打算做什么?当你想转行从事别的职业的时候,有想清楚自己该做什么吗?或者,你确定明白了自己的想法吗?产品经理这个岗位因其名称中含有“经理”二字,曾引得无数人向往,而当你真正做了几年之后……初级产品经理缺乏经验沉淀,该如何写好需求分析报告?产品经理的基本工作本质就是就围绕着:寻找、分析、解决需求来展开。作为初级产品经理,必然会收到来自leader命令、用户反馈、竞品创新等各个渠道的新需求。产品经理如何站在用户和产……产品经理实习复盘:参与新产品立项从四月份转入产品到现在已经有一个月了,在此期间看到过很多事情,也经历过一些事情,也引发了自己的一些思考,所以在此将其记录下来,作为自己产品职业生涯成长过程的产物。目录……三个案例,讲述产品与研发的沟通方法产品经理(下文简称“PM”)在工作中,不可避免要和研发(下文简称“RD”)打交道。本文将通过笔者的三个亲身经历,讲述这几年从事PM工作时与RD沟通的心得体会,希望能对读者有所启……4个要点,编写一份接口需求文档在产品设计工作中,或多或少都会需要用到接口,特别是业务导向性的系统,接口几乎是必不可少的功能。那么什么是接口?如何写一份能准确表达业务需求的接口需求文档呢?一、什么是接口……11条通用法则,教你产品经理面试通关指南五一结束了,招聘和面试的“金三银四”也要结束了?最近一直在做产品经理面试工作,加上之前几年的面试工作,自己面试过的产品经理也已经到了成百甚至上千的规模。有些人已经成了伙伴……预估市场规模,从思路方法关键概念入手很多产品经理在评估细分市场的市场规模时,总会走向过于高估的误区;而笔者告诉我们,明确文中提到的几点就可以做到保守预估市场规模。一、市场规模简介市场规模又叫做市场容量……
职场的语录职场的语录摘录秘书沟通技巧常用职场心灵鸡汤语录简单的职场的语录摘录简短的职场的语录职场的语录100条职场正能量的语录摘录职场正能量的语录摘录职场正能量的语录职场工作心得职场的语录

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界