童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

修正调研数据扩展使用限度

3月27日 听风行投稿
  缘起网络调查具有先天的优劣势
  最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:
  有了这些先天的优劣势,网络调查一般执行的周期较短,但时常为了样本均衡,会采用脉冲式投放,收集数据的时间会适当延长一些。在我主导的网络调研项目中,投放的样本量一般都有几十万,一是为了能够快速收集足够多的调研样本,二是考虑到低响应率的问题。
  如此大的投放量,而网络调研中又有很多不可控的因素,最终使用的有效调研样本量相对较低,他们到底是否能够有效代表总体呢?我想这个问题可以一分为二来看,在相同的执行条件下,只针对性地研究特殊用户的调研,有效调研样本在达到一定量的前提下,代表性偏差一般不大;需要推断网站全体用户的调研,虽然有效调研样本也能达到一定量,但代表性还是会打折扣,尤其是对淘宝用户而言。
  加权弥补网络调研数据先天的劣势
  统计学中关于随机抽样的理论中讲过,一个研究随机抽取多少样本与总体的大小无关,而主要与最大允许误差和置信区间有关。但真正执行的时候,未必会这么理想,尤其是在人力财力有限的条件下,随机抽取的投放样本与有效调研样本之间,受响应率和认真填答的积极性等因素影响,会存在偏差。
  那么在推断网站全体用户的调研中,就需要引入加权的思想,适当的加权可以使样本的关键结构,调整到与总体的关键结构相一致,从而提升样本的应用范围,所得结论会更严谨更具推广性;针对特殊用户的调研,也可以对样本进行加权,更有效地发挥样本的代表性。
  加权的经典场景(例子中引用的数据均为虚拟数据,仅作为说明问题的案例,与真实数据无关)
  A场景:常常遇到这样的问题:产品经理想要了解全体买家对某一个产品的使用体验、需求或满意度,也要比较初级买家和高级买家。
  一般而言,随机抽取条件下,95的置信度、5的最大允许误差,推及目标总体所需样本量为384个,此处为计算方便,近似为400个。
  事先已知,全网初级买家与高级买家的比例为39:1,高级买家所占比例仅为2。5。若按照随机抽样原则抽取投放样本,为保证高级买家对比时满足统计需要,至少应有400个调研样本。那么,随机填答的前提下,总体调研样本至少需要16000个,响应率按照5计算,需要投放的样本量达到32万。这只是理想状态下的情况,事实上高级买家的响应率更低,这就使得需要投放的总体样本量更大,工作中又不能经常投放如此大量的用户。事前我们无法保证统计要求,怎么办?
  B场景:若要推及全体卖家对某一产品的使用体验,如果随机抽取了20万投放样本,最终有效调研样本有4000个。经过数据匹配可知,调研样本的开店时间分布与总体存在较大差异,而该研究中开店时间是非常重要的指标。事后我们无法保证统计要求,怎么办?
  不论是事前还是事后,为使得研究有效,应该保证统计要求;调研理论与现实执行常常存在很大差距,这也是不争的事实。因此,研究中引入加权的思想,非常重要也很有必要。
  加权的前提
  样本加权是为了推及总体情况,主要用于两种情形:
  加权的准备
  范欣珩于杭州翠苑三区
  如何加权单变量比例加权
  为了比较初级买家与高级买家之间对某一产品的体验差异,采用非等比随机抽样,事先增加了高级买家的抽中比例。
  当需要推及总体买家对这一产品的体验情况时,需要对数据进行加权,结果如下:
  上表第d列(SP)是用各级别买家在调研样本中占的比例除以其在总体中占的比例,其值越接近1,说明该级别买家在调研样本中的比重越合适;反之,其值越背离1,其在调研样本中的比重越不合适。
  若恰巧各组的这一比值均接近1,可以近似等同总体分布,而不对调研样本进行加权。本例显然需要对调研样本进行加权。
  首先要确定加权的起点在哪里?这里有三种选择:
  1)以SP的最小值(本例0。69)为起点,将其他组的SP值都降低到这个水平,因此叫做Scaledownweighting(“水落石出”法)。其结果是将原调研样本缩小SP最小值倍(本例0。69,原调研样本7200人,每组权重为0。69d列相应值,加权后减至4968),放水过多,不合适
  2)以SP的最大值(如本例的8。33)为起点,将其他组的SP值都提高到这个水平,这种策略叫做Scaleupweighting(“水高船涨”法)。其结果也就是将原来的调研样本放大SP最大值倍(本例8。33倍,原调研样本7200人,每组权重为8。33d列相应值,加权后会增至59976人),可见水分太大,不可取。
  3)以SP的加权平均值为起点,将大于1的SP值调低至1而将小于1的SP值调高至1,因此叫做Zerosumweighting(“有增有减但总数不变”法)。加权后的样本数与原调研样本相同、还是7200(见表第f列)。可见这种方法相比之下最合理,学术界和调查业界通常都用它来加权。
  比例加权需要注意的几个问题:
  1)加权只能调整样本各组之间的相对比例、并不会产生任何新的信息。
  2)一个重要细节是如果SP值中有小于0。5(也即PS值或权数大于2)的,则不能靠过分灌水来解决问题。这时的对策有三个:
  l增加那些采样不足的(undersampled)组别的case数量(上策)
  l用SP值最小值(Scaledown的策略)来加权(最保守、浪费资源、但不犯I类错误)
  l前两者的结合,即增加部分case数然后按新的最小SP值来加权
  3)如果那些采样不足的(undersampled)组case数量太少(一般不能少于30),需要按2)同样的原则来处理。
  对于2)和3)中提到的情况,另外一种变通的方法就是重新划分组,此法省时省力。
  4)经过加权的样本,能够推算总体的常规统计量,但计算误差时则不能用加权样本直接计算。
  5)为了便于解释,上述例子只涉及一个变量(买家级别)的加权。实际上,研究买家除了级别,注册时长、月成交量额等也很重要。所以需要用多个变量同时加权(weightedbyseveralvariablessimultaneously)。
  (本小节以上内容参考了香港城市大学祝建华博士的BLOG文章《如何对样本进行加权?》http:zjz06。ycool。compost。2695611。html,在此表示感谢,愿祝老师健康、笔耕不辍!)
  总结一句话:在随机抽样的前提下,比例加权的本质就是将调研样本分布修正为等比随机抽样分布。
  如何加权单变量推及量加权
  为什么用推及量加权:
  1)上小节提到的获取总体参数的变通方法:在总体中用简单随机抽样抽取一定数量的样本,能够获得一个较大的样本,用来推及总体依然带有少许误差。用加权处理的调研样本推及这个大样本群体的行为和态度更为恰当,有时候需要直观的知道这个大样本群体中每种划分的组内有多少人。
  2)比例加权的运算方法有些麻烦;而推及量加权的运算方法简便。
  推及量加权的依据:
  1)加权的前提与比例加权相同:修正非等比随机抽样NPPS和等比随机抽样PPS
  2)两种方法等价:
  比例加权:PnSn
  推及量加权:PnSn(PnP)(SnS)(PnSn)PS由于每一组case相对于比例加权都扩大了PS倍,即每一个样本都扩大了PS倍。绝大部分研究结果都以比例呈现,而计算比例的时候,每一个样本扩大的PS倍没有影响,因此推及量加权适用。
  推及量加权需要注意的事项与比例加权相似,此不赘述。
  如何加权多变量推及量加权
  加权的步骤和方法相同
  单变量加权时,以买家级别组为例,需要分别统计三组的总体比例(量)和调研样本的比例(量)
  多变量加权时,各个变量进行交叉,如三组级别、三组注册时长、三组月成交量,即组合出27组,分别统计这27组的总体比例(量)和调研样本的比例(量)
  总结一句话:多变量加权实际上就是单变量加权的复杂版。
  如何加权实际操作
  通过EXCEL和SPSS对数据进行加权:
  1)通过SPSS计算总体中大样本的有关参数和调研样本相应的统计量
  2)将结果放入EXCEL进行整理,注意单变量或多变量交叉后的对应,并批量编写SPSS命令
  3)将命令拷贝到记事本,再拷到SPSS的Syntax中运行命令
投诉 评论 转载

《移动设备交互设计》读书笔记〔1〕读书笔记,不是对书中的内容做完全的摘抄和援引,我是想把读过的内容,经过自己的理解归纳总结出来与大家分享讨论。一、如何理解移动设备移动设备是相对于不可移动的设备,这里……“高效”是首要的设计要求设计的目标:设计是为了更好的传达信息。其中的“更好”包括:更美丽的、更高效的、更优雅的这是我们经过反复讨论后得到的共识。只有这样的共识,还不够。因为我们会遇到这样的……挣脱创新的束缚由TRIZ理论,解析创新的来源和方法在生活和工作中,我们经常会锁定一个焦点词汇“创新”时常听到大家议论创新的重要性,要如何去创新。为了创新我们在设计过程中同样挖空心思的去头脑风暴,思考着如何得到更炫、更酷更……电子商务网站“用户评论”模块浅析前几天在robinclub上分享到电商产品评论的设计,感觉说的不过瘾,这里博客记录一下。在开始进行后面的产品分析和对比之前,我们来看一下之目前对商品详细页评论影响比较大的……浅述各平台系统交互设计的不同关注点如同写文章一样,何谓好的设计,并没有十分固定的准则,但散文、小说、诗歌却有不同的写法。个人认为在不同的平台系统的交互设计也应该有不同的关注点和准则。如今主流的以“界面”为……回复:Android和iPhone,统一还是差异化?首先简单回答:各平台差异化设计,是必须的。当我无数次地向PM、工程师们解释为什么各平台需要差异设计时,我就曾多次想过要把这些经验总结成文。然而终归还是我懒了,一直没……web设计趋势与潮流原载于《程序员》杂志2010年第7期。作者:西乔19年前,世界上第一个网页诞生,它没有设计可言,由文本和url组成,样式只有最基本的。而如今,Web设计已经成长为独……人物角色实践记最近在跟其他两位同事瑶芝、绿绿一起创建支付宝的全站人物角色。这次项目主要是为了在公司内普及人物角色的方法,提高大家的用户意识。通过学习LeneNielsen的十步人物角色……手机原型设计工具PPT篇PPT,一种演示文稿图形程序,是PowerPoint简称。Visio做原型还是比较多的,至少我看过迅雷的人用Visio画原型的产品经理还是变多的,用PPT来做原型的并不多,但还……说说啤酒和尿布“先生,我注意到你买了啤酒,请问要不要再来一些尿布?”如果超市收银员这样问你,你会不会想K人?即使,你知道那个关于啤酒和尿布的故事。其实原故事是说,发现很多男人周五买尿布……修正调研数据扩展使用限度缘起网络调查具有先天的优劣势最近一个季度做了N多调研项目,结项之余,不由自主地对比了一下网络调查与传统调查的优劣,详见下图:有了这些先天的优劣势,网络调查一般执行的……设计思维:一个有益的传说译作。DonNorman对于designthinking的反思。他认为设计思维仅仅是个有益的传说。设计思维和以前的创新性的思维并没有更多的不同,但却把设计机构和设计师置于一个特……
产品经理:这些“轻量级CEO”在做什么【产品经理必鉴】LinkedIn副总裁:产品7大逆袭之道!产品经理做市场调研和数据分析的方法沟通三要素:价值、真诚与技巧产品经理们可采用正向手段激励团队顶尖产品经理具备的特质如何培养卓越的项目推动力产品经理必读的10佳好文产品经理辩手的最佳职业选择产品经理也应该了解项目管理(一)大产品经理带小产品经理要避免这些陷阱产品经理:受益一生的15个学习习惯
经典励志的人生哲理散文烛影摇红为蔚如题楼台梦影图一位算命先生经验:背下这些面相顺口溜,离。。。猫哥说善良不退,为人不累稻田养鱼的科学放养找准身型穿衣搭配让你美出自己的新天际稚优泉隔离霜色号稚优泉隔离霜试色女人小便尿血是怎么回事新安全生产法全文前三章内容是什么?从地狱到天堂读书笔记精选广发证券暂停投行业务对股票有什么影响?热博聚热点网 假期旅游摄录不完全手册

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界