童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

从腾讯“偷”到的3000万数据,究竟要怎么看?

9月21日 夜未央投稿
  今天看到了一篇文章:《我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!》,原作者写了一个爬虫,以自己为源头抓取好友的QQ,并根据抓取到的QQ数据,总结出了一份报告。
  但是仔细阅读后,感觉这份报告趣味有余但是分析不足,还只是停留在看图说话的阶段,原作者还需要一个产品经理!
  此言一出,就被朋友甩来一句:“youcanyouup”
  好吧,鉴于我没有亲自写爬虫抓数据,那么就用原文里的统计图,试试看图说话吧,帮助原作者发现更多内容。
  活跃时间分布?
  “夜猫子”比“早期的鸟”的数量还要多:凌晨1点的说说数量比早晨7点的多
  凌晨4点,大多数人睡得正香,熬夜的人也几乎要睡了,通宵的人也大概十分疲惫了
  大部分人的起床时间在6点到7点之间,因为斜率最大
  大部分人在8点后开始工作上课,因为8点前后的两段时间的斜率变化十分明显
  越是临近中午,人们对工作越是会心不在焉。因为8点到12点之间的说说数量一直在增长(还记得学生时代,上午最后一节课的最后10分钟有多难熬嘛?)
  吃午饭时间玩手机刷空间,已经是生活常态了吧?
  午饭之后有人午睡、有人散步、有人读书、有人聊天,总之发说说的人少了
  当然,也有人午饭后直接开始了紧张的工作学习,持续到下午饿下班的时候
  相比晚饭,人们吃午饭的时间更加集中。发布说说的数量从25000到28000的规模,午饭用了一个小时(1112),晚饭用了两个小时(1719)
  22点的说说数量达到最大值,果然人到了深夜容易多愁善感
  22点之后,大多数人就开始睡觉了,说说数量迅速下降,下降幅度十分惊人
  如果不看原文的话,看到这里,我大胆推测原作者的年龄大概在25岁左右,好友里面学生和已经工作人都有一些,且学生较多,在北京上海的工作人群也不会是样本的主流。因为从22点到23点的情况来看,似乎活跃度受到了某种外力的影响而急剧下降,我猜是学校里的熄灯制度造成的。从8点和17点之间的情况看,应该是标准的工作时间。如果在京沪早八点上班的话,一定会被拥堵的交通折磨直至迟到的。
  生日分布?
  这幅图,作者使用的数据是QQ用户的生日资料。原文里,这个部分是一个十分巨大的槽点
  “10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗?我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。4月份生日的最少也好理解,中国人不喜欢4这个数字呗。”
  还是看看我的分析吧:
  为什么1月的人数特别多?答案其实很简单:因为QQ默认的生日就是1月1日,很多人都没改默认值呀!
  为什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天气也不冷不热正式生小孩的好时候”,真正的原因是唉,原作者真是太可爱了十月怀胎呀,那些十月份出生的孩子都是在前一年的年底“产生”的呀!那才是一年忙的差不多了的时候,而且天气冷也不方便出门,所以就你说对吧?
  至于4月份出生的人少,同样的道理,你要往前推10个月才能知道原因,前一年的六七月份才是真正的生产日期而且,想想几十年前没有空调的六七月份的高温,人们应该很难专注于人口增长事业吧(我听说过最奇葩的分手理由是俩人在一起太热了,大抵如此)
  另外,如果把4月和10月的生日情况对应起来看,正好对应了前一年最冷和最热的时节,我仿佛已经看到了人口浮动的秘密不过随着生活水平的提高,主要是取暖和制冷成本的降低,相信在未来,这条生日曲线会更加平缓
  看到这里,我大胆推测原作者是南方人,因为4月出生的人实在是少的比较明显,说明夏天一定很热,如果再激进一点,大概可以把范围缩小到那几个著名的“火炉”所在的华中地区吧。
  用户所在地分布
  这部分我没有找到太多能推测的信息。不过还是可以补充一些:
  我在第二部分的猜测被证实了,原作者果然是南方人(福兰人)呢!
  原作者统计了人数前5名的省份:广东、湖南、四川、江苏,然后好奇为什么在四川人多
  其实,答案很简单,因为四川人多呀你再看看人数第五位是河南,为什么?因为河南人多呀而且四川和河南距离原作者都不是很远。
  相比之下,人口大省山东,就没能大规模渗透到原作者的好友圈子,为什么?因为山东在北方,人们去霾都北京的意愿会更强烈吧。
  年龄分布
  这部分也没有太多好说的了,年龄跨度其实不太大。不过还是有几点可以谈:
  我在第一部分的猜测被证实了,原作者25岁
  看图提问,为什么1991年的人口突然会比前后两年的人少呢?
  因为1991年是农历的羊年,有传言说“属羊的人命不好”、“十羊九不全”,所以羊年出生的人就比较少了当然,我们都知道这其实只是谣言,并没有科学依据。唉,封建迷信害人呐
  性别分布
  性别统计方面,没填的部分可以按照已知的男女比例进行分配。
  考虑到有些女生会设置QQ空间的访问限制,以及有些女生会把性别改成男生用来防范骚扰,我们就当男女比例分别是60和40吧
  鉴于这样的男女比例,我推测原作者大概是个理工男吧,(无恶意的推测)原作者是单身吧
  原文还有一些语义和舆情的分析,在下短期内难以发现亮点,就不再继续了。
  写在最后
  会写代码人最帅啦
  对数据敏感的人更帅
  这是一个大数据时代,数据的重要性不言而喻
  数据的确会说话,但是,数据也会骗人
  面对海量数据的时候,我们要保持冷静,擦亮双眼
  以上
投诉 评论 转载

一个十年产品经理的得失杂谈所谓时间飞逝、日月如梭,暮然回首,猛然发现自己出道伊始也将近十年了。回顾此前自己曾经担任过的角色,不可谓不繁杂。曾经做过翻译员、测试、开发、测试主管、项目经理、产品经理,甚至还……Gara收集的字数限制表(一)给开发看的,拿去免责声明:手动测试,误差不解释手机号、邮箱、身份证号、qq号等等没有,因属性特殊字符、字、中文字、英文字单位是不一样的,不知道的小伙伴们百度一下咯知乎:……“一起沃”产品体验分析相关信息体验人:lin体验版本:一起沃1。017设备型号:小米3操作系统:MIUI5。1。16开发版背景智能手机的普及和移动网络的更新换代带……二维码这把利刃,产品应该用到极致注:本文有一些二维码干货,希望对二维码不是非常熟悉的产品开发能有所收获。注2:查看本文前,请先确保你手机里有足够可扫描二维码的App(微信微博QQ浏览器淘宝支付宝我查查3……从腾讯“偷”到的3000万数据,究竟要怎么看?今天看到了一篇文章:《我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!》,原作者写了一个爬虫,以自己为源头抓取好友的QQ,并根据抓取到的QQ数据,总结出了一份……我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家两周前,做的一个项目需要模拟一批用户评价数据,如果想让数据看着真实点,那就得使用随机的用户昵称和头像啊。要是头像或者昵称全都差不多,那别人一看就看出来这是做的数据了。于是……为什么你的点子不招人待见?产品,起于创意,始于想法!一个好的想法,决定着产品的存亡。即使资金雄厚,渠道在宽阔,产品队伍再牛逼,一个偏离需求的产品,最终还是会被历史所淘汰。不要提什么伪需求,伪命题,……6个字,教你写出高逼格的产品经理笔试答案一。从一道产品经理笔试题说起我所见过的两类最恶心的题目:一是GRE的作文,二是产品经理的笔试题。说它们恶心不是说难得动不了笔,而是让人心中有万千思绪,不知如何将其组织成一……PM喜欢的RD是神马样?一直看到各种讲PM肿么肿么样的“讨好”RD,然并卵,受伤的总是PM,呜呜。。。。。作为一名PM,有时候不在于我们是否“讨好”RD,而在于RD是否平等的看待PM。不能总是围……初级产品的方法论选择走上PM这条道路已经两年有余,因为没有人带,全靠自己摸着石头过河,浪费了大量的时间,甚至一度走偏,与理想背道而驰。究其原因个人感觉是没有认真的去思考一下产品经理的本质或者核……传统企业在自建App时候可能会遇到的误区越来越多的传统企业开始涉足移动互联网领域,推出自己的移动应用产品。不管是迎合产业升级布局,还是真想在市场上有所作为,出于企业本身在某一领域的绝对优势或自信,产品往往会在构想阶段……小白写给小小白的产品经理:产品经理的历史与三观一。关于“产品经理”的众说纷纭去年网上有一首神曲《产品经理是条狗》,从此产品经理有了“产品汪”的称呼。那么我们先来看看几只“名犬”怎么看待自己的吧。“产品经理用狗一……
如何孕育新产品项目从无到有新入行的产品经理,应该注意些什么一定要成为能够思考的产品经理如何设计伟大产品:要学会讲故事产品经理必读,如何打造用户喜爱产品知心怪蜀黍:产品新人的玻璃心你如何快速做决策如何提高产品规划PPT的能力产品需求文档(PRD)的撰写方法百度MUX:好的产品关注功能,优秀的产品关注情感产品规划七宗罪从内观禅修悟出的产品哲学

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界