童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

潘绥铭:批判大数据崇拜

2月26日 渡缘祠投稿
  最近以来,对于“大数据”的崇拜,来势汹汹,甚嚣尘上。
  但是,崇拜者和鼓吹者,多少也应该有一点做研究的起码常识吧?
  无论在自然科学里,还是社会科学里,还是文本分析中,凡是进行数据分析,只有两种办法:
  第一种方法是:研究者自己首先提出某个或者某些假设,然后去收集数据,然后进行统计检验,以便对于自己的假设做出适当的评价,主要结论应该是:该假设是否得以成立。也就是说,“没有假设,就没有研究”或者“好的假设就是成功的一半”。这,对于任何一种遵循“科学主义”的研究来说,不但是金科玉律,而且根本就是不可突破的底线啊。
  可是,所谓的“大数据”,在收集数据之前,可曾有过任何一个假设吗?甚至,研究者究竟有没有猜测到:那些数据之间,可能存在着某种联系呢?例如,如果您把人们在网上购物时留下的痕迹,与他们在医院就诊时留下的记录,强行放在同一个数据库进行分析;那么,您就等于在假设:购物与生病之间,可能存在着某种联系。这并不是说,根本不可以提出这个假设,而是说,您事先是这么想的吗?如果没有,那么跟盲人摸象有什么区别呢?
  尤其是,无论您从这样的“大数据”中分析出什么,都只能是误人子弟。例如,早在上个世纪,美国的统计学家就发现,股市的涨落,与女人裙子的长短,存在着相关关系。可是一直以来,在任何一个国外大学里,这都被用来说明“无假设,不统计”这一常识。可是现在却又被某些人翻出来,作为“大数据之所以伟大”的证据啦。
  我的一位学生说得好:“这和去垃圾堆里翻安全套,本质上一致吧?”我再引申一下:没有假设,大数据就是垃圾堆!
  如此下去,科学还有存身之地吗?
  第二种研究方法,是从定性研究(质性研究)里的“求异法”借鉴来的,就是:不去寻找数据的“规律性”,而是通过分析,去发现“特定事物(现象)内部的多样化的存在”,或者“同一事物(现象)在不同载体中的多样化存在”。也就是说,研究者的假设是:任何事物(现象)都不可能是浑然一体,必定存在着万紫千红甚至千奇百怪的存在形式。研究者的目标,就是去发现和揭示这一点。因此,研究者全神贯注的,恰恰是数据中那些小概率的、奇异的、甚至缺失的情况。
  正是在这个意义上,而且仅仅在这个意义上,大数据才会有用。例如,哪怕只有万分之一的人,确实是在网上购物之后才有病,或者有病之后才上网购物;那么也可以提示我们:为什么仅仅是这些人才会出现这样的联系呢?其中是不是蕴含着我们现在还不知道的某种学理呢?
  所以说:这种“沙里澄金”的研究方法,主要是为了“发现”,而不是为了“检验”。但是只有这种方法,才能实现理论的独辟蹊径,而不仅仅是既有成果的“层层叠加”。
  可是,我真的很好奇:那些“大数据崇拜者”,听说过这样的“论方法”吗?
  什么叫“大”?
  数据,早已有之;因此“大数据”的买点,其实仅仅在于一个“大”字。
  鼓吹者们都在拼命宣扬:我们收集了多少多少人的,多少多少次的,多少多少种的记录,因此,只有我们的数据才是“大”数据!
  可是,我就奇怪啦,大数据怎么看起来像是打群架,人多为王?
  其实,如果我在自己的电脑上,安装上足够多的各种仪器,记录下从鼠标轨迹到上网痕迹直到我的表情动作的自拍;那么只需要一天,我所收集到的、仅仅关于我一个人用电脑的数据,也肯定是成千上万个G,足以成为货真价实的“大数据”。
  如果我再给自己身上安上一大堆医学监测仪器,给自己的书房安上360度摄像头、温度计、红外线扫描甚至“地动仪”,而且24小时开动;那么您说,我这一个人的数据会有多大?
  也就是说,数据大不大,根本不在于记录了多少人或者多少次或者多少种行为,而仅仅在于:监测手段用得多不多!
  因此,现在之所以出现“大数据崇拜”,其实根本不是那些数据拥有者有什么高明之处,而是仅仅在于:人类的监测手段出现了爆炸式的增长。我们不但看到了火星上的水,还看到了我们自己的DNA!
  当然,大数据崇拜者可以说:我们意识到了大量的监测数据的价值啊。可惜,如我前文所述,如果您都不知道该怎么用,那么您发现的,究竟是大数据的价值,还是大垃圾的价值?就算是废物可以再生,您也应该想想该怎么再生不是?
  “大数据崇拜”里面,还有一个大大的猫腻,是死也不肯让别人知道的:大,是整体的大,还是片面的大?
  以购物网站记录下来的数据为例,它确实可以容纳数千万人在购物时不知不觉地留下的近乎无穷无尽的痕迹;但是,这就能反映出这些人的购物偏爱吗?难道这些人就再也不在实体商店中买东西了吗?难道他们就只到您这一个购物网站来买东西吗?难道他们的偏爱就永恒不变吗?那么,您怎么能够确定:他们在不同的渠道中,在不同的情境之中,都会做出一模一样的选择呢?可是,如果您无法证明这一点,那么您的大数据就只能是大垃圾,一点儿也不冤。
  交通监控录像、医疗记录、通讯记录等等,都足以号称自己是“大数据”。可是,所有这些数据,都仅仅是记录下了人们生活中的一个个零散的侧面。因此,这样的“大数据”再怎么大,也无法解决以下一系列常识性的问题:
  1。人在生活的某个侧面里的表现,与他她的整个人格与人生,难道不存在紧密的关联吗?农民工吃20元的盒饭都嫌贵;富豪买上千万的汽车也不眨眼;这难道仅仅是所谓的“消费选择”吗?
  2。人类生活的各个侧面之间,难道不是相互影响着的吗?农民工吃20元的盒饭,却可以搭上200元的礼钱;富豪买上千万的汽车,却不肯做一点儿慈善;这也仅仅是所谓“购买习惯”吗?
  3。任何一个人的生活,难道不是被社会、文化、历史等因素制约着吗?吃20元盒饭的,也有IT业白领,也是来自农村,却从来不被认为是农民工。比尔盖茨的形象中,也从来不包括他的汽车是多少钱买来的;这,难道也是“可付资金”吗?
  4。
  5。
  所以说,所谓的大数据,其实一点都没有超出原有的定量研究的局限性,那就是:裁剪生活,撕碎人生;非要把整体生存的“人”,视为一堆杂乱的零碎。如此这般,数据越大,岂不是错误越大?
  当然啦,大数据崇拜者已经说了:我们很快就可以把方方面面的大数据,汇总为一个包罗万象的大“大数据”,例如全方位、不间断地监测所有人,就足以最终一劳永逸地解决那个“天问”:人类为什么做什么和不做什么。
  额滴亲娘啊,这可真是道出了“司马昭之心”啦!
  “大数据崇拜”唯一的功劳,其实就是迫使我们不得不认真思考一下:
  在这种随时随地的、天罗地网般的、细致入微的、一生一世的被监测中,
  我们的生活,真的还有意义吗?
  能说明什么?
  盲目崇拜或者大肆鼓吹所谓“大数据”的那些人,或者不知道,或者刻意回避了一个根本的问题:无论数据的规模多么大,它究竟能够反映出什么样的情况,能说明什么样的问题呢?
  迄今为止,“大数据崇拜者”所列举的“丰功伟绩”,其实仅仅局限于反映出人类的某些可监测而且可记录的行为,例如各种网上活动、出行、通讯、接受各种服务等等。也就是说,如果人们不行动,或者不被监测到,那么大数据就不可能存在。
  可是,就算毫无隐私,就算监测可以天罗地网,那人心呢?灵魂呢?企盼呢?人类精神家园一切的一切,都可以被“数字化测定”吗?如果至少现在还不能,那么大数据(且不论能不能分析)就是动物学,是植物学,甚至是矿物学。君不见,冰川也会运动啊。
  当然,一些科学主义者早就发誓要突破人类精神的壁垒了。我并不怀疑他们的成功可能性;只想问:他们究竟是终于把人类精神给数字化了,还是给灵魂竖起一面哈哈镜呢?
  “大数据崇拜者”很可能不知道,或者不敢承认:在人类生活中还有一种现象,叫做“主体建构”;就是:人们对于自己的行为所做出的解释,很可能与监测者的解释大相径庭,甚至背道而驰。最常见的就是,一切人际的误会,盖源于此。“无心插柳柳成荫”也是如此。
  以网购的“大数据”为例,即使您总有一天可以把购买者的内心,全都数字化地一览无余,那您怎么知道人家就真的就是这样想的呢?科学嘛,总是需要验证的啊。
  结果,
  首先,您这种“客观测定”,离矿物学很近,可是人却是有主观意志的啊,您是怎么监测到的?连物理学还有个“测不准原理”呢,何况您老?
  第二,您知道人类还会“自我呈现”吗?说不好听一些,就是表演。如果连测谎仪的结果,法律都还不予采信,那么您怎么筛除被监测对象的表演呢?
  第三,难道您就不找被监测对象去核实一下?连司法审判还要听被告怎么说呢不是?难道真的把人当成石头?
  第四,您听说过弗洛伊德吗?您知道除了“动机”,还有“无意识”吗?如果行为者自己都搞不清楚自己是怎么回事,那么您还怎么去核实呢?根据什么来判断真伪呢?
  总而言之,一切试图用自然科学或者数字化来了解人类及其社会的尝试,不是都必然失败,而是都无法否定人类的“主体建构”的重要性;结果都必然是把真实的生活给削足适履了。
  说到底,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。如果科学没能阻止希特勒的统治,也没能预测出此后人类的一切发展,那么就绝不是“艺不精”的问题,而是用错了地方,是越界跑到了自己无能为力的领域。
  中国社会学,已经饱受“唯量化主义”的侵蚀,如果现在还放任“大数据崇拜”肆虐,那么可就真是泥菩萨过河自身难保了。
  因此,我才如此声色俱厉,也因为我本人已经完成第四次全国随机抽样的量化问卷调查,深谙其弊,才更加有资格如此义愤填膺。
投诉 评论 转载

伍国:友善和敌意并存:美国大学生看中国2015年9月29日的《纽约时报》刊载记者储百亮(ChrisBuckley)的文章《中国人拥抱美国文化而非其政策》,指出中国年轻人普遍喜欢美国电影,体育,餐饮,向往美国生活方式……丁东红:卢曼和他的“社会系统理论”尼可拉斯卢曼(NiklasLuhmann19271998)是当代德国最重要的思想家之一,是一位博学的、活跃的、入世的学者,其研究触角遍及哲学、社会学、政治学、经济学、法学、教育……魏德东:宗教在“一带一路”建设中的意义自2013年习近平主席提出建设“一带一路”的设想,现已得到60多个国家和地区的响应,对未来世界格局的影响正逐渐展现。“一带一路”,指“丝绸之路经济带”和“21世纪海上丝绸……刘擎:哈贝马斯与现代性的思想史一九八五年哈贝马斯发表《现代性的哲学话语》的德文版。整整二十年之后曹卫东等翻译的中文版终于面世。此书曾在一九八七年被译成英文出版,收入麦卡锡(ThomasMcCarthy)主编……邓线平:技术恐惧源于工作缺乏弹性最近几天,网上流传一个说法,机器人会写稿了,而且还写得不错,一般人看不出来。不少媒体人说是机器人今后可能要抢记者的饭碗。有的媒体人士担心影响自己的职业生涯,反响较为悲观。如果媒……胡子立:一九五零后的流亡一群被遗忘的人,他们战死,便与草木同朽;他们战胜,仍是天地不容!柏杨壹如果你只有三天好活,你打算干什么?“我只想带着我的老婆和我的孩子,一块回……罗伯特玛切里:把不知道的变成不可知的(吴万伟译)我的高中化学老师曾在班上提出这样的问题:如果一块50磅的纯铁完全氧化,剩下的铁锈总共有多少?在让我们思考了这个问题一会儿后,他在黑板上写出了答案作为演示。他的……丁松泉:郑和下西洋:除了教训,还有什么?今年是郑和下西洋600周年纪念,对这一历史事件的纪念或许有一定的价值,可以提高中国人的海洋意识,更可以促使国人深刻反思历史中的教训。历史作为过去与现在的永无休止的对话,可能再过……蒋泥:穷人的假“上帝”从智商(IQ)到情商(EQ)过去各种类型的心理学,多数都谈到“智商”,无不把高智商的人称“天才”。测量智商的方法却完全是数量化的,被认为很“客观”、很“科学”。比如牛顿、……潘绥铭:批判大数据崇拜最近以来,对于“大数据”的崇拜,来势汹汹,甚嚣尘上。但是,崇拜者和鼓吹者,多少也应该有一点做研究的起码常识吧?无论在自然科学里,还是社会科学里,还是文本分析中,凡是……陈奉孝:帮忙还是帮闲前几天新浪网记者采访一位学者谈中国的官民比问题。该学者说;“2003年中国内地公务员人数为653万6700人,官民比为1对198,而美国的公务员人数为310万,官民比为1对94……木然:但愿老有所养不再是个梦中国的传统文化有很多优点,其中,幼吾幼及人之幼,老吾老及人之老就是优点之一。人终归会老,老了需要有人照顾,有人关心,有人爱护,让老人平安顺心地抵达人生的终点。在人生的最后阶段,……
鲁迅:第二篇神话与传说余恕诚:诗歌:从韩愈到李商隐周勋初:李白诗原貌之考索鲁迅:第十三篇宋元之拟话本鲁迅:第三篇《汉书》《艺文志》所载小说沈松勤:论王安石与新党作家群雷恩海李天保:20世纪唐文研究回顾与反思左东岭:李贽文学思想与心学关系及其影响研究综述牟维珍:李商隐无题诗产生的文学史意义刘扬忠:陆游、辛弃疾词内容与风格异同论曹阳:千古绝唱魅力何在吴小林:论王安石的散文美学思想

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界