孙恺钜专栏(孙恺钜)- 中国学术评价网
 
《大数据时代的裸奔》的裸奔 (1328 查看)
日期: February 03, 2015 07:49PM

  
孙恺钜 2015年2月4日

曾几何时,有个叫崔永元的人,为了搞清转基因的问题,专门去了一趟美国。就转基因问题,他采访了美国有关方面的专家以及正在商店购物的一些普通顾客。
作为这次采访的成果——一部记录了崔永元美国之行的纪录片发行了。
就如在滚油中浇了一勺冷水,一时间,舆论大哗,支持者有之,质疑者有之,更有些人貌似公正,以科研论文的标准对崔永元的纪录片发难。其中有一个很值得一写的观点,就是对崔永元的采访对象南希 斯万森教授的质疑,南希 斯万森教授出示了“草柑膦使用量和疾病高相关性”的关系图,对此,有人非常“科学”地提出,相关性不代表因果性,高相关系数也不能说明因果关系更强*。
无独有偶,黑龙江大豆协会副会长王小语也作了类似的工作,在他绘制的地图中癌症高发区和转基因大豆油消费区高度重合*,他说,“我依据自身在粮食行业20年的工作经历,却发现致癌原因可能与转基因大豆油消费有极大相关性。”而对王小语的批判,仍然是那句话,相关性不代表因果性,高相关系数也不能说明因果关系更强。
那么,相关性和因果性真的没有关系吗?转基因的铁杆支持者,网名奥卡姆剃刀,在今年1月14日发表了一篇题为《大数据时代的裸奔》的文章,恺钜不仅读了这篇文章,而且反复阅读,差一点就“韦编三绝”了。好文章啊!以致恺钜忍不住套用了奥卡姆剃刀的《大数据时代的裸奔》的结构而写成本文,也沾一沾奥卡姆剃刀的“科学”气,因此,本文中的许多句子段落甚至小标题都直接搬用了奥卡姆剃刀的原话,在此先向奥卡姆剃刀致谢并致敬!

1、相关关系比因果关系更重要

老王开了个诊所,收治了不少癌症病人,老王就在想,这些人为什么会生癌呢?老王琢磨着生癌的也都是一样的人,应该是有规律的,例如,有的是因为遗传,有的是因为环境污染,等等。于是老王每收治一个病人就记录一次病人的详细资料,谁在发病前居住环境怎样,食物结构如何,有没有家族史,并试图从中找出每个病人得癌症的原因。
数据虽然越记越多,但老王啥也没找出来。有个人给老王支招,你甭盯着一个个的病人去找原因,你只要把记下每个病人的情况进行分类就行。这个法子明显简单有效,很容易就看出了癌症病人的一些共性的规律,比如,他们都喜欢食用豆油。
这个例子虽然简单,却道出了大数据的一个重要特点【相关关系比因果关系更重要】,豆油与癌症就是相关关系,但为什么得癌症呢?是因为人本身的遗传原因呢?还是环境污染原因呢?对这些可能性不必探究,因为即使探究可能也搞不清楚,因为很难从单一因素上找到确切的致癌的因果关系,然而只要知道吃豆油生癌的人多,就能正确地指导老王对喜欢吃豆油的人做相应的重点检查,对癌症病人做到早发现早治疗,这就行了。
要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是追求对因果性的寻找,或是对猜测的因果性的验证,人们总是习惯性地找出个原因,然后心里才能踏实,而这个原因是否是真实的,却往往是无法核实的,而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是有多方面的原因综合作用的结果,这是人类思维方式的一个重大进步(这句话是恺钜修改过的,我觉得奥克姆剃刀说的不严谨,他的原话是:承认很多事情是没有原因的,这是不对的,目前找不到原因不等于将来找不到原因,多因素的原因不等于没有原因,故恺钜觉得有必要作此修改,作为回报,恺钜允许奥卡姆剃刀在以后的文章中使用恺钜的说法来完善他的科学论文)。
奥卡姆剃刀的这一观点,很好地回答了,转基因和疾病的高相关性到底重要还是不重要的问题。南希 斯万森教授提出的转基因和疾病的高相关性关系,按照奥卡姆剃刀的说法,我们不仅不可以忽视,她实际上已经指出了化学农业衰落的必然性以及对于科学作为类似“双刃剑”的负面效应应有足够的重视。可以说,挺转基因的奥卡姆剃刀狠狠地给了挺转基因的果壳网以及饶毅之流一记响亮的耳光。

2、要全体不要抽样
传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来。
抽样的核心原则就是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查,找了一群精壮的武警战士试穿,战士们穿上了普遍反映不冷,但这并不能说明内衣的保暖效果有多好。
互联网为大数据的采集带来的新手段,云计算为处理大数据带来了新方法。还以老王为例,他不仅记录了每个病人来自哪个地区,他还记录了病人的食物结构,居住环境以及工作环境。于是他从众多的数据中发现了这样一个事实,这些癌症病人平时吃的食用油基本上都是豆油,于是就建立了豆油和癌症的相关性,这个相关性,虽然还不能证明“豆油致癌”这一命题,但已经清楚的表明了豆油是致癌的众多因素之一。以此为基础,老王可以在治疗中明确地告诉病人,从此拒绝豆油,这对病人的恢复以及防止癌症复发“善莫大焉”。这就是大数据的第二个特点【要全体不要抽样】,对全部数据进行统计分析,其结果当然会更加准确。在此,可能有人会问,豆油是中国人吃了几千年的食物,怎么现在就不能吃了呢?这里就又要提到黑龙江大豆协会的王小语了,原来目前生产豆油的原料已经不是原来传统的大豆了,而都是进口的转基因大豆,所以,老王根据大数据分析统计出来的豆油和癌症的高相关性,其本质上是转基因大豆和癌症的高相关性。黑龙江大豆协会的报告,不是仅仅依据某个人或某一批人患癌的经历而是汇集了全国癌症病人的分布以及转基因大豆加工和消费的信息以后得出的转基因大豆与癌症的高相关性,根据奥卡姆剃刀提出的“相关关系比因果关系更重要”的原则,转基因大豆致癌已经毋庸置疑了。

3、要效率不要精确
既然我们要的是全体数据,自然会夹杂进来一些错误的数据,这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除,这是小数据时代必须坚持的原则。
大数据时代的原则就变了,变成了【要效率不要精确】,并不是说精确不好,而是因为在大数据时代是做不到的,如果继续把排除错误数据作为重要工作,那大数据分析就进行不下去了。更重要的是,大数据分析的目标在于预测,而不在于追溯以前发生过的事件的真相。
所以,对某个人来说,也许他从不吃豆油也得了癌症,但这个比例在大数据中就显得太渺小了,基本可以忽略不计,而对于绝大多数人来说,知道了豆油和癌症的关系以后,改变自己的饮食习惯不吃豆油了,那么他患癌的风险将大大降低。如果医疗保险公司把吃豆油作为一个考量,对吃豆油的投保人适当提高保费,不吃豆油的人降低保费,这样一定可以大大增加保险公司的赢利,同时也可以间接地减少政府的医保压力。

结论:与以往的抽样统计不同,大数据使用的是全部数据,更着重的是效率而不是数据的精确性,关注的是相关性而不是因果性,这些特点造就了大数据对事物发展的极强的预测能力,虽然对某个个体来说,他患上癌症的原因无从考究,但老王通过大数据分析,找出其中某些共性的因素的相关性,那么,老王在诊断和治疗中就掌握了一把有效的“钥匙”,病人的预后也会更好。进一步推而广之,如果每个人都知道了转基因大豆和癌症的高相关性,在生活中做到不吃豆油,尽量地避免转基因,那么中国目前井喷式的癌症高发病率一定能得到有效的控制。对于国家决策机构来说,由于知道了转基因大豆和癌症的高相关性,利用大数据的前瞻性,就能从决策层面制定有效的政策和法律,控制转基因进口以及生产,进一步加强管理,让转基因致癌成为全民共识,这就从源头上遏制了癌症的高发病率,不仅提高了人民的体质,也为国家省下巨额的医疗保健资金。

后记:
恺钜对奥卡姆剃刀本不了解,只知道他是个坚定的转基因“推销员”,但这篇文章确实让我看到了他在其本专业领域里的功力,而他在这篇文章里宣传的观点,恰恰鬼使神差地戳穿推销转基因的“科学”外衣。奥卡姆剃刀无疑是个懂科学的人,也是个懂逻辑的人,但是,就是这么一个人,一个科学人,为什么会这样自相矛盾呢?正如田松老师说的,要警惕科学,要警惕科学家!因为科学和资本结合,已经成为一个利益共同体,科学家依据资本的利益制造着有利于资本的“知识”,企图从中分得“一杯羹”,科学已经违背了科学的宗旨。
在一个偶然的机会,恺钜看到了这篇很有意思的科普文章《大数据时代的裸奔》,“以子之矛攻子之盾”,就套用了这篇文章的观点和结构让奥卡姆剃刀也为“反转”贡献一把子力气。
奥卡姆剃刀,再次向你致敬!



原文:大数据时代的裸奔
奥卡姆剃刀发布于2015年1月14日 18:30 .
[blog.sina.com.cn]

1、相关关系比因果关系更重要
老王开了个包子铺,有时做少了不够卖,有时做多了没卖完,两头都是损失。老王琢磨着买包子的都是街坊,他们买包子是有规律的,例如老张只在周六买,因为闺女周末会来看他,而且闺女就爱吃包子。于是老王每卖一次就记次账,谁在哪天买了几笼包子,并试图找出每个街坊的买包子规律。
数据虽然越记越多,但老王啥规律也没找出来,即使是老张也都没准,好几个周六都没来买,因为他闺女有事没来。有个人给老王支招,你甭记顾客,就记每天卖了多少笼就行,这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。
这个例子虽然简单,却道出了大数据的一个重要特点【相关关系比因果关系更重要】,周末与买包子人多就是相关关系,但为什么多呢?是因为老张闺女这样的周六来吃包子的人多?还是周末大家都不愿意做饭?对这些可能性不必探究,因为即使探究往往也搞不清楚,只要获得了周末买包子的人多,能正确地指导老王在周末时多包上两笼,这就行了。
要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是追求对因果性的寻找,或是对猜测的因果性的验证,人们总是习惯性地找出个原因,然后心里才能踏实,而这个原因是否是真实的,却往往是无法核实的,而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。

2、要全体不要抽样
传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来,之所以选择抽样而不是统计全部数据,只有一个原因,那就是全部数据的数量太多了,根本没法操作。
抽样的核心原则就是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查,找了一群精壮的武警战士试穿,战士们穿上了普遍反映不冷,但这并不能说明内衣的保暖效果有多好。
抽样随机性的道理谁都知道,但要做到随机性其实是很难的。例如电视收视率调查,要从不同阶层随机找被调查人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会为几条毛巾赠品而耽误时间,愿意接受调查的多是整天闲得无聊的低收入者,电视收视率的调查结果就可想而知。
互联网为大数据的采集带来的新手段,云计算为处理大数据带来了新方法。还以电视收视率调查为例,互联网电视普及后,每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点【要全体不要抽样】,对全部数据进行统计分析,其结果当然会更加准确。

3、要效率不要精确
俗话说的好,萝卜快了不洗泥,既然我们要的是全体数据,自然会夹杂进来一些错误的数据,这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除,这是小数据时代必须坚持的原则。
大数据时代的原则就变了,变成了【要效率不要精确】,并不是说精确不好,而是因为在大数据时代是做不到的,如果继续把排除错误数据作为重要工作,那大数据分析就进行不下去了。更重要的是,大数据分析的目标在于预测,而不在于追溯以前发生过的事件的真相。

4、大数据时代的裸奔
有次我给学生畅想未来,你走在大街上,基站的智能天线以一道极窄的波束指向你的手机,从而获得你的方位角,通过开机瞬时的上百次功率调整和探询,换算后就能获得你与基站的距离,两个信息结合就精准地确定了你的位置。根据你的搜索记录,互联网早已知道了你的爱好,然后手机“滴”地一声通知你,你前方10米处右侧有您最喜爱吃的咸豆腐脑店,正在八折酬宾中,“滴”地又来了一声,老板已得知您是咸豆腐脑的忠实拥护者,特别给您打五折,来尝一碗呗。
在我描绘完未来信息社会的全新生活方式后,有个学生问我:我走在大街上,手机“滴”地一声,通知我前面有个同志聚会,系统通过我以前的搜索和看过的片子早已确定了我的性向,并将我的信息经过精确配对发送给了好多基友,但我并不想出柜,这可咋整啊?
这个学生的玩笑话道出了大数据时代我们都面临的一个重大问题,那就是隐私权问题。美国某机构曾做过一个实验,根据网友的搜索记录来筛定目标,虽然信息已经进行了模糊,还是有不愿意出柜的基友被筛出来了,基友的妈妈非常震惊和生气,将该机构告上了法庭。
微博上常有维权人士声称电话被政府监听了,因为手机语音出现了不正常的声音,其实这是他们多心了,他们的电信知识还停留在用鳄鱼夹搭电话线窃听的阶段。并不是说政府不会窃听,而是说如果政府窃听你的电话,你是绝对察觉不出来的,多手段全方面的监控手段早已超出了外行的想象力。即使是技术内行,例如卖国家机密的间谍被收网后往往会马上崩溃,他所有的电话短信邮件出行会面谈话都有清清楚楚的铁证。
犯罪成本太高了,将来无死角的摄像监控头会记录下一切,即使你犯罪时蒙着面,根据前两天你没蒙脸踩点时的录像,通过姿态步态的匹配算法就能把你筛选出来。现在公安系统有句话“只要上手段,没有查不出来的”,上手段就是指包括摄像头监控、手机监控、网络监控等综合手段。现在的基础设施还不完善,等将来所有的路灯杆都变成了多传感监控器,加上强大的大数据分析能力,你还想咋藏?
更有意思的是,将来的犯罪逮捕会变成事前,有天你啥事没做睡在床上就被逮捕了,警察通告你:根据警方对你所有信息的大数据分析,显示你已经知道了老婆出轨之事,根据以往犯罪案例及你本人性格的大数据分析结果,你有76.3%的概率会在本周内对老婆进行轻伤以上程度的犯罪,超过了法律规定的60%轻伤以上犯罪概率必须入监的标准,特羁押你一个月,根据大数据分析结果,放出来后的你仍然犯罪的概率会降低到法律规定可以释放的5%以下。
听着很安全吧?但是不是也感到了毛骨悚然?在大数据时代,我们每个人都是赤条条地在信息社会中裸奔,真的是光着屁股一丝不挂地那种裸奔,难到没有人意识到这点吗?当然不是,英国等西方国家早就对街道监控摄像头展开了全社会的大讨论,安全与隐私该如何权衡?随着近年来随着恐怖主义的盛行,安全显然更重要了,公民们很无奈地同意把更多的隐私权交给了政府,以获得更大的安全感。
必须对公民隐私信息进行分级制的严管,公安部门掌握着每个人的开房信息,如果不涉及到重大违法犯罪的话,绝不能滥加使用,更不能透露给当事人的配偶,否则社会就会大乱。掌握信息和利用信息的应是独立的两个机构,如果让利用信息的公安部分掌管公民所有隐私信息,那就会成为一个人人自危的恐怖国家。
我们现在该如何做好迎接大数据时代的准备?我觉得应该培养公权机构绝不能泄露公民隐私的社会舆论,前几天网上流传着范冰冰的机场安检照,记者们以此做娱乐文章称人家如何如何,这就是一个极坏的兆头!如果放任这种公权力的滥用,我们每个人将来都会成为光屁股裸奔的人,光不光屁股则取决于掌握公民信息的权力人士的一念之差。
最近有报道称银行内鬼贩卖账户信息,银行方面居然称这事主要靠自觉,他们内部查不出来。这事也是大恶!查不出来是因为银行内部缺乏相应的技术手段,根本就没有建立起相应的信息保密制度,这种不作为是未来大数据时代的严重隐患。
前两天我参加一个学生的婚礼,作为导师我被安排在领导桌,刚坐定就有个陌生人来照相,询问后才知是婚宴酒商的员工,把我们作为背景来照酒的照片,估计是用于宣传。我把他轰走了,我不愿意这个数据留在网上,不愿意让它将来作为分析我的大数据资料。

结论:与以往的抽样统计不同,大数据使用的是全部数据,更着重的是效率而不是数据的精确性,关注的是相关性而不是因果性,这些特点造就了大数据对事物发展的极强的预测能力,它可以给我们带来更安全更便捷的新生活,同时也给个人隐私带来了巨大的威胁,对掌握公民隐私信息的公权力的严格控制,应该成为全社会的共识。

后记:
我现在基本不写专栏而改写长微博了,原因有三个:一是长微博不限字数,而传统纸媒要求必须在3千字以内,很难通过举例子的方式把道理讲透彻;二是作者们都会讨厌编辑的修改,他们往往不能理解作者的真实意图,改得你非常的难受,而长微博的每一个字都是自己做主的;三是长微博收益高,纸媒文章也就千字几百,被网友认同的长微博收益要高些,而且网友自愿支付,对作者来说更有成就感。
我真不是有些网友谬赞的通信大牛,大牛都在实验室里,你见不到也不会认识,我只是一个教通信专业基础课的普通老师。如果自夸下,那就是一位知识面较广受学生喜爱的好老师,唯一长处就是擅于把复杂的专业问题简单化,具有一定深入浅出的授课和写作能力。
业余时间写稿子挣点外快是我的生活方式,尤其是在网上这些年的历练,让我摸到了针对普通公众的科普写法,不管你是学什么的,我写的东西保证让你懂,而且保证你获得的知识是正确的而且是有价值的。
这篇文章我定的默认打赏额度是4.99元,为什么是这个数呢?因为 [英]维克托.迈尔-舍恩伯格肯尼思.库克耶所著的《大数据时代》一书的定价49.9元,我以此书为基础,又参考了其它书籍文献,结合我以前学习过的数据仓库和数据挖掘知识,把内容进行了提炼和总结。我的想法是:通过阅读这篇文章,只花费您原书1/10的金钱,浪费您读原书的1/10的时间,您就能获得原书知识的精华。
以前有网友开玩笑说,奥老师你比我挣的多,我就不打赏了啊。我笑着反问他,马云比你有钱多了,为啥你还在给淘宝做贡献呢?那是因为马云给你提供了服务,你是为服务付的费,不是给首富马云的赏钱,这跟谁挣钱多没关系,而且我就是个挣死工资的老师,就指着写点文章挣点外快。
从父母要生活费的学生们不要打赏,把钱留着多打份肉菜吧,我的劳动报酬有已经工作的成年人支付,还轮不到你们为社会秩序做贡献。踏踏实实地学本领才是正事,绝对不要当微博控,千万不要跟我攀比,我玩微博写科普不仅是对自身知识的梳理过程,而且还能挣点钱,你们玩微博就是纯粹浪费生命。

*其他参考文献:

崔永元转基因纪录片中的科学错误
[www.guokr.com]

“大豆保卫战”:转基因大豆油致癌?
[news.cntv.cn]

选项: 回复引用


对不起,只有注册用户才能发帖。
2250s.com does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by users.

This forum powered by Phorum.