- 我的公众号“卫夕指北”曾经有一篇文章让我的粉丝数增长了两倍,你会不会觉得这篇文章的确不错?事实上那是我第一篇文章,发文章之前我的粉丝数是60,发文章之后我转到朋友圈粉丝增长到了180,而那篇文章是如此的平庸以至于我后来都把它删掉了!
- 假如一个球探并不认识丁俊晖,这时候我剪辑一个视频——里边30%的片段是丁俊晖表现好的镜头,另剩下70%是丁俊晖失误的镜头,那么,这个球探一定会对丁俊晖球技评价非常一般。
- 一位员工向老板汇报:“因为贸易战,我们的鞋子的销量下降了两成”,另一位员工向老板汇报:“尽管有贸易战,我们鞋子的销量依然保住了八成”,神马是真相?
- 一位自媒体作者的简介里写道:2006《时代周刊》年度人物、2008感动中国组委会特别大奖,你会不会觉得他已经到了自媒体金字塔的顶端?事实上2006时代周刊年度人物是“You”,即所有网民;而2018感动中国组委会特别大奖是——“全体中国人”
- “美国每100个人就有89支枪,看到这个数据,你会不会觉得美国枪支泛滥极其严重,简直是人间地狱,没救了;但你看另一个数据可能就没那么担心了——美国只有31%的家庭有枪。
- 新医学统计证明,一个人的寿命和这个人成人后手掌大小关系密切,具体表现为——手掌大通常寿命短,而手掌小寿命则长;太奇怪了!事实是,男性寿命通常比女性短,而男性的手掌则通常比女性大;
- 如果我给你一个组数据——市一中的升学率为46.4%,市二中的升学率为40%,你会把你的孩子送到哪个学校读书?
当然是市一中!对不起,你选错了!看一看下面一张表,不管是文科升学率还是理科升学率,市一中都没有市二中高,但它的总体升学率却高于二中,你没看错,数据就是这么神奇! -
在美国全部市长的平均工资为6.2万美元,而副市长却高达8.3万美元,这个数很奇怪对不对?而事实上是在美国很多小的市并没有设置副市长,只有一个薪水并不高的市长,而设置副市长的市都是较大、较富裕的市。 - 这个图,你是否觉着这个指标有涨有跌,总体表现较为平稳?
但事实上,真实的表现是2020年比2019年增长了一倍!
然而事实是我上周三才拿到驾照开始开车。
小样本谎言是指用并不能代表整体的极小样本试图描述整体状况,这是一种基于真实数据说谎的典型方式,常见于多种实际场合——
- 公司财报:我们经常会看到某互联网公司财报公关稿里会说自己某项创新业务上季度收入增长300%,但它不会告诉你具体数,因为这个具体的数字可能是收入从1万增长到4万;
- 求职简历:我收到很多简历上写“负责XX项目期间,成功让某个功能使用人数翻番”的描述,我通常会继续问“那么这个功能具体的使用人数是多少呢?”,求职者往往会回答:“抱歉,由于和公司签了保密协议,具体数据不方便透露”。
- 政府宣传:摩纳哥政府日前宣称他们是世界上第一个完成5G100%覆盖的国家,你会不会这个国家真的走在通讯科技的最前沿?而事实上,摩纳哥坐落在法国的中间,面积只有1.98平方公里 。
注意:小样本谎言并不局限于用小样本来夸张倍数,也存在用小样本扩大整体范围,下面三句话大家感受一下——
1.自2002年韩日世界杯失利后,中国队在世界杯赛场上不败纪录已经延续17年
2.纵观漫长的世界杯史,中国队总共也仅输过三次
3.即使是巴西队这样的世界强队在世界杯比赛中也仅战胜过中国队一次
因为我知道书商的一个常见操作是——把《纽约时报》书评中好的部分挑出来,即便整个书评对这本书持否定态度:
比如书评写的是“这是一本在情节上引人入胜的小说,但它恶俗的价值观和对女性的蔑视只能让其成为三流作品……”,书商只会在封面上印上“这是一本在情节上引人入胜的小说”——《纽约时报》,所以大家要警惕来自外媒的书评,尤其是那些只有一句话的书评。
2007年,高露洁被英国广告标准管理局(ASA)下令禁止使用“超过80%的牙医推荐高露洁”这句宣传语,原因是因为它存在明显的误导,这个数据本身是独立而准确的,但它给消费者的感觉是——“剩下20%的牙医推荐其他品牌”,而事实上可能是——“90%的牙医推荐田七”(我随便说的,那份报告的确是牙医不止推荐一个品牌)
再看另一个例子,一些制药厂商在宣传时可能会说“我们这款胃药和其他同类型的胃药相比,长期服用也不会对胃造成副作用”,它宣称确实属实,但它没有告诉你的是——对胃是没有负作用,但是对肝有。
为什么很多人说:百度的财报新闻要去腾讯看,而腾讯的财报要去百度看,就是因为发在自家网站的新闻通常只会选择性展示财报中的利好。
曾国藩率领湘军与太平天国作战,曾多次吃败仗,于是曾国藩上书朝廷,奏折提到“屡战屡败”,但被他的幕僚李元度看到之后将“屡战屡败”改为“屡败屡战”,这次改动被传为佳话,因为它显示其奋勇无畏的作战精神,然而现实中却被大量的人和企业用于刻意地欺骗。
胡适先生说“历史是任人打扮的小姑娘”,而事实又何尝不是呢,比如:
“三陪女白天去大学上课”,“女大学生晚上去当三陪女”,这其实描述的是同一件事,但从不同的角度叙述则含义完全不一致了。
当年罗永浩之所以要和做测评的王自如约战优酷,就是因为老罗认为王自如在测评T1的时候用了大量不易察觉的倾向性的表述将锤子T1描述成一款不合格的产品。
“我能在祈祷的时候抽烟吗?”、“不能!”;
“那我能在抽烟的时候祈祷吗?”、“可以”。
偷换概念谎言其实源于我们对于书面表达的迷信,不同于我们日常使用的口头表达,书面表达体系长期用于严肃场合因而形成了一种天然的可信度,于是它就常被用来编织真实的谎言——
公众号“吓脑湿”举过一个例子——有人这样描述自己的互联网运营工作:
“他开始打造自己的私域流量,建立了一个庞大的私域流量池,并转化成社群,在着重提升社群活跃度的同时,用心做好社群运营。”
而实际上是——
“他用微信加好友,加了很多好友之后把他们拉进一个微信群,平时没事就在群里发些段子和沙雕图,偶尔发发广告”
如果我这么说——“我一个表妹是一个极其优秀和突出的女生,她大学毕业就成功进入一家世界五百强工作,而作为新人的她在第一年就成功化解了该公司的一个分支机构两次公关危机”
你会不会想了解一下这个优秀的年轻女生到底是如何做到的?甚至想让她给你即将毕业的弟弟传授一下经验……
而事实是,我表妹毕业后只是在麦当劳找到了一份收银的工作,而她的确成功调解过两次就餐顾客的投诉和纠纷。
下次碰到类似的谎言,你只需要对他说——“说人话!”
平均数只是描述一个总体的一个指标,当这个总体分布相对均匀的时候,平均数是有意义的,而当其分布及其不均匀时,用平均数试图描述每个人状况就不适合了,这时候中位数和众数在某种意义上更能体现分布,中位数指整体有一半比这个数高,另一半比这个数低,众数是指整体中分布最多的数。
我们看一个实际例子,假如你们宿舍5个人,毕业十年后,一个人失业,月工资0;
一个人当老板,一个月100万;
另外三人一人月入6万,另外两个人月入2万;
所有人月薪为0、2、6、2、100万,这时候平均数为22万、中位数为6万,众数为2万,显然,中位数6万和众数2万这两个数更能描述你们宿舍的实际情况。
嗯,马云可真有钱,我和王健林加起来还没有他多。
观察到经常看电视的孩子最暴力,就直接下结论说电视使孩子们变得更加暴力,而可能存在的另一个原因是暴力的孩子更喜欢看电视。
在医学界一个典型的案例——医学观察发现使用激素替代疗法的治疗冠心病的女性复发率率明显低于平均水平,于是很多医生认为这个疗法肯定比其他疗法更好,但之后的随机医学试验证实恰恰相反,这个疗法效果甚至还不如普通疗法,那么这是为什呢?
原来是因为该疗法前沿且价格高昂,而接受这一疗法的女性通常社会地位和财富地位相对较高,而她们的饮食习惯的健康程度和运动量也高于普通人,因而复发率低于普通人。
为了讲清楚因果和相关这个问题,我举一个栗子——比如某个地方车祸次数和黑熊袭击从数据表现上极其相关,大家可能第一时间想到的是黑熊袭击导致了车祸的发生,但事实上他们可能有四种关系:
- 黑熊袭击导致车祸发生
- 车祸发生导致黑熊袭击
- 车祸和黑熊袭击都由第三方因素(如火山爆发)引起
- 车祸发生和黑熊袭击完全没有关系
所以之后不要看到相关的数据就认为他们之间一定是因果关系,我们要认真分析背后可能的具体原因和逻辑关系,国外有一个神奇的网站(https://tylervigen.com/)专门收集那种不可能有联系的虚假相关关系,比如这个:
“世界非商用太空发射次数和美国社会学博士授予量呈高度关系”
那么这是为什么呢?是因为总体和部分在结构上呈现了大的差异,而这个差异有时候也会被人来制造谎言,1991年,科罗拉多大学的统计学家 Michael L. Radelet统计了1976-1987年美国佛罗里达州的谋杀案的数据,总体结果如下:
更让人发指的是,当被害者为黑人而凶手为白人的死刑率居然为0,即这种情况一个都没有判。那么如何避免陷入辛普森悖论呢?答案是警惕总体结论,通过科学合理的分组来查看具体细致的数据。
统计学家经常举的例子——在美国对西班牙的美西战争中,美国海军的死亡率为0.9%,而同期纽约市民的死亡率为1.6%,因此这个数据被美国海军引用作为征兵广告,以此证明去当美国海军甚至比坐在家里还安全。
聪明的读者一定猜到了这个对比极具误导性的,能入伍的都是身体健康的成年男性,而纽约市的全体居民则包含老幼病残。
华为在宣传它的手机P30 Pro的时候,把手机的ISO和佳能的两款单反进行了对比,于是网友在知乎上发布“自行车在拥堵时候的速度是兰博基尼的N倍”进行反讽。
三星也好不到哪里去,当华为的P30 Pro的主摄像头在专业影像网站DXOMark上的评分超越三星S10+时,三星无耻地发了一张下面的图,把后置摄像头和前置摄像头的评分加起来,以显示依然超过华为——
1.并不从0开始的Y轴
这是图片欺骗最低级最容易识别的手段,但现实中却被使用的最为广泛,目的是为了让图片走势更突出——
- 为显示履约费用率持续走低,京东2019年Q2财报的宣传图里的Y轴是从5%而不是从0开始的:
履约费用率下降很明显有木有,其实只有1%
- 小米在小米9的发布会上的这张图,乍一看小米9跑分遥遥领先,但仔细一看,Y轴还是被截断了:
看起来小米9跑分是Mate20跑分的两倍多
有没有发现苹果的份额19.5%比“其他”21.2%还要大
4.并不恰当的示意图:
关于iCDO
订阅号-每日尝鲜