数据分析思维学习笔记
平均值:不要被骗了,它不能代表整体水平
整体平均值是在数据均匀分布或正态分布的情况下才会有意义
辛普森悖论:在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。
辛普森悖论产生的原因:权重小的因素在整体中的数量过大,影响了结果
辛普森悖论也给我们一个启示,就是:每次小范围内的输赢,其实和你在整体上的输赢没有太大直接的关系。(赢一堆小的不如赢一把大的)
摘自百度百科:辛普森悖论
回避方式:
为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
管理应用:
辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏,于是有人专找高手挑战20 场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比 41%小很多,但仔细观察挑战对象,后者明显较有实力。
量与质是不等价的,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。除了质与量的迷思之外,辛普森悖论的另外一个启示是:如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计上的诠释。
摘自评论区:
从经济学观点来看,这个问题就是有限资源的利用与配置问题。经济学本质上就是一门决策的学问。 首先分别看AB两球员二、三分球的期望得分。
二分球 三分球
A 20.8=1.6 30.1=0.3
B 20.9=1.8 31/3 =1
无论是二分球还是三分球,B的期望得分都高于A,显然B的投篮能力强于A。那我们能说B球员比A球员强吗?并不能。 用得分数/球数得到每球的平均得分,A为1.38,B为1.32。 可见A的得分能力强于B。
由以上我们可知,局部最优不一定会整体最优,整体最优也不意味着局部最优。 那么局部与整体之间如何选择,如何分配资源呢?那要看衡量指标。球赛的最终目标就是使总分尽量高,也就是整体最优,从这个指标来看问题,A是强于B的。假如A或B有100次投篮的机会,应尽量选择投二分球。三分球应当尽量不选择,或者是在把握很大时再选择投三分球。
但实际问题在中,衡量指标远远没有这么简单。 就拿经济发展来说,最先想到的指标必然是GDP或者经济增长率之类的指标。如果仅仅是为了经济增长,发展边远地区费力难见效,为什么还要扶持边远地区?有的山上就几户人家,为什么一定要通上电,邮政为啥一定要送到?
因为要考虑的指标太多了,除了GDP还要考虑人民幸福感、地区发展不均衡等的问题。中国虽然GDP全世界第二但我们依然不是发达国家。 整体重要还是局部重要,具体问题具体分析。 辛普森悖论的本质就是用部分来衡量整体,或者是用整体来衡量部分。
关于作者所说的“质”与“量”问题也挺有意思的。“质”可以理解为能力、效率、或者是产出能力,“量”就是投入的资源,比如时间、精力与金钱。“质”和“量”相乘就是结果或者产出了。举个例子,“质”就是速度,“量”就是运动的时间,二者相乘就是路程。速度快却不一定跑得远。
投入相同的时间,你可能数学只能涨10分,而政治能涨15分,那就多把时间给政治吗?也不对。刚才说A与B球员都尽量多投二分,那我多把时间给政治,总分却不能一直涨。
原因有主要两个。一是存在边界。二是存在边际效应递减。
我们再跳出考试这个圈子,考试数学最多也就150。如果努力学数学,成为一代大家,其他方面很一般也影响不大,这就从局部最优实现了总结果最优。他虽然在很多方面可能比不上一般人,我们依然可以说他的成就超过了大多数人。数据分析,要带着指标来分析。 最近专业课老师刚刚讲了聚类算法,从我短浅的认知来看,数据分析里面的聚类与分类算法,或许能在一定程度上避免辛普森谬论。