
书: https://pan.baidu.com/s/1A6ZLSPMbCiZ-L4eRucUvXQ?pwd=kt7i
一些笔记分享给大家:
一、数据批判性思维
- “相关≠因果:冰淇淋销量与溺水事件同步增长,但高温才是共同原因。”(《原因与结果的经济学》)
- “幸存者偏差(Survivorship Bias)让我们只看到‘成功案例’,却忽略沉默的大多数失败者。”(《数据陷阱》)
二、统计陷阱识别
- “P值<0.05并非‘真理门槛’,数据挖掘(Data Dredging)可人为制造显著结果。”(《数据陷阱》)
- “均值掩盖极端值——收入分布中,富豪拉高平均值,中位数更能反映普通人处境。”(《原因与结果的经济学》)
三、健康与医疗决策
- “体检指标的‘正常范围’是统计分布(如95%区间),超出未必等于疾病。”(《医生的精进数据课》)
- “随机对照试验(RCT)是医学金标准,但观察性研究(如‘每天喝酒更长寿’)常混淆混杂因素。”(《医生的精进数据课》)
四、商业与行为分析
- “A/B测试的核心:控制单一变量,确保两组除干预外完全一致。”(《数据思维》)
- ‘漏斗分析’揭示用户流失环节,但需警惕‘虚荣指标’(如点击量≠转化率)。”(《数据思维》)
五、数据可视化
- “纵轴截非零的折线图会夸大趋势差异——永远检查坐标轴刻度!”(《数据陷阱》)
六、机器学习局限
- “过拟合(Overfitting)模型在训练集表现完美,但面对新数据可能完全失效。”(《数据思维》)
七、行为经济学
- “锚定效应(Anchoring):初始数字(如原价)会扭曲后续判断,即使它完全随机。”(《数据陷阱》)
八、公共政策评估
- “双重差分法(DID)比较干预组与对照组的变化差异,缓解选择偏差。”(《原因与结果的经济学》)
九、数据伦理
- “个性化推荐算法的‘信息茧房’:数据越精准,认知越狭隘。”(《数据思维》)
十、日常决策
- ‘基本比率忽视’:忽略先验概率(如疾病患病率),过度关注个体检测结果。”(《医生的精进数据课》)
附:四册核心方法论
- **“因果推断三问:
- 是否存在混杂变量?
- 是否存在反向因果?
- 是否存在样本选择偏差?”(《原因与结果的经济学》)**
- **“数据可信度检查表:
- 样本是否随机?
- 测量是否无偏?
- 结论是否可复现?”(《数据陷阱》)**
- **“医疗决策两原则:
- 绝对风险(如5%→4%)比相对风险(降低20%)更直观;
- 需治疗人数(NNT)比有效率更重要。”(《医生的精进数据课》)**
- **“数据分析四步:
- 定义问题;
- 清洗数据;
- 探索规律;
- 验证结论。”(《数据思维》)**
- “避免‘数据驱动’变成‘数据盲从’:人类直觉与数据应相互校验。”(套装序言)
- “数据思维的终极目标:用理性对抗偏见,让决策‘清醒’而非‘正确’。”(套装结语)