新书推荐：可复现数据科学及 Python 应用

文摘 2024-10-27 22:01 山西

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

课程特色 · 2024机器学习与因果推断：

懂原理、会应用。本次课程邀请了两位老师合作讲授，目的在于最大限度地实现理论与应用的有机结合。为期四天的课程，分成两个部分：第一部分讲解常用的机器学习算法和适用条件，以及文本分析和大语言模型；第二部分通过精讲 4-6 篇发表于 Top 期刊的论文，帮助大家理解各类机器学习算法的应用场景，以及它们与传统因果推断方法的巧妙结合。
以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上，即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此，通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程，效果甚佳：学生们能够逐渐建立起研究设计的理念，并在构造识别策略时适当地嵌入机器学习方法。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者： 高瑜 (格罗宁根大学)邮箱： gaoyuashley@163.com

编者按： 本文主要摘译自下文，特此致谢！Source： Reproducible Data Science with Python by Valentin Danchev. Link.

Title: 新书推荐：可复现数据科学及 Python 应用
Keywords: 数据科学, 真实世界的数据, 数据探索及可视化，Python

1.简介

本推文为大家介绍 Dr. Valentin Danchev 的新书《Reproducible Data Science with Python》。

作者任职于伦敦玛丽女王大学商学院，他在数据分析领域拥有丰富的研究经验，且注重研究结果的可复现性，因此他撰写的该教材具有完备的可运行的代码及相应的数据库。

此外，在本书的 github 上，作者整理了一系列资源，包括书籍和文章到简短的视频讲座和编程和数据分析教程，从而助力读者更好掌握并运用 Python 进行实战项目。

1.1 书籍介绍

本书使用与 COVID-19 疫情相关的真实社会数据集，提供了一个关于开放、可重复和符合伦理的数据分析的入门指南，涵盖了实际操作的 Python 编程、现代开源计算工具和数据科学技术。

书中讨论的主题包括开放的可重复研究流程、数据清理、探索性数据分析、数据可视化、模式发现（如聚类）、预测与机器学习、因果推断以及网络分析。

通过这本教材，读者将以易于理解的方式学习实用的数据科学技能，包括数据整理、聚类、重采样和各种数据源的可视化，以及机器学习技术的应用（例如，交叉验证以降低过度拟合的风险）、因果推断（例如，因果图以检测混杂因素）和网络分析（例如，社区检测以发现紧密联系的社区）。

1.2 什么是可重复的数据科学（Reproducible Data Science）？

在典型的数据科学生命周期中，我们将从一个研究问题开始，然后选择数据集，预处理数据，执行描述性分析以探索数据的基本特征，然后对数据进行建模以预测结果或建立因果关系。在整个数据科学生命周期中，研究过程的透明度和计算可重复性至关重要。本书通过解决五类任务，使用编程从不同的数据集中得出结论。

数据预处理——使用数据清理、数据整理和数据转换技术准备数据以供分析。
描述性统计分析——使用探索性数据分析、可视化和自动发现技术发现数据中的模式。
预测——通过运用从简单回归到（监督）机器学习的技术，利用我们已知的结果信息对未知结果做出明智的猜测。
因果数据分析——通过应用因果图、反事实和因果推断技术研究因果问题。
统计推断——使用重采样方法和相关技术量化我们的确定性程度，以确定我们在数据中发现的内容是否适用于不同的场景。

1.3 适合人群

这本教材非常适合社会科学、公共卫生及相关领域的学生及研究人员，对想要通过多样化的数据集研究现实问题，但缺乏数据科学知识和编程技能的读者大有裨益。书中将从基本原理开始，讲授数据分析所需的编程技能。读者只需掌握基本的代数和描述性统计即可，不需要编程基础。

2. 分章节内容介绍

作者在引言部分介绍了关于这本教科书的大纲、学习目标、学习资源、数据集的使用，并讲解了如何最大程度的利用开放学习资源等。

本书涵盖十个章节，每个章节都提供了范例数据和 Python 代码，以及书稿的 Jupyter Notebook 原始文件。各章提要如下：

About the textbook
End-to-End Data Science Project
Python Data Science on the Cloud
Open Reproducible Data Science Workflow
Data Design and Data Wrangling
Data Exploration and Data Visualisation
Pattern Discovery using Unsupervised Learning
Prediction using Supervised Learning
What Causes What? Introduction to Causal inference
Network Analysis
Data Ethics

2.1 科学项目的完整流程 (END-TO-END DATA SCIENCE PROJECT)

第一章详细介绍了一个完整的数据科学项目流程，围绕着“英国在新冠疫情期间三次封锁期间的人员流动性差异”这一研究问题展开。通过这一问题的探讨，读者将学习并掌握数据科学生命周期中的各个关键阶段，包括从提出研究问题、选择计算工具、获取数据和遵守道德规范，到数据处理、分析以及如何利用这些结果为决策和政策提供参考。

本章使用了 Colab 计算笔记本和 Python 开源工具，引导读者进行探索性数据分析和数据可视化，分析大量与 COVID-19 相关的实际移动数据。通过这些分析，读者能够更好地理解公共卫生政策相关的研究问题，并学会使用数据科学的方法来解决这些现实世界中的挑战。

2.2 云端使用Python进行数据科学的工作流程 (PYTHON DATA SCIENCE ON THE CLOUD)

第二章详细介绍了本书使用的编程工具——Jupyter笔记本和Colab环境，Jupyter 笔记本是一个开源网络应用程序，允许创建和共享包含实时代码、方程式、可视化效果和叙述文本的文档。Colab是一个免费环境，可在 Google Cloud 上运行 Jupyter 笔记本，无需安装或设置。无需登录 Google 即可查看公开共享的笔记本。

作者提供了学习相关内容的丰富资源，列举部分常用网站如下：

Jupyter Notebook

Jupyter Notebook 教程

开始使用 Google Colab

2.3 开放可重复的工作流程 (OPEN REPRODUCIBLE WORKFLOW)

第三章介绍了本书的讨论的基础——开放可重复的工作流程，向读者介绍了什么是计算可重复性以及它为什么重要，如何在Jupyter/Colab Notebooks中打开可重现的工作流程，以及可重现工作流程的规则和研究报告等。

在整个教材中，作者将多次提到可重复研究工作流程的规则，例如，注释代码；使用单元格划分来明确步骤等，并特别强调记录软件依赖项（如运行代码使用的 pandas 库及版本等，这对于计算的可重复性来说非常重要。

在未来重现数据分析，不仅需要复用数据和代码，还需要复用所使用的所有模块、库及其各自的版本。记录这些依赖项是一个良好的实践，这样其他人都能重新创建支撑你分析的环境。

2.4 数据设计和数据整理 (DATA DESIGN & DATA WRANGLING)

“数据整理”是收集、加载、转换和准备数据以供探索和分析的繁琐工作，据估计，数据科学家将 50% - 80% 的时间花在数据整理上，因此，第四章主要介绍了什么是数据，数据是如何产生的以及如何用 pandas 库进行数据的整理（加载、选择和转换等）。

2.5 数据探索与可视化 (DATA EXPLORE & VISUALISATION)

本章对探索性数据分析（Exploratory Data Analysis，简称 EDA）进行研究，它是一种数据分析方法，使用一系列简单的定量技术（如均值、标准差等描述性统计方法）和可视化工具，以“开放的心态”探索数据的特征，而不急于对数据进行特定的统计假设或模型分析。即 EDA 通常是在数据建模之前进行的。

本章内容选用的是 COVID-19 的数据集，探索了人口流动变化的六个相关问题并进行可视化。在本章实验中，读者将学会使用 Python 库 pandas 进行数据分析，使用 SciPy 和 NumPy 进行描述性统计和简单建模，并引入 Seaborn 库进行数据可视化。Seaborn 是基于 matplotlib 构建的 Python 数据可视化库，能够绘制出既美观又有信息量的统计图形。

2.6 使用无监督学习进行模式发现 (PATTERN DISCOVERY USING UNSUPERVISED LEARNING)

第六章介绍了社科领域中机器学习的关键概念，重点放在机器学习的一个重要分支——无监督学习，包括聚类和降维技术。

本章重点使用 Scikit-learn ,即 Python 中的机器学习库进行实际数据分析。研究目标是使用两种流行的无监督学习技术将具有相似流动趋势的英国的县进行分组：k均值聚类和主成分分析 (PCA)。

2.7 使用监督学习进行预测 (PREDICTION USING SUPERVISED LEARNING)

第七章重点放在机器学习的另一个重要分支——监督学习，本章介绍了如何通过数据进行学习来完成预测任务，重点讲解了监督学习的基本概念以及常见的机器学习任务，如回归（用于连续变量预测）和分类（二进制分类）。

读者将学习如何构建简单的预测模型并评估其效果，理解模型过拟合问题及其避免策略，包括将数据分为训练集和测试集，以及使用交叉验证来评估模型的泛化能力。

此外，本章还介绍了常见的监督学习算法，如 k-最近邻（K-NN）和逻辑回归（Logistic Regression），帮助读者掌握通过数据进行有效预测的核心技术。

2.8 因果推断（CAUSAL INFERENCE）

观测数据之间有可能存在虚假的相关性，这些变量在模型中似乎是相关的，但实际上没有因果关系。因此许多模型可能会在数据中发现一些有趣的关联，这些关联看上去在统计上显著但缺乏实际意义。

如果我们的目标是实施可能在社会中引入变化的新政策或干预措施，我们需要了解问题背后的因果结构——究竟是什么导致了什么。

本章介绍了因果推断的基础知识，重点探讨了如何通过观察数据和大数据来识别因果关系，而不仅仅是相关性。通过引入因果图（DAGs），帮助读者直观地理解不同变量之间的因果结构。

此外，这一章还解释了如何通过分析政策或干预措施（例如居家办公政策）对结果（例如新冠病例数）的影响，并将其与反事实问题进行比较，从而得出有意义的因果推断结果。

2.9 网络分析（NETWORK ANALYSIS）

网络是一组节点（也称为顶点）和它们之间的一组边（也称为链接）。在网络中，节点代表个人（或其他实体，包括国家、组织和网页），链接代表各种社会纽带，包括友谊、亲属关系、熟人关系或超链接。

网络分析的核心理念是，节点在网络中的位置会影响其社会影响力和表现。不同的节点位置和关系模式可能导致不同的社会结果。

本章介绍了网络分析的基础，重点研究实体之间的关系，而非个体属性。与传统的表格数据不同，网络数据关注节点（实体）和它们之间的链接（关系）。

在本次实验中，读者首先通过一个小型玩具网络学习基本概念和诊断方法，随后分析《星球大战 IV：新希望》中的角色社交网络，应用网络分析的理论和方法。

2.10 数据伦理（DATA ETHICS）

本章介绍了数据伦理的挑战、原则和框架，如何检测和处理数据科学模型中的偏差和不公平性等。本章围绕“ 2020 年的英格兰 A-level 主题进行讨论，系统的探讨了数据科学中偏见和公平性的所使用的工具箱。

3. 总结

《Reproducible Data Science with Python》是一本兼具理论和实践的教材，能够帮助社会科学、公共卫生及相关领域的学生和研究人员掌握数据科学的核心技能。

全书围绕数据科学的可重复性与透明性展开，采用了与 COVID-19 疫情相关的实际数据集，系统介绍了从数据预处理、探索性数据分析到机器学习、因果推断、网络分析等各个环节。

本书通过使用 Python 和 Jupyter/Colab 等开源工具，并使用了公开数据集方便练习，同时提供了大量的相关资源供研究使用，因此读者无需复杂的编程基础，即可快速上手，并运用所学知识解决现实问题。

4. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 书籍教材好书新书推荐
安装最新版 lianxh 命令：
ssc install lianxh, replace

王卓, 2023, 知乎热议：经济学入门必读书籍推荐, 连享会 No.1242.
张梓瑶, 2022, 知乎高赞：17个高质量网站-让你拥有几乎所有的书籍, 连享会 No.833.
李坤在, 2022, 好书：相见恨晚的金融学或经济学书籍, 连享会 No.906.
涂冰倩, 2021, 因果推断：哪本教材适合我？, 连享会 No.832.
牛坤在, 2021, 因果推断新书在线读：Causal Inference-The Mixtape, 连享会 No.704.
萧泳銮, 2021, 经典计量经济学教材推荐, 连享会 No.804.

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247580458&idx=2&sn=5870ff19b4518ff6d2352bbfcd8762e2

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。