简单示例用法
tidyversetopandas包将R的tidyverse的熟悉语法带到了Python的pandas库中,使其成为从R过渡到Python的数据科学家和分析师的宝贵工具。本教程提供了一个真实的示例,演示了如何使用tidyversetopandas的关键功能,包括mutate、过滤、选择和排列。
教程地址:https://tidyversetopandas.readthedocs.io/en/latest/
测试环境 colab
入门
首先,确保tidyversetopandas与pandas一起安装和导入:
# Import necessary packages
import pandas as pd
from tidyversetopandas import tidyversetopandas as ttp
示例数据
我们将使用表示销售数据的示例数据集进行说明。让我们创建一个pandas的DataFrame:
# Sample data
data = {
"ProductID": [101, 102, 103, 104],
"Sales": [250, 150, 300, 200],
"Region": ["East", "West", "East", "South"],
}
df = pd.DataFrame(data)
# Display the initial DataFrame
print("Initial DataFrame:")
df
使用tidyversetopandas
1.Mutate:添加和修改列
假设我们要计算每次销售的VAT(增值税),假设统一税率为15%。我们可以使用mutate函数添加这个新列:
# Adding a new column for VAT
df = ttp.mutate(df, "VAT = Sales * 0.15")
print("\nDataFrame after applying 'mutate':")
df
2.Filter:按行过滤
如果我们需要过滤数据以仅包括大于200美元的销售额,Filter会派上用场:
# Filtering rows where sales are greater than 200
df = ttp.filter(df, "Sales > 200")
print("\nDataFrame after applying 'filter':")
df
3.select:选择特定列
要专注于特定列,例如ProductID和VAT,请使用select函数:
# Selecting specific columns
df = ttp.select(df, "ProductID", "VAT")
print("\nDataFrame after applying 'select':")
df
4.Arrange:排序数据
最后,根据ProductID按降序对数据进行排序:
# Sorting the DataFrame
df = ttp.arrange(df, False, "ProductID")
print("\nDataFrame after applying 'arrange':")
df
结论
凭借这些简单直观的功能,tidyversetopandas使从R的tidyverse到Python的pandas的过渡无缝高效。无论是数据操作、分析还是可视化准备,这个包都确保了Python环境中R用户的流畅和熟悉的工作流程。
请记住,此软件包正在开发中,预计会有更多功能和改进。有关更多详细信息,请参阅GitHub上的完整留档和存储库。
高分文章新方法-基于R语言的动态预测模型课程第三期
开课目的及前言
预测模型类文章目前总结起来发展经历了以下三个阶段:
基于传统流行病学的列线图模型(本质都是cox回归及glm回归),简单的统计学分析模型,是模型依赖的方法,临床上实际情况很难满足其前提假设,实际效果不好。
基于机器学习/深度学习的预测模型的构建(在数据上提高了维度,在算法上引入了机器学习),虽然算法上引入了机器学习模型,处理数据更加灵活,模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测,与临床实际不符。
基于纵向数据的动态预测模型(基于纵向多次随访数据,模型应用联合模型等动态预测模型方法),应用患者的多次随访数据对最终的生存结果进行预测,从数据和方法上都更类似于临床实际。
考虑到动态预测模型有以下特点,因此必然是后续高分文章的必备方法:
数据上必须有同一个患者的多次随访数据,相对于既往横断面一次基线数据,数据的收集难度更大,而且动态预测模型需拟合纵向的线性混合模型,因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。
应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法,并且还需要熟悉纵向数据分析的广义线性混合模型,再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据,另外对于联合模型,模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。
授课老师
1 灵活胖子
双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。
2 Rio
医学博士,临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。