实验室数据科学竞赛计划与反馈要求

科技 2024-06-26 15:46 河北

为了加强实验室同学们的 编程/数据处理 能力，我们计划每月参与至少一次 编程/数据科学类 竞赛，以竞赛促进学习。本月，我们将参加 上海市青少年算法竞赛的6月赛（建议从丙组开始挑战）/讯飞算法挑战大赛。比赛结束后，请同学们向我反馈你们的成绩，以便我们进行后续的分析和学习。

比赛介绍

赛题名称：分子性质AI预测挑战赛
赛题类型：生命科学、数据挖掘
赛题任务：预测PROTACs的降解能力

赛题链接：https://challenge.xfyun.cn/topic/info?type=molecular-properties&ch=dw24_8Yoyn0

参加步骤

第一步：报名参赛

第二步：下载赛题数据

第三步：阅读赛题

第四步：建立模型编写代码

一个简单的baseline实例。

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import f1_score

train = pd.read_excel('traindata-new.xlsx')
test = pd.read_excel('testdata-new.xlsx')
print(train.shape)
print(test.shape)

'''
(351, 90)
(353, 87)
'''

print([x for x in train.columns if x not in test.columns])

'''
['Label', 'DC50 (nM)', 'Dmax (%)']
训练集比测试集多3个特征，也就是多了标签部分
'''
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=1)
for col in train.columns[1:]:
    if train[col].dtype == object:
        print(col, train[col].nunique(), test[col].nunique())

'''
查看各个特征在不同数据集中的分布
'''

for col in train.columns[2:]:
    if train[col].dtype == object or test[col].dtype == object:
        train[col] = train[col].isnull()
        test[col] = test[col].isnull()
'''
对类别进行编码
'''

pred = cross_val_predict(
    DecisionTreeClassifier(),
    train.iloc[:, 2:].fillna(0),
    train['Label']
)
print(f1_score(train['Label'], pred))

'''
决策树结果：0.6698795180722891
'''

pred = cross_val_predict(
    RandomForestClassifier(),
    train.iloc[:, 2:].fillna(0),
    train['Label']
)
print(f1_score(train['Label'], pred))

'''
随机森林结果：0.7896995708154506
'''

model = RandomForestClassifier()
model.fit(train.iloc[:, 2:].fillna(0).values, train['Label'])
pred = model.predict(test.iloc[:, 1:].fillna(0).values, )
print(pred)

'''
选择随机森林为最终模型
'''

pd.DataFrame(
    {
        'uuid': test['uuid'],
        'Label': pred
    }
).to_csv('submit.csv', index=None)

第五步：提交结果

第六步：查看成绩

http://mp.weixin.qq.com/s?__biz=MzIyNDA1NjA1NQ==&mid=2651043541&idx=1&sn=cc16ac0cb5ff87675bdc091618c6bba4

组队学习

分享组队学习的点点滴滴，和学习者一起成长！

最新文章

一篇具身智能的最新全面综述！（上）

Openjudge1.8.10 矩阵转置

火了！一份AI领域的经典论文清单！

Openjudge1.11.07 和为给定数

2025 QS 亚洲大学排名公布！197所中国高校上榜！

Openjudge1.7.20 删除单词后缀

谷歌2024博士奖学金名单公布

Openjudge1.10.09 明明的随机数

微软 AI CEO 清华演讲全文（建议收藏）

Openjudge1.9.08 白细胞计数

导师：自己每天科研工作近10小时，都觉得不够。研究生们：每天工作不够5小时，拿什么去竞争？

Openjudge1.7.17 字符串判等

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

Openjudge1.11.10 河中跳房子

Openjudge1.8.07 矩阵归零消减序列和

线下百校联动，AI线下共学活动开放报名

组队学习首次开放许愿啦！下个月想学什么，听你的

Datawhale公益组，帮孩子找到兴趣和热爱

十一月组队学习来了！

《OPEN AI通识课》高校共学活动：开放报名！

《OPEN AI通识课》重磅发布！Datawhale 联合浙江大学智海 Mo 平台

又一外企巨头在中国裁员了

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

2025泰晤士世界大学排名公布！

深度｜李飞飞：我不知道什么是AGI

十月组队学习来了！🥳

国网河北省电力有限公司2025年高校毕业生提前批招聘校园宣讲计划安排

2024年CCF 科技创业大赛（TEC 2024）邀请函

特变电工2025校园招聘来了！

国家能源集团2025校园招聘来了！

组队竞赛：九月实验室编程竞赛计划与反馈要求

开学第一场组队学习来了！

【第61期】组队学习课程：Tiny-universe：手搓大模型

【第61期】组队学习课程：吃瓜教程

LSGO软件技术团队编程竞赛（八月赛）成绩汇报

航天工程大学人工智能信息处理课题组招博士

八月实验室编程竞赛计划与反馈要求

南大第一，北邮领先，AI 夏令营第四期正式报名！

LSGO软件技术团队编程竞赛（七月赛）成绩汇报

AI大神李沐回归B站了！

Datawhale优秀助教团队

真滴优秀！！！

7月实验室编程竞赛计划与反馈要求

提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！

Datawhale出品：《GLM-4 大模型部署微调教程》发布！

实验室编程竞赛（六月赛）成绩汇报

李开复：零一万物坚决做to C，坚决不做赔钱的to B

实验室数据科学竞赛计划与反馈要求

首届学生“包就业”！深圳理工大学600分以上可报

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉