真滴优秀!!!

科技   2024-07-28 11:30   河北  

 Datawhale干货 

分享:Datawhale优秀学习者


上周我们公布了第一期优秀学习者的名单。

评论区都刷满了“宾大非江哥哥 我的榜样”,“向非江哥哥对齐颗粒度,早日达成ai大神”,“数风流人物,还看非江”。

让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧!!

AI夏令营第三期报名地址👉:提供实习证明和奖学金!面向本科生、研究生的 AI 夏令营来了!

和优秀学习者们一起成长。


优秀学习者经验帖

01

王琳

(AI夏令营第一期 机器学习方向)
在本次夏令营学习过程中,我收获了以下学习经验,
1. 数据预处理的重要性:在项目开始时,数据预处理是非常关键的一步。通过这次实践,我深刻体会到清洗和处理数据的重要性。确保数据的完整性和一致性,可以为后续的特征工程和模型训练打下坚实的基础。
2.特征工程的技巧:有效的特征工程能够显著提升模型的表现。通过学习RDKit处理SMILES字符串,并结合TF-IDF进行向量化处理,我学会了如何从数据中提取更有用的信息,为模型提供更好的输入特征。
3.模型选择与评估方法:选择合适的模型和评估方法是机器学习项目成功的关键。在这次项目中,CatBoost模型展示了其在处理类别特征和非平衡数据方面的优势,而通过KFold交叉验证方法评估模型性能,可以确保模型的稳定性和泛化能力。
4.多次尝试与调试:在项目过程中,多次尝试不同的方法和参数是非常必要的。通过不断调试和优化代码,我不仅提高了代码的可读性和运行效率,还积累了大量的调试经验,增强了自己的编码能力。

笔记链接:https://kvvfq6pisy7.feishu.cn/docx/O0ubdNEC1oFpzkx34CXcVa0xnwe
实践赛事:https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_8Yoyn0

02

韩松良

AI夏令营第一期 大模型技术方向

作为一名旅游管理专业的研究生,尽管属于社科类,但在学习过程中,我意识到Python和大模型技术在现代研究中的重要性,因此参加了为期一周的大模型夏令营,希望提升自己的技术水平,特别是在智慧旅游和“旅游+”领域的应用。

随着课程的深入,我认识到数据处理在大模型应用中的关键作用。通过清洗和预处理数据,并设计合理的prompt,可以显著提升模型表现。数据质量和处理方法直接影响模型效果,这使我在今后的研究中将更加注重数据的整理和优化,以提高模型的准确性和可靠性。例如,在智慧景区管理中,实时数据的分析和处理可以帮助预测游客流量,优化景区资源配置;在旅游推荐系统中,清洗后的游客偏好数据可以提高推荐的精准度;在遗产保护方面,大模型可以帮助识别和分类文物信息,提供保护和修复建议。
在微调模型的过程中,我学到了个性化调整的重要性。通过微调,使模型更好地适应特定任务和数据,这是提升模型实际应用效果的关键。模型应用需要根据具体需求进行不断优化和调整,这对于旅游管理中的许多场景尤为重要,例如在不同景区或旅游季节,游客行为模式的差异需要模型相应调整以保持高效性和准确性。

03

邓一鑫

AI夏令营第一期 大模型技术方向

非常荣幸能和大佬们在一起学习大语言模型,我本身是景观设计行业的,这方面的经验可能很少,听完诺神和其他几位大佬的思路之后,我茅塞顿开,大概知道的解决思路。

就像多轮询问打分机制就可以规避姓名空值多的原因,再就是诺神提到的增强模型信息抽取能力一个微调办法。
而且我本身这种根据训练集的数据分布,让模型进行选择这个思路,对于模型的发展来说并不具有太大的意义,因为这种方法扼杀了模型的泛化能力,就像考试中的应试教育一样,所以应该尽量不要用这种方法去引导,总之就是,收获满满。

笔记链接:
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh(过分优秀)
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_8Yoyn0

04

陈馨远

AI夏令营第一期 机器学习方向

在跑通baseline之后,我尝试构建其他机器学习模型,以期提高准确率。起初,我也是一头雾水,模型的选择、参数调优问题等一系列亟待解决的问题。但通过上网搜集资料、与同学们交流学习,我逐个找到了解决问题的方法。我学习了很多之前未曾接触的机器学习算法和技术,如LightGBM、XGBoost等高效的梯度提升算法,CatBoost在处理分类特征方面的专长,RDKit在化学信息学领域的强大应用,TF-IDF在文本挖掘中的加权技术,以及交叉验证在模型评估中的重要性。这些知识不仅丰富了我的技术储备,也为我解决实际问题提供了学习方向。

笔记链接(甘肃政法大学有自己的笔记站!!!):
https://pvbszzjuhcv.feishu.cn/wiki/GBPwwr6m6iPe5Ake7ZAcuawWnlh
实践赛事:
https://challenge.xfyun.c
n/h5/detail?type=molecular-properties&ch=dw24_w24_8Yoyn0


第一期优秀学习者学习心得&思考

01

非江哥哥

AI夏令营第一期 大模型技术方向

大佬们关于比赛的细节和感想都在笔记里说的很清楚了。不过我个人背景比较偏research而不是工程,因此我想谈谈这个比赛对research的引领作用。”

------
做完这个比赛大家基本上都对Prompt Engineering和微调有一些思路了。我最近在写LLM的论文,也读了很多LLM的论文,这里来分享一下用做LLM+science应用科研的思路吧。大家之后可以结合自己的下游科学方向做一些应用研究,这种工作目前也是可以发论文(水论文)的。
比如用LLM+微调检测xxx、LLM+上下文学习+CoT/ToT检测xxx。需要注意的是单纯的Prompt Engineering已经研究的太多了,这种论文除非是非常新的领域,不然已经没有什么新意了。目前应用方面的论文主流还是在研究各种微调技术的应用,以及把LLM结合传统深度学习模型如GNN来做检测任务等等。
我做的是AI for Science方向,之前某个science方向没有人探索利用LLM做分类和检测,因此我就“抢占先机”用LLM做了这个方向。我第一篇论文发的是LLM+上下文学习,第二篇做的是微调,之后可以继续做LLM+GNN...
如果有人做science方向,也可以结合自己目前的研究方向思考一下能不能用LLM做。LLM很强大,传统机器学习的分类和检测基本上都能做,不过需要好好调教Prompt和微调,以及需要资金来调用GPT4接口...这个过程中还有许多可以玩的地方,比如如何选择示例,如何构造图信息,如何利用COT和ToT,如何把LLM和GNN等深度学习模型联合训练, 知识图谱+LLM....
最后,如果想做一些更高质量的工作,想要从LLM结构上做创新,就必须搞清楚LLM内部的原理,例如transformer和注意力机制内部的细节。很多厉害的工作都是在理解细节和原理的基础上才做出来的,比如用对比学习结合LLM,这也是我之后努力的方向。

总之,比赛是实践入门的好渠道,但如果想继续做一下好玩的工作,还需要多看看paper,多看看底层细节。datawhale的github上有很多资料,吴恩达的gpt课程也很精彩。我们下一个比赛再见。

笔记链接:

https://zhuanlan.zhihu.com/p/706778725

实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_8Yoyn0


02

张永刚

AI夏令营第一期 大模型技术方向

大家好,我是货拉拉拉不拉多,感谢Datawhale开源学习平台提供的AI夏令营学习机会,很荣幸能够成为优秀学习者。在这里,我不仅提升了自己的技术水平,还有十分丰富的学习体验

在这个学习过程中,我深刻体会到了个人学习与集体交流学习的巨大区别。个人学习时,尽管可以按照自己的节奏和兴趣深入钻研,但往往会因为缺乏分享和讨论的机会而获得较低的成就感,可能会消磨学习的兴趣和动力,最终就是从入门到放弃。而在Datawhale的学习平台上,通过与其他学员的交流与分享,我不仅能够获得更多的学习资源和方法,还能通过讨论和合作解决实际问题。这种互助和互动的学习方式,使得学习变得更加高效和有趣。同时,我还可以将自己的学习笔记与他人分享,也很高兴能够帮助其他学员更快地融入比赛和学习中,这让我感到非常有成就感和满足感。

特别是在这次比赛中,通过大模型微调的学习,尽管我们无法掌控Lora微调的过程,但是我发现优秀的数据观察能力也是十分重要,好的数据预处理和prompt构造对大模型微调也是十分重要的,这些经验都让我受益匪浅。大家的智慧和努力,使得这个学习过程充满了挑战和乐趣。

再次感谢Datawhale开源学习平台,感谢平台上各位老师和助教的耐心指导,以及各位同学们的积极交流和讨论。正是有了你们的帮助和支持,我才能在这个夏天收获如此多的知识。希望我们在未来的学习和工作中,能继续保持进步!

感谢大家!

笔记链接:http://t.csdnimg.cn/lD8YQ
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_8Yoyn0


03

张世斌

AI夏令营第一期 大模型技术方向

在这个令人难忘的夏令营活动中,我参与了群聊对话分角色要素提取的挑战比赛。这个比赛不仅是一次技术上的尝试,更是一次与众不同的学习体验。比赛开始前,我对这个主题只是略有耳闻,然而跟着Datawhale的大佬的指导,从最初的理论讲解到实际操作,每一步都是对知识的深入探索和应用。开始逐渐掌握如何识别和区分不同角色在对话中的语言特征,这其中既有技术上的挑战,也有理解上的深度思考。在这个过程中,与其他参赛者的交流和讨论,分享解决方案,互相学习和进步。每一次提交和评估都是对自己学习成果的检验,同时也是技术能力的展示和提升。比赛不仅带给我了技术上的收获和成就感,更重要的是让我体验到了与志同道合的人们一起努力、一起进步的喜悦。这种学习氛围和团队合作的精神,不仅激发了我的学习兴趣,也让我更深刻地理解到了知识的无限可能性和实践的重要性。回顾这次夏令营活动,我期待着将这些收获应用到更多的实际项目中,与更多志同道合的伙伴们一同追求卓越。

笔记链接:
https://d167yddq51j.feishu.cn/wiki/IfZMw7gcvimEn8k0CVoc9kQpntC
实践赛事
https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_8Yoyn0

04

李永胜

AI夏令营第一期 机器学习方向

大家晚上好,我是李永胜,很荣幸能评为优秀学员。说来惭愧,最初是在去年看到李沐老师和Datawhale共同组织学习《动手学深度学习》知道了Datawhale这个组织,但遗憾的是参与了几次活动,都是仅仅“适度体验”了一下。但在这个体验的过程中,不知不觉就了解了很多人工智能的知识,积累了一定的兴趣。后来ChatGPT3.5一发布,我第一时间就告诉了同学,但那时大家还不怎么感兴趣。再后来,当越来越多人使用AIGC工具,已经变为生产力工具了,这下不仅兴趣使然,而且也有必要学习这一工具了。

考上研究生后,有了时间便毫不犹豫参与到这次课程学习,想学习更多的知识。由于本科是电子信息,并不是计算机专业,很多知识都不系统,如果让我独立完成一个项目,那估计很难。但感谢Datawhale编写了详细的教程,可一键运行的代码,使得上手体验极度舒适。这几天的学到的知识中,首先是配置好了运行环境(VScode和anaconda),然后跟着代码学习,从安装各种包,再到机器学习的基本知识,数据处理,特征工程,模型建立调参等等,完整的体验了一遍机器学习项目的实现过程。这种保姆式的学习体验十分舒适,也不用太考虑得分啥的,十分有趣,更加激发了我对于AI的乐趣,真的很感谢大家!!!

最后再分享偶像李沐老师的一篇文章:https://www.bilibili.com/read/cv13335461,十分富有哲理。

笔记链接:

https://zhuanlan.zhihu.com/p/706952809
实践赛事:
https://challenge.xfyun.cn/h5/detail?type=molecular-properties&ch=dw24_8Yoyn0

-End-

「AI 夏令营只是一个开始」

「我们将在Datawhale一起成长」

Datawhale 优秀学习者名单公示!

提供实习证明和奖学金!
面向本科生、研究生的 AI 夏令营
(第三期)


组队学习
分享组队学习的点点滴滴,和学习者一起成长!
 最新文章