活动回顾 | DSA学域举办本科生科研项目进展分享会

文摘   2024-07-18 10:01   广东  

DSA UGRP 2024 

Progress Report Meeting





7月15日,DSA学域举办了一场本科生科研项目进展分享会,旨在促进同学之间的学术交流。此次活动共有13位本科生分别在线上和线下分享了自己在科研项目中的具体工作、遇到的挑战以及取得的初步成果。


UG Research Progress Reports

本科生:姜亭伊


项目名称:Research on Data Issues about Computational Pathology Foundation Models

指导教授:陈雷

姜亭伊同学探讨了计算病理学基础模型中的数据问题。她介绍了当前计算病理模型在时间和成本方面的挑战,并说明了少样本学习在数据稀缺情况下的重要性。姜亭伊分享了她在研究过程中遇到的挑战和从中学到的经验,包括独立解决问题和利用AI工具的能力。接下来,她计划更换数据集、优化模型和算法,并深入了解少样本学习的方法。

本科生:任发申


项目名称:Build your own transformer step by step - A Dive into GPU and LLMs

指导教授:骆昱宇

任发申同学的暑期任务是研究Transformer模型。他对比了使用PyTorch和CuPy实现的Transformer模型在训练效率上的差异。他接着描述了使用预训练的GloVe模型进行词嵌入,展示了PyTorch和CuPy模型的核心代码和训练过程,在训练精度和损失方面进行了比较分析。他准备从CUDA角度进一步优化代码,提升模型性能。

本科生:董佳鑫


项目名称:Semantic Programming with Large Language Models

指导教授:王炜


董佳鑫同学的研究集中在DSPy框架,用于优化大型语言模型的提示和权重。他介绍了DSPy在提高模型可靠性和质量方面的潜力,接着展示了如何在DSPy中编写和优化RAG和多跳问题回答程序。董佳鑫提到面临的挑战,包括优化结果不理想和模块功能不完善的问题。他计划创建新类和优化器,以改进DSPy的性能和输出质量。

本科生:钟嘉宸


项目名称:Self-maintenance RAG Chatbot Framework

指导教授:陈雷


钟嘉宸同学探讨了RAG聊天机器人中的数据更新问题。他回顾了相关文献,并思考了数据更新的方法,包括部署本地数据库和模型,进行本地数据实验。钟嘉宸提到在部署过程中遇到的主要困难是学校API响应与标准不符,并最终通过使用不同的API解决了这一问题。他计划将更新程序应用于框架,并进行进一步的测试和调整,以优化系统性能。

左右滑动查看更多

本科生:黄烨华

项目名称:Dangerous Driving Behavior Detection using Large Multi-Modal Models: An Evaluation

指导教授:褚晓文


黄烨华同学介绍了他使用大型语言模型和大型视觉语言模型来分析不同驾驶场景的研究进展。他的研究主要聚焦于通过整合外部信息来提高文本生成的技术,以增强交通场景中的通用感知、区域识别和驾驶建议。他解释了他们的数据集和测试方法,讨论了在不同模型下的表现和改进方法。他还提到了一些挑战,如识别准确率低和数据集不足,并计划通过使用更大的模型和优化策略来提高性能。


本科生:苏骏航

项目名称:Memory Efficient Large Language Model Serving

指导教授:文泽忆



苏骏航同学分享的研究项目主题是资源高效的大型语言模型微调。他介绍了在导师指导下完成的工作,包括文献阅读、环境配置和矩阵分解等复杂任务。通过使用ChatGPT解释术语概念、使用Torch的SVD函数进行矩阵分解等方法,他逐步解决了过程中遇到的问题。目前,他对深度学习和大型语言模型的结构有了初步理解,学会了环境配置和问题解决的技巧,并对掩码微调的过程有了更深入的认识。


本科生:孙郅程

项目名称:Blockchain-Powered Solution for Cross-Border High-Performance Computing Transactions

指导教授:唐靖

孙郅程同学的科研项目主题是基于区块链的跨境高性能计算(HPC)交易解决方案。他首先介绍了区块链技术在数据隐私、资源分配效率和透明度方面的优势。随后分享了科研学习进度,包括学习了区块链基础知识及其应用,掌握了Solidity语言并编写了一些智能合约,以及在单节点和多节点的FISCO-BCOS上区块链上部署合约。他计划构建一个更具可扩展性的多节点区块链,并开发智能合约,实现HPC数据的安全交易。

本科生:康祖婷

项目名称:Defending Jailbreak Attacks Against Large Language Models

指导教授:何新磊


康祖婷同学分享的内容围绕使用BitDelta增强大型语言模型防御越狱攻击的能力。越狱攻击通过设计恶意输入来欺骗LLM生成有害或禁止的内容,从而绕过模型内置的安全措施。她回顾了过去的工作,测试了一些攻击方法,如Easyjailbreak、BEAST等,并评估了这些攻击的成功率。当前,她的研究重点是利用LoRA和BitDelta技术来强化模型防御,并计划进一步测试和改进这些防御策略,以提升模型的安全性和性能。

左右滑动查看更多

本科生:王国润

项目名称:Retrieval-Augmented Language Model for Academic Discovery

指导教授:褚晓文


王国润同学的科研主要聚焦于如何利用框架来帮助研究人员更好地总结论文内容。他介绍了自己的框架结构,通过使用OCR将PDF转换为Markdown格式,并通过API调用生成论文摘要的功能。他展示了框架的工作过程和测试结果,说明了如何处理PDF输入并生成摘要,还提到了未来的计划,包括尝试新的写作风格和将结果与社交媒体应用连接,以扩展框架的影响力。



本科生:陈志屹

项目名称:Efficient Hyper-parameter Optimization

指导教授:文泽忆



陈志屹同学介绍了他目前在资源高效的大型语言模型微调和部署方面的工作,包括文献学习和模型部署,掌握了学习率、正则化、激活函数及优化算法等深度学习基础知识,以及网格搜索、随机搜索和贝叶斯优化等超参数搜索方法。接着,他分享了在模型部署过程中遇到的环境配置问题,并展示了模型在本地运行的效果。他计划继续研究模型的再训练和参数微调,以进一步提升模型性能。


本科生:王智渊

项目名称:Decipher 3D genome conformation with massive data and large genome models

指导教授:张延林


王智渊同学介绍了他的研究主题,即利用大规模数据和大基因组模型解读3D基因组构象。他强调了三维构象确认的复杂性,并介绍了利用高通量实验数据训练模型的方法。目前,他的任务是优化和调试模型,以提高其准确性和效率。接下来的研究重点将放在通过解释性机器学习方法确定基因组中起关键作用的部分,,这在基因编辑和医学研究中具有重要意义。



本科生:余文哲

项目名称:The Allure of Coin Flips: Randomized Algorithms for Large-scale Social Influence Analysis

指导教授:唐靖


余文哲同学的科研集中在利用随机算法分析大规模社交网络中的影响力扩散。他首先介绍了两种影响扩散模型:IC模型和LT模型。他的研究主要集中在IC模型上,目标是通过随机算法和贪婪算法来估计最大化影响力的节点集合。余文哲还探讨了影响力最大化问题的优化方法,并介绍了如何通过简化算法和改进算法来提高效率。他提到了一些当前遇到的困难,并计划继续深入研究相关知识和改进算法。


本科生:何家睿

项目名称:Integrating DNA sequence and structure information to improve chromatin loop detection

指导教授:张延林

何家睿同学的分享内容主要关于染色质环路的预测。他介绍了染色质环的结构特征,并利用Hi-C交互热图来分析基因组序列的空间结构。他展示了使用神经网络模型对数据集进行训练和测试的结果,以及用DNA大模型帮助分析DNA序列以提高预测准确度。何家睿提到了模型优化过程中面临的数据集大小、参数调优和过拟合等问题,并介绍了所选分析工具和模型的优势,以及进一步优化数据处理和预测精度的计划。

左右滑动查看更多


王炜 教授

最后,DSA学域王炜教授感谢了所有学生分享他们的进展和面临的挑战。他指出,尽管大家研究的问题各不相同,但有一些共同点。每位学生都进入了新的研究领域,无论是环境搭建还是文献阅读,都会遇到许多新术语和知识。对于使用GPT等工具获取信息,他提醒大家要保持批判性思维,因为这些工具可能会给出部分错误的答案。此外,他建议学生使用Linux系统以简化软件环境的配置,并鼓励他们通过阅读和总结相关论坛的解决方案来提高解决问题的能力。


最后,他鼓励学生养成记录新想法和实验结果的习惯,并建议学生定期与导师沟通,这对未来的研究工作非常有益。





此次分享会不仅为同学们提供了一个展示自我的平台,也促进了彼此之间的学术交流与合作。感谢所有学生的积极参与,也感谢各位教授和助教的指导和支持。我们期待大家在未来的工作中继续取得更多突破和进展。


关注了解更多数据科学与分析学域资讯

官网:http://dsa.hkust-gz.edu.cn/

邮箱:dsat@hkust-gz.edu

知乎:数据科学与分析学域HKUST(GZ)

小红书:港科广 | 数据科学与分析


港科大广州 I 数据科学与分析
香港科技大学(广州)信息枢纽数据科学与分析学域官方公众平台 Data Science and Analytics Thrust-Information Hub- HKUST(GZ)
 最新文章