符景洲,男,中共党员,清华大学软件学院2022级博士研究生。2024年暑期,他前往腾讯科技(深圳)有限公司,参与了“基于大语言模型的智能化数据分析平台”项目实践。在一个多月的社会实践中,符景洲充分发挥了自己扎实的学术和技术背景,迎难而上,承担了SQL语句跨数据库转换和优化的任务,最终成功搭建了SQL转换引擎,为数据库之间的高效转换提供了坚实的技术支持。同时,他积极融入企业文化,提升了沟通能力,展现了清华学子的专业素养和进取精神。
结合企业实际,确定研究目标
腾讯是一家庞大的互联网企业,部门众多,承担着不同的重要职能。近年来,随着大语言模型技术的发展,腾讯各部门也开始广泛地将大语言模型技术应用于实际业务中。本次前往腾讯实践基地的同学们,均参与了与大模型技术紧密相关的项目,接触大语言模型的前沿知识,并将其应用到实际的产品中。
符景洲所在的实践部门是平台与内容事业群大数据平台部的智能算法小组,参与了“基于大语言模型的智能化数据分析平台”项目。智能算法小组一方面聚焦于前沿的text2sql技术,提出了多种改进text2sql的方法与设计,相关成果已在人工智能顶会上发表。text2sql技术是一种将文本自动转换为SQL语句的技术,可用于优化数据分析流程。随着大语言模型的发展,现如今的text2sql技术结合大语言模型后,已经能够将较为复杂的自然语言直接转化为对应的SQL语句。在text2sql的加持下,用户可以用自然语言描述数据分析请求,通过text2sql引擎直接获得对应的SQL语句,无需再人工编写SQL语句。这一过程大大降低了数据分析的门槛和人工成本。
同时,除了对text2sql前沿技术的探索,智能算法小组还非常注重成果的转化和落地。他们与其他部门协同合作,开发了智能化数据分析平台olachat。使用者只需用文字描述自己的分析请求,olachat就会全自动地将文本转为SQL语句,在后台数据库中进行查询,并可视化地展示查询结果。olachat平台帮助用户更加便捷地获取各类分析信息,广受PCG部门员工的好评。
符景洲在博士期间一直从事关系型数据库中SQL语句生成的相关研究,对大语言模型技术也抱有浓厚的兴趣,与智能算法小组的研究方向非常契合。7月1日,他从清华大学来到深圳光启未来中心,正式开始了在腾讯为期六周的博士生实践。
办公室窗外的景色,处在41层
腾讯公司为每位实践同学安排了一位导师。符景洲的导师谭云志是智能算法小组的负责人,同样来自清华大学。初来乍到,导师向符景洲介绍了腾讯的企业文化,带他参观了办公场所,并具体介绍了智能算法小组所负责的业务。经过细致的探讨,导师认为可以基于符景洲已有的SQL技术背景,聚焦于SQL优化技术和SQL转换技术的研究,增强系统在SQL生成方面的性能和兼容性。符景洲围绕这两方面开始了深入研究。
聚焦SQL转换,攻克技术难题
对SQL转换技术的研究并非一帆风顺。SQL转换技术在数据分析中至关重要,由于不同数据库的SQL语法各不相同,直接生成的SQL语句可能无法在目标数据库中执行。为了解决这一问题,符景洲深入调研了学术界和工业界主流的SQL转换技术,并对这些工具的转换效果进行评估和测试。但他发现,这些工具只能支持公共的SQL语法和各数据库少部分独特语法的转换,大多数情况下无法很好地转换独特语法。例如,各数据库中的SQL函数往往有不同的函数名称或参数格式,现有工具无法完美处理。而SQL语句作为一个整体,只要其中一部分没有被成功转换,整个SQL语句就无法执行。这使得这些工具在实际场景下几乎无法使用。
符景洲意识到,要达到良好的SQL转换效果,就需要尽可能多地支持各数据库的独特语法。为此,他翻阅了数据库文档,整理并汇总了各数据库支持的SQL查询语法,并根据这些语法编写了相应的SQL生成器。进一步地,他搭建了一个语法测试框架,基于该生成器生成SQL语句并运行在其他数据库上,用来测试这些语法在各数据库上的支持情况。通过这套语法测试框架,符景洲发现了六款数据库产品的百余处语法差异,并将该测试框架与SQL转换工具结合使用,有效评估了各工具在不同数据库上的转换效果,最终确定了SQL转换引擎的技术路线。
在接下来的几个星期里,符景洲针对测试框架中发现的每一条语法差异,逐一编写相应的转换规则。每完成一条规则,他都通过测试框架进行验证,检查该规则的正确性。最终,符景洲实现了一个SQL转换引擎,能够在大部分场景下成功地将SQL语句转换为目标数据库的语法,并将在实际系统中部署上线。
小组中实习小伙伴们的合影
在实践过程中,符景洲深入体验了大型企业的协作模式与沟通方式,这与他在校内专注科研工作有很大不同。在腾讯团队中,他频繁参加项目讨论会、部门评审会,与其他团队成员共同对齐项目目标和任务颗粒度。这种高频的沟通模式让他一开始有些不适应,但随着时间的推移,他逐渐掌握了会议交流的要点,能够准确把握关键信息,与其他成员有效互动。通过不断锤炼,符景洲的沟通表达和团队协作能力得到了显著提升,为他未来的发展打下了坚实基础。
公司的茶水间
深入企业文化,实践中收获成长
在完成技术任务的同时,符景洲也深入体验了腾讯的企业文化。作为一家庞大的互联网企业,腾讯一直致力于将前沿技术应用于实际业务中,这使得符景洲有机会在腾讯了解到各项最新技术。在人文关怀方面,腾讯为实践同学提供了完善的福利保障和舒适的工作环境,使他能够在紧张的工作之余保持良好的状态。符景洲在这里结识了许多来自其他高校的实习生,大家在工位前互相讨论技术问题和解决方案,闲聊时分享各自的生活经历,还会一起参加腾讯丰富多彩的活动。这些都极大地丰富了他在腾讯的实践生活。
展厅参观留照
7月16日,符景洲和其他支队成员一起参观了公司的企业展厅与体验展厅,了解了腾讯在大数据、机器人、大语言模型等领域的突出成就。同时,腾讯还重点介绍了腾讯公益平台。腾讯公益平台与数字技术高度结合,在助力公益机构升级和提升全民公益服务方面贡献了巨大的力量。这体现了腾讯作为一家大型企业所承担的重要社会责任。在这段实践经历中,符景洲不仅提升了专业技能,还切实感受到科技企业的责任与担当,进一步坚定了通过技术创新服务社会的理想信念。
总结
短短六周的社会实践,让符景洲收获颇丰。他不仅深入探索了SQL跨数据库转换技术的前沿实践,为智能化数据分析平台的发展贡献了自己的力量;同时,他在项目协作、沟通表达等多方面得到了全面提升。这次实践经历为他的博士研究生涯增添了丰富的色彩,也让他在科技报国、服务社会的道路上更加坚定不移。未来,符景洲希望将更多的技术创新和实践经验融入到他的科研和工作中,用行动诠释清华学子的责任与担当。
编辑|丁宗康