AI 对数据工程师的影响

文摘   科技   2023-05-21 10:56   广东  

最近一直在思考目前的 chatgpt 对于数据工程师的影响。见识很少,仅供参考。

首先承认的是,chatgpt在写小块代码,例如一个函数或者说几十行代码这个级别,无与伦比的理解能力和准确性。但是在深入使用的过程中,遇到的最大问题是,chatgpt 在没有足够的知识背景的情况下,是很难解决你所提出的问题的,它给出的方案是通用性质的,甚至是模糊的。甚至如果面对一个业务上的困难,没有办法去分解问题,给出足够的知识背景,chatgpt的表现是不尽如人意的。

那么chatgpt 对于数据工程师的影响在于什么地方呢?首先以自己为例,分析自己掌握的技能:

  • • 编程语言:最熟悉的当然是写 SQL,其次熟练掌握 Python 语言,可以使用 Scala 和 Java 语言。

  • • 数据库:熟悉使用Oracle、MySQL等关系型数据库,解决各类 SQL 性能问题

  • • 数据平台:对于整个大数据生态系统都有一定的了解,知道每一种组件的优劣和最佳应用场景,可以根据业务需求合理选型组件满足不同的业务场景。

  • • 应用:可以从零开始完成数据管理系统、数据可视化和调度系统的建成

  • • 非技术方面:将业务需求翻译成技术问题

对于第一个编程语言,我是自认为不如 chatgpt 生成的代码的,在很多情况下,通过简单的调试,chatgpt 写的代码几乎是最优解。就像之前说的那样,要完成一个完整的项目不仅仅只有代码,还需要完成各部分代码之间的配合,chatgpt 在没有完整上下文的情况,需要开发者自己去分解需求,丢给 chatgpt 完成。

数据库层面的话,考虑到数据安全的情况,我们往往不会给出原本的SQL让chatgpt分析,而是经过脱敏处理的,经过这一层处理后,chatgpt也是因为没有完整的上下文,给出的答案不尽如人意,但是它尝试的方向往往能给我解决问题的思路。不过这一块,我看这篇文章《数据库领域的大语言模型应用时代已经开启了》 的思路,很期待能看到相关的应用。

不过数据库是和数据密切相关的,其安全性要求决定了公有云部署的大语言模型很难直接应用于数据库运维,只能在外网作为一个知识工具使用。而真正最需要大语言模型能力的数据库运维场景是在内网,必须将大语言模型与数据库监控运维工具相结合,才能发挥出其最大的作用。

数据平台和应用这块完全是 chatgpt 的劣势了,无论怎么尝试,chatgpt 都不能给出满意的回答,也没有看到有相关的文章给出好的思路,目前来看,是无法替代的。如果读者有相关的尝试,可以在留言分享。

非技术方面不讨论了,因为 chatgpt 的存在,可能原有的沟通模式会被彻底颠覆,暂时先不讨论了。

综上所述,chatgpt 等大模型在未来的发展方向,可能是“一个通用模型+私有数据定制化”的模式才有可能对程序员造成相当大的影响,就目前而言,chatgpt 等大模型能大大提高程序员的开发效率,但是还影响不了其它的工作。倘若在未来,chatgpt 等大模型真的能容纳各行各条的私有数据,也许真的就没有程序员这个职业了,甚至除了程序员以外的所有职业都要慎重。

鸿的笔记
一个程序猿的读书笔记,与你分享好书、好文章和新鲜的观念。期待碰上有趣的你。