数据清洗,是检测和纠正不合理数据的过程。在大多数情况下,数据分析前都需要这个过程,将错误的、不准确的、缺失的以及多余的数据进行修改或删除。
存储格式不一致
数据不完整
存储形式不一致
存储位置不一致
lucas green - 415-234-9871 - 1520 Willow Road
emily ray : 607-120-5438 : 304 Birch Avenue
OSCAR WHITE , 202-555-0183 , 1337 Maple Drive
isla brown ; 818-555-1234 ; 2020 Oak Lane
theo moore : 909-555-4545 : 880 Cedar Path
AVA WILSON - 313-555-9072 - 167 Elm Street
mia king , 215-555-9801 , 322 Pine Street
noah lee ; 312-555-6611 ; 410 Birch Boulevard
lily johnson - 415-555-2671 - 518 Juniper Way
JACK TAYLOR : 202-555-0164 : 729 Spruce Lane
sophia martinez - 909-555-5454 - 488 Redwood Circle
ETHAN DAVIS , 606-555-3141 , 1050 Oak Avenue
charlotte smith ; 707-555-5962 ; 191 Maple Parkway
oliver jones : 530-555-8787 : 855 Cedar Street
amelia young - 202-555-0198 - 176 Pine Drive
BENJAMIN CLARK , 213-555-6007 , 132 Elm Lane
zoe anderson ; 408-555-5270 ; 980 Birch Road
harry roberts - 202-555-0143 - 633 Juniper Street
LUCY LEWIS : 505-555-6679 : 215 Spruce Avenue
logan martin - 404-555-4545 - 1120 Willow Lane
emma thompson , 312-555-9800 , 470 Oak Street
LIAM SCOTT ; 213-555-9876 ; 630 Birch Lane
grace hall : 505-555-3245 : 325 Cedar Boulevard
jacob wright - 202-555-0171 - 1220 Maple Drive
VICTORIA ADAMS , 408-555-1337 , 221 Elm Road
james baker ; 312-555-7891 ; 105 Birch Path
isabella carter : 415-555-3141 : 440 Juniper Way
SAMUEL MILLER - 202-555-0190 - 640 Spruce Lane
madison gonzalez , 909-555-1239 , 970 Redwood Circle
joshua perez ; 707-555-2814 ; 108 Oak Avenue
任务描述: 标准化客户名称的字符大小写。
示例输入:
- JOHN SMITH
- jane Doe
- michael johnson
期望输出:
- John Smith
- Jane Doe
- Michael Johnson
详细说明: 你是数据分析专家,将输入的客户名称转换为首字母大写格式,即每个单词的首字母大写,其余字母小写。请注意,客户名称可能全大写或全小写,或者混合大小写,并且可能包括多个单词。同时,请保持联系信息的格式不变。编写代码后,需要对原始数据进行处理,并展示结果来进行验证。
上面的提示词中,我用到了三个技巧,即 One-shot 提示、YAML 格式、强调格式不变和验证。我来分别讲讲使用这些技巧的好处。
One-shot 学习相当于给 ChatGPT 一个例子,把任务说明、示例输入输出以及要处理的数据全部放在提示中。模型能够从示例中学习到标准化大小写的规则,并生成正确的输出。
你发现了没?我给 ChatGPT 的提示词是有一定的缩进的,它是符合 YAML 语法的文本内容。类似的格式能够让 ChatGPT 更容易理解你的结构化表达。当然你可以使用类似的格式,而不用完全遵守 YAML 语法,毕竟分析语法的 ChatGPT 会自动“纠正”不规范的语法的。
你也可以试着输入一些提示词,让 ChatGPT 为你转换成 YAML 格式。你来对比一下,会非常明显地发现,在理解上,它对这些规范格式的提示词比纯粹的自然语言要更准确。
另外一个提示词内容上的技巧,就是强调格式不变和验证。清楚地定义期望结果,往往是你对 AI 开始工作前最容易忽略的一件事情。特别要确保大模型能够对你的工作有统一的理解。所以,我特意在详细说明部分,增加了“格式不变”、“展示结果”、“进行验证”,确保能准确地输出你想要的结果。
通过上面的提示词,我们拿到了第一个案例的执行结果,如图所示:
演示数据:
姓名,年龄,身高,体重
"John Doe, 28, 5'11", 150lbs"
"Jane Smith, 32, 162cm, 55kg"
"Mike Brown, 45, 1.68m, 70kg"
"Lisa Ray, 30, 6'0", 135lbs"
"Tom Lee, 33, 170cm, 68kg"
"Lucy Black, 29, 1.75m, 65kg"
"Sam Wilson, 24, 5'3", 120lbs"
"Anna White, 41, 190cm, 80kg"
"David Green, 35, 1.90m, 90kg"
"Karen Hill, 27, 6'2", 160lbs"
...
该输出有效地处理各种格式的输入数据,正确分离名称和联系信息,并将客户名称转换为首字母大写的格式。
以往进行数据清洗的「脏活累活」都可以让 GPT 帮我们完成。而那些需要但个人不擅长的统计学模型、程序代码,也可以让 GPT 来编写,我们结合业务来进行验证。关于更多 AI 数据分析的内容,推荐大家看看尹会生近期在极客时间开设的《AI 数据分析课》。
我对这块一直挺感兴趣的,而且之前看过极客时间的课程,内容都不错,所以一上线就入手了,上面这个案例也来自本课程。
这门课适合所有想掌握数据分析能力的人,不限你所在的岗位,不论是分析师还是运营、财务、销售等,或者你还在上学,只要你有大量数据需要处理,你想透过数据拿到深刻洞察进而辅助高质量决策,那么,这门课程都能帮到你,让你能够快速掌握 AI 数据分析的能力。
如果你是极客时间新用户,仅需¥59
课程会带我们深入了解 AIGC 在数据分析中的运用,学会利用大模型掌握数据分析的方方面面,包括但不限于:数据清洗预处理、探索性分析、预测建模、报告自动化、决策支持等,让你在降低学习门槛的同时,全面提升数据分析素养。
除了课程设计扎实之外课程讲师「尹会生」也是内容质量的保证,他是当之无愧的 AI 实践者与内容创作者。目前担任珠海太乙人工智能技术的合伙人 。曾在金山、新浪等知名企业服务。近两年专注于人工智能产品研发与落地。已推出多款商用产品,覆盖露天矿区无人驾驶、智能零售、工业控制等领域。
同时,他也是《零基础学 Python》《2023 年 AIGC 行动营》《Python 自动化办公实战课》等热门课程的作者,累计学习人数超过 14 万人!
课程结合 AIGC 和数据分析,会带大家找到人工智能自动化和人类专业知识之间的平衡点。AIGC 可以大大提高数据分析的效率和范围,但它的输出应该由数据分析师或领域专家进行验证和解释,以确保分析结果的准确性和可行性。
今天也给大家申请到了特别福利
原价 ¥129,限时特惠 ¥90
识别下图二维码直达
AI 正在改变我们的工作方式,提升工作效率,甚至重新定义职场规则。
所以,这不仅是一门课程,更是一张通往未来职场的通行证。
来跟我一起,开启 AI 数据分析的新篇章,让你在职场上游刃有余,领先一步。