Parsing CSV Files in C++20

教育科技 2023-11-29 23:53 美国

开窗见月，霜天悄然，欲更小文，以为消遣。

本篇以解析 CSV 为例，再谈 C++20 的使用。网上方法，颇为陈旧，看新方式何以优雅实现。

开始之前，定义为先：

Comma-separated values (CSV) is a text file format that uses commas to separate values. A CSV file stores tabular data (numbers and text) in plain text, where each line of the file typically represents one data record. Each record consists of the same number of fields, and these are separated by commas in the CSV file. If the field delimiter itself may appear within a field, fields can be surrounded with quotation marks.

CSV 文件是以逗号分隔数据的一种文本格式，每行表示一个数据记录，列数一致。机器学习中的许多数据集便是此种格式，解析工作，相当常见。

本文便以一真实数据集为例，进行演示。数据集地址为https://www.kaggle.com/datasets/michaelbryantds/cpu-and-gpu-product-data/ ，其中部分内容展示如下图。

该芯片数据集，含 2185 条 CPU 数据和 2668 条 GPU 数据。

数据既定，接下来便且书且析。

首先，确定输入与输出，写出函数原型。

 1using dataset_sequence_type = std::vector<std::vector<std::string>>;
 2
 3auto read_csv(std::string_view file, std::string_view type = "", std::string_view delimiter = ",")
 4    -> std::optional<dataset_sequence_type>
 5{
 6    std::ifstream data_file(file.data());
 7    if (!data_file.is_open())
 8        return {};
 9
10    // do parsing
11
12    data_file.close();
13}

三个输入参数分别表示数据集文件路径、筛选类型（CPU or GPU）和分隔符，后二者皆为可选参数。

返回值采用 std::optional，便于检测结果的有效性，实现返回值为 std::vector 构成的动态二维数组，一条记录占一行，每个元素占一列。

其次，逐行读取文件，依分隔符拆分数据。

 1using dataset_sequence_type = std::vector<std::vector<std::string>>;
 2
 3auto read_csv(std::string_view file, std::string_view type = "", std::string_view delimiter = ",")
 4    -> std::optional<dataset_sequence_type>
 5{
 6    std::ifstream data_file(file.data());
 7    if (!data_file.is_open())
 8        return {};
 9
10    // do parsing
11    std::string line;
12    dataset_sequence_type result;
13    std::getline(data_file, line); // skip the title
14    while (std::getline(data_file, line)) {
15        auto tokens = line
16                    | std::views::split(delimiter)
17                    | std::views::transform([](auto&& token) {
18                        return std::string_view(&*token.begin(), std::ranges::distance(token));
19                    });
20
21        // oher work
22    }
23
24    data_file.close();
25}

表头为数据描述信息，是以弃之。

解析工作，乃 Views 拿手好戏，由 std::views::split 和 std::views::transform 轻松拿下。因 split_ivew 里面的值类型为 ranges::subrange，这里借助 transform 将其转换为 string_view。

至此，已实现殆半。余下难题主要在于过滤与保存，若无需过滤，type 参数便可弃去，问题顿消。

 1// ...
 2
 3auto read_csv(std::string_view file, std::string_view type = "", std::string_view delimiter = ",")
 4    -> std::optional<dataset_sequence_type>
 5{
 6    // ...
 7    while (std::getline(data_file, line)) {
 8        auto tokens = line
 9                    | std::views::split(delimiter)
10                    | std::views::transform([](auto&& token) {
11                        return std::string_view(&*token.begin(), std::ranges::distance(token));
12                    });
13
14        // oher work
15        result.push_back(dataset_sequence_type::value_type(tokens.begin(), tokens.end()));
16    }
17
18    // ...
19
20    return result;
21}

若是过滤，将所有 Views 转换成 std::vector，些许始建即弃，未免浪费。于是先筛后存。type 为数据集第二列，然而 transform_view 并不支持随机访问，你无法像 vector 那般以便下标直接访问某列元素。

对此问题，最简之法是借助 std::advance，它可以控制迭代器前进。

 1// ...
 2
 3auto read_csv(std::string_view file, std::string_view type = "", std::string_view delimiter = ",")
 4    -> std::optional<dataset_sequence_type>
 5{
 6    // ...
 7    while (std::getline(data_file, line)) {
 8        auto tokens = line
 9                    | std::views::split(delimiter)
10                    | std::views::transform([](auto&& token) {
11                        return std::string_view(&*token.begin(), std::ranges::distance(token));
12                    });
13
14        // filter
15        auto it = std::ranges::begin(tokens);
16        std::ranges::advance(it, 2);
17        if (type.empty() || *it == type) {
18            // save all records or filtered records.
19            result.push_back(dataset_sequence_type::value_type(tokens.begin(), tokens.end()));
20        }
21    }
22
23    // ...
24
25    return result;
26}

最后，你可能还想对 read_csv() 添加 constexpr，只惜 std::ifstream 当前并不支持编译期，无法实现。那是否存在其他方式呢？暂不作表，暇日续究。

该实现具有通用性（去除过滤，或将过滤以 lambda 抽象出来，则可更加通用），完整代码及使用示例：

 1using dataset_sequence_type = std::vector<std::vector<std::string>>;
 2
 3auto read_chip_dataset(std::string_view file, std::string_view type, std::string_view delimiter)
 4    -> std::optional<dataset_sequence_type>
 5{
 6    std::ifstream data_file(file.data());
 7    if (!data_file.is_open()) {
 8        return {};
 9    }
10
11    std::string line;
12    std::getline(data_file, line); // skip the title
13    dataset_sequence_type result;
14    while (std::getline(data_file, line)) {
15        auto tokens = line
16                    | std::views::split(delimiter)
17                    | std::views::transform([](auto&& token) {
18                        return std::string_view(&*token.begin(), std::ranges::distance(token));
19                    });
20
21        auto it = std::ranges::begin(tokens);
22        std::ranges::advance(it, 2);
23        if (type.empty() || *it == type) {
24            // save all records or filtered records.
25            result.push_back(dataset_sequence_type::value_type(tokens.begin(), tokens.end()));
26        }
27    }
28
29    data_file.close();
30
31    return result;
32}
33
34int main() {
35    // 加载数据集
36    auto chip = read_chip_dataset("./datasets/chip_dataset.csv", "CPU");
37    if (chip) {
38        std::ranges::for_each(chip.value(), [](const dataset_sequence_type::value_type& cpu) {
39            fmt::print("{}\n", cpu);
40        });
41    }
42}

众多方法，于斯为巧，寥寥数行，便实现了需求。

http://mp.weixin.qq.com/s?__biz=MzUxOTQ4NjIzNw==&mid=2247488351&idx=1&sn=22a80235d1a2c65fa3b219342d387e6f

CppMore

Dive deep into the C++ core, and discover more!

最新文章

《产生式元编程》第七章巧活用折叠表达式

《产生式元编程》第六章感今朝妙艺几人知

《产生式元编程》第五章忆昔年模板三两事

C++20 std::format 替换 fmtlib 的关键点

《产生式元编程》第四章封装合并框架顿立

Lambda, bind(front), std::function, Function Pointer Benchmarks

使用 C++20 安全地比较不同类型的整型值

Normal OR Rules for Reference Bindings

觉者和修者，知与行本是一体

Configuring Transitive Dependencies with Modern CMake

Mastering Placeholder Type Deduction

Left-to-Right vs. Right-to-Left Coding Styles

C++26's Placeholder variables with no name

C++26 Pack Indexing

Reflection for C++26

The Second Edition is Done

癸卯小记

std:: versus ::std::

借助 ChatGPT 快速实现一个轻量级的控制台进度条库

Memory Reallocation when Parsing CSV Files

Parsing CSV Files in C++20

《产生式元编程》第三章替换蓝染概念纤悉

Modern C++ 23 秋开放入口，如期而至

一波书单，高薪有望

"+" 的几个使用小技巧，你了解吗

《产生式元编程》第二章自复用代码生成技

《产生式元编程》第一章宏编程计数引原理

C++98-26：元编程之编译期拆解技术

编译期消息分发，两点补充说明

编译期消息分发？C++20 已能优雅实现！

Monads in Modern C++, What, Why, and How

std::exchange 的原理及应用

An In-depth Look at C++ Keyword: static

重载决议中的合并问题补充

The Book is Done!

Modern C++ 23春开放入口

Technique: Take a constexpr string from Compile Time to Run Time

Comprehensive C++ String-to-Int Conversion Benchmarks(C89-C++23)

Overview of C++23 Features

2023，新的变化，新的开始

5种方式初始化String成员，怎样选择？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉