13 秒插入 30 万条数据，批量插入正确的姿势！

科技 2024-04-18 08:40 浙江

转自：网络

本文主要讲述通过MyBatis、JDBC等做大数据量数据插入的案例和结果。

30万条数据插入插入数据库验证

实体类、mapper和配置文件定义

User实体
mapper接口
mapper.xml文件
jdbc.properties
sqlMapConfig.xml
不分批次直接梭哈
循环逐条插入
MyBatis实现插入30万条数据
JDBC实现插入30万条数据
总结

验证的数据库表结构如下：

CREATE TABLE `t_user` (  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户id',  `username` varchar(64) DEFAULT NULL COMMENT '用户名称',  `age` int(4) DEFAULT NULL COMMENT '年龄',  PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户信息表';

话不多说，开整！

实体类、mapper和配置文件定义

User实体

/** * <p>用户实体</p> * * @Author zjq * @Date 2021/8/3 */@Datapublic class User {    private int id;    private String username;    private int age;}

mapper接口

public interface UserMapper {    /**     * 批量插入用户     * @param userList     */    void batchInsertUser(@Param("list") List<User> userList);}

mapper.xml文件

    <!-- 批量插入用户信息 -->    <insert id="batchInsertUser" parameterType="java.util.List">        insert into t_user(username,age) values        <foreach collection="list" item="item" index="index" separator=",">            (            #{item.username},            #{item.age}            )        </foreach>    </insert>

jdbc.properties

jdbc.driver=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql://localhost:3306/testjdbc.username=rootjdbc.password=root

sqlMapConfig.xml

<?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configuration>    <!--通过properties标签加载外部properties文件-->    <properties resource="jdbc.properties"></properties>    <!--自定义别名-->    <typeAliases>        <typeAlias type="com.zjq.domain.User" alias="user"></typeAlias>    </typeAliases>    <!--数据源环境-->    <environments default="developement">        <environment id="developement">            <transactionManager type="JDBC"></transactionManager>            <dataSource type="POOLED">                <property name="driver" value="${jdbc.driver}"/>                <property name="url" value="${jdbc.url}"/>                <property name="username" value="${jdbc.username}"/>                <property name="password" value="${jdbc.password}"/>            </dataSource>        </environment>    </environments>    <!--加载映射文件-->    <mappers>        <mapper resource="com/zjq/mapper/UserMapper.xml"></mapper>    </mappers></configuration>

不分批次直接梭哈

MyBatis直接一次性批量插入30万条，代码如下：

    @Test    public void testBatchInsertUser() throws IOException {        InputStream resourceAsStream =                Resources.getResourceAsStream("sqlMapConfig.xml");        SqlSessionFactory sqlSessionFactory = new SqlSessionFactoryBuilder().build(resourceAsStream);        SqlSession session = sqlSessionFactory.openSession();        System.out.println("===== 开始插入数据 =====");        long startTime = System.currentTimeMillis();        try {            List<User> userList = new ArrayList<>();            for (int i = 1; i <= 300000; i++) {                User user = new User();                user.setId(i);                user.setUsername("共饮一杯无 " + i);                user.setAge((int) (Math.random() * 100));                userList.add(user);            }            session.insert("batchInsertUser", userList); // 最后插入剩余的数据            session.commit();            long spendTime = System.currentTimeMillis()-startTime;            System.out.println("成功插入 30 万条数据,耗时："+spendTime+"毫秒");        } finally {            session.close();        }    }

可以看到控制台输出：

Cause: com.mysql.jdbc.PacketTooBigException: Packet for query is too large (27759038 >yun 4194304). You can change this value on the server by setting the max_allowed_packet’ variable.

超出最大数据包限制了，可以通过调整max_allowed_packet限制来提高可以传输的内容，不过由于30万条数据超出太多，这个不可取，梭哈看来是不行了 😅😅😅

既然梭哈不行那我们就一条一条循环着插入行不行呢

循环逐条插入

mapper接口和mapper文件中新增单个用户新增的内容如下:

    /**     * 新增单个用户     * @param user     */    void insertUser(User user);

    <!-- 新增用户信息 -->    <insert id="insertUser" parameterType="user">        insert into t_user(username,age) values            (            #{username},            #{age}            )    </insert>

调整执行代码如下：

    @Test    public void testCirculateInsertUser() throws IOException {        InputStream resourceAsStream =                Resources.getResourceAsStream("sqlMapConfig.xml");        SqlSessionFactory sqlSessionFactory = new SqlSessionFactoryBuilder().build(resourceAsStream);        SqlSession session = sqlSessionFactory.openSession();        System.out.println("===== 开始插入数据 =====");        long startTime = System.currentTimeMillis();        try {            for (int i = 1; i <= 300000; i++) {                User user = new User();                user.setId(i);                user.setUsername("共饮一杯无 " + i);                user.setAge((int) (Math.random() * 100));                // 一条一条新增                session.insert("insertUser", user);                session.commit();            }            long spendTime = System.currentTimeMillis()-startTime;            System.out.println("成功插入 30 万条数据,耗时："+spendTime+"毫秒");        } finally {            session.close();        }    }

执行后可以发现磁盘IO占比飙升，一直处于高位。

等啊等等啊等，好久还没执行完

先不管他了太慢了先搞其他的，等会再来看看结果吧。

two thousand year later …

控制台输出如下：

总共执行了14909367毫秒，换算出来是4小时八分钟。太慢了。。

👇👇👇还是优化下之前的批处理方案吧

# MyBatis实现插入30万条数据

先清理表数据，然后优化批处理执行插入：

-- 清空用户表TRUNCATE table  t_user;

以下是通过 MyBatis 实现 30 万条数据插入代码实现：

    /**     * 分批次批量插入     * @throws IOException     */    @Test    public void testBatchInsertUser() throws IOException {        InputStream resourceAsStream =                Resources.getResourceAsStream("sqlMapConfig.xml");        SqlSessionFactory sqlSessionFactory = new SqlSessionFactoryBuilder().build(resourceAsStream);        SqlSession session = sqlSessionFactory.openSession();        System.out.println("===== 开始插入数据 =====");        long startTime = System.currentTimeMillis();        int waitTime = 10;        try {            List<User> userList = new ArrayList<>();            for (int i = 1; i <= 300000; i++) {                User user = new User();                user.setId(i);                user.setUsername("共饮一杯无 " + i);                user.setAge((int) (Math.random() * 100));                userList.add(user);                if (i % 1000 == 0) {                    session.insert("batchInsertUser", userList);                    // 每 1000 条数据提交一次事务                    session.commit();                    userList.clear();                    // 等待一段时间                    Thread.sleep(waitTime * 1000);                }            }            // 最后插入剩余的数据            if(!CollectionUtils.isEmpty(userList)) {                session.insert("batchInsertUser", userList);                session.commit();            }            long spendTime = System.currentTimeMillis()-startTime;            System.out.println("成功插入 30 万条数据,耗时："+spendTime+"毫秒");        } catch (Exception e) {            e.printStackTrace();        } finally {            session.close();        }    }

使用了 MyBatis 的批处理操作，将每 1000 条数据放在一个批次中插入，能够较为有效地提高插入速度。同时请注意在循环插入时要带有合适的等待时间和批处理大小，以防止出现内存占用过高等问题。此外，还需要在配置文件中设置合理的连接池和数据库的参数，以获得更好的性能。

在上面的示例中，我们每插入1000行数据就进行一次批处理提交，并等待10秒钟。这有助于控制内存占用，并确保插入操作平稳进行。

五十分钟执行完毕，时间主要用在了等待上。

如果低谷时期执行，CPU和磁盘性能又足够的情况下，直接批处理不等待执行：

    /**     * 分批次批量插入     * @throws IOException     */    @Test    public void testBatchInsertUser() throws IOException {        InputStream resourceAsStream =                Resources.getResourceAsStream("sqlMapConfig.xml");        SqlSessionFactory sqlSessionFactory = new SqlSessionFactoryBuilder().build(resourceAsStream);        SqlSession session = sqlSessionFactory.openSession();        System.out.println("===== 开始插入数据 =====");        long startTime = System.currentTimeMillis();        int waitTime = 10;        try {            List<User> userList = new ArrayList<>();            for (int i = 1; i <= 300000; i++) {                User user = new User();                user.setId(i);                user.setUsername("共饮一杯无 " + i);                user.setAge((int) (Math.random() * 100));                userList.add(user);                if (i % 1000 == 0) {                    session.insert("batchInsertUser", userList);                    // 每 1000 条数据提交一次事务                    session.commit();                    userList.clear();                }            }            // 最后插入剩余的数据            if(!CollectionUtils.isEmpty(userList)) {                session.insert("batchInsertUser", userList);                session.commit();            }            long spendTime = System.currentTimeMillis()-startTime;            System.out.println("成功插入 30 万条数据,耗时："+spendTime+"毫秒");        } catch (Exception e) {            e.printStackTrace();        } finally {            session.close();        }    }

则24秒可以完成数据插入操作：

可以看到短时CPU和磁盘占用会飙高。

把批处理的量再调大一些调到5000，在执行：

13秒插入成功30万条，直接芜湖起飞🛫🛫🛫

# JDBC实现插入30万条数据

JDBC循环插入的话跟上面的mybatis逐条插入类似，不再赘述。

以下是 Java 使用 JDBC 批处理实现 30 万条数据插入的示例代码。请注意，该代码仅提供思路，具体实现需根据实际情况进行修改。

    /**     * JDBC分批次批量插入     * @throws IOException     */    @Test    public void testJDBCBatchInsertUser() throws IOException {        Connection connection = null;        PreparedStatement preparedStatement = null;        String databaseURL = "jdbc:mysql://localhost:3306/test";        String user = "root";        String password = "root";        try {            connection = DriverManager.getConnection(databaseURL, user, password);            // 关闭自动提交事务，改为手动提交            connection.setAutoCommit(false);            System.out.println("===== 开始插入数据 =====");            long startTime = System.currentTimeMillis();            String sqlInsert = "INSERT INTO t_user ( username, age) VALUES ( ?, ?)";            preparedStatement = connection.prepareStatement(sqlInsert);            Random random = new Random();            for (int i = 1; i <= 300000; i++) {                preparedStatement.setString(1, "共饮一杯无 " + i);                preparedStatement.setInt(2, random.nextInt(100));                // 添加到批处理中                preparedStatement.addBatch();                if (i % 1000 == 0) {                    // 每1000条数据提交一次                    preparedStatement.executeBatch();                    connection.commit();                    System.out.println("成功插入第 "+ i+" 条数据");                }            }            // 处理剩余的数据            preparedStatement.executeBatch();            connection.commit();            long spendTime = System.currentTimeMillis()-startTime;            System.out.println("成功插入 30 万条数据,耗时："+spendTime+"毫秒");        } catch (SQLException e) {            System.out.println("Error: " + e.getMessage());        } finally {            if (preparedStatement != null) {                try {                    preparedStatement.close();                } catch (SQLException e) {                    e.printStackTrace();                }            }            if (connection != null) {                try {                    connection.close();                } catch (SQLException e) {                    e.printStackTrace();                }            }        }    }

上述示例代码中，我们通过 JDBC 连接 MySQL 数据库，并执行批处理操作插入数据。具体实现步骤如下：

获取数据库连接。
创建 Statement 对象。
定义 SQL 语句，使用 PreparedStatement 对象预编译 SQL 语句并设置参数。
执行批处理操作。
处理剩余的数据。
关闭 Statement 和 Connection 对象。

使用setAutoCommit(false) 来禁止自动提交事务，然后在每次批量插入之后手动提交事务。每次插入数据时都新建一个 PreparedStatement 对象以避免状态不一致问题。在插入数据的循环中，每 10000 条数据就执行一次 executeBatch() 插入数据。

另外，需要根据实际情况优化连接池和数据库的相关配置，以防止连接超时等问题。

# 总结

实现高效的大量数据插入需要结合以下优化策略（建议综合使用）：

1.批处理：批量提交SQL语句可以降低网络传输和处理开销，减少与数据库交互的次数。在Java中可以使用Statement或者PreparedStatement的addBatch()方法来添加多个SQL语句，然后一次性执行executeBatch()方法提交批处理的SQL语句。

在循环插入时带有适当的等待时间和批处理大小，从而避免内存占用过高等问题：

设置适当的批处理大小：批处理大小指在一次插入操作中插入多少行数据。如果批处理大小太小，插入操作的频率将很高，而如果批处理大小太大，可能会导致内存占用过高。通常，建议将批处理大小设置为1000-5000行，这将减少插入操作的频率并降低内存占用。
采用适当的等待时间：等待时间指在批处理操作之间等待的时间量。等待时间过短可能会导致内存占用过高，而等待时间过长则可能会延迟插入操作的速度。通常，建议将等待时间设置为几秒钟到几十秒钟之间，这将使操作变得平滑且避免出现内存占用过高等问题。
可以考虑使用一些内存优化的技巧，例如使用内存数据库或使用游标方式插入数据，以减少内存占用。

总的来说，选择适当的批处理大小和等待时间可以帮助您平稳地进行插入操作，避免出现内存占用过高等问题。

2.索引: 在大量数据插入前暂时去掉索引，最后再打上，这样可以大大减少写入时候的更新索引的时间。

3.数据库连接池：使用数据库连接池可以减少数据库连接建立和关闭的开销，提高性能。在没有使用数据库连接池的情况，记得在finally中关闭相关连接。

数据库参数调整：增加MySQL数据库缓冲区大小、配置高性能的磁盘和I/O等。

推荐阅读点击标题可跳转

1、AI编程语言Mojo正式开源标准库，宣称比Python快9万倍

2、被问懵了，加密后的数据如何进行模糊查询？

3、公司新来一个技术总监：谁再在 SQL 中写 in 和 not in，直接走人！

http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=2650890284&idx=1&sn=b0b05c6f7bc8ff019ac42b0c565ffcd4

数据分析与开发

「数据分析与开发」分享数据分析与开发相关技术文章、教程、工具

最新文章

裁员了，很严重，大家做好准备吧！

为什么数据库连接很消耗资源？被问根本答不出来……

离谱！裁员裁出新高度了。。

低级失误导致 Elasticsearch 仓库 404，7万多 star 一夜清空，网友：只是手滑了？！

字节回应大模型训练被实习生攻击

取代数据岗，某司从业人员已集体转行....

千万级数据的全表 update 正确姿势

京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！

发现一款JSON可视化工具神器，惊艳了！

突发！上交所系统被买崩了？股票交易量火爆挤瘫系统，IT 部门天塌了！

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

离谱，一边在裁员，一边在高薪招人！

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

3 年后，Elasticsearch 再次开源

IBM中国研发部彻底关闭！3分钟会议千人被裁，赔偿N+3

不要再在 pandas 循环中使用 loc/iloc 了！

拒绝背锅！39 岁失业后，我写出了一个超一万亿使用量的数据库

全体数据从业者请做好随时失业的准备！

说下 10 个高级的 SQL 查询技巧

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

“列数已达上限”：史上最烂代码库的“绝命”一击

40+指标银行BI指标体系！万字详述银行实现全面自助分析

区区 1 万张表就把 MySQL 给整崩溃了

取代数据岗，某司数据从业人员已集体转行....

图解 SQL 的执行顺序，优雅

MySQL 9.0“创新版”已支持向量，为何甲骨文却“偷偷摸摸”地宣布？

OpenAI 突然收购实时分析数据公司，传统数据库厂商：快来，OpenAI 又带我们玩了

被全球最大用户弃用！曾经的数据库霸主 HBase 正在消亡

“鸭子数据库”DuckDB正式发布1.0稳定版：C++引擎代码超30万行、百万级月下载量

Pandas 常用操作图解

Tabby，一个 5 万星标的终端工具

使用sklearn高效进行数据挖掘！

离谱！一边裁员，一边高薪招人！

五分钟看懂 MySQL 编解码原理

如何使用 sklearn 优雅地进行数据挖掘？

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

数据库表设计的18条军规

面试官：MySQL 上亿大表，如何深度优化？

换掉ES！Redis官方搜索引擎来了，效率大幅提升

我试了试用 SQL查 Linux日志，好用到飞起

13 秒插入 30 万条数据，批量插入正确的姿势！

AI编程语言Mojo正式开源标准库，宣称比Python快9万倍

深信服：开除 42 人、1 人被刑事立案

Redis只能做缓存？太out了！

公司新来一个技术总监：谁再在 SQL 中写 in 和 not in，直接走人！

被问懵了，加密后的数据如何进行模糊查询？

开源 Redis 的生命将就此终结？Redis 之父回应分叉浪潮：未来谁能领先，各凭本事！

微软开抢年收入上亿美元的 Redis 饭碗？开源性能遥遥领先的 Garnet：无需修改，Redis 客户端可直接接入

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉