Flask制作-奇葩玩转电子书

文摘科技 2024-01-16 19:09 北京

ISEE小语

昔日立誓远离烟，如今烟雾伴身边。狂言不变的你，怎能敌得过生活的变迁呢？

看书的时候，突然有一个奇葩有意思的想法，将电子书解析到数据库中，前端搜索曾经看到过的金句，就可以找到出自哪本书、哪个章节，甚至是定位到准备的位置。

挺有意思的，可以试试看！

环境：

Pycharm

Python 3.9.16

安装：

pip install 以下所有的包

alembic==1.13.1beautifulsoup4==4.12.2blinker==1.7.0EbookLib==0.18Flask==2.3.1Flask-Migrate==4.0.4Flask-SQLAlchemy==3.0.5greenlet==3.0.3itsdangerous==2.1.2lxml==5.1.0Mako==1.3.0six==1.16.0soupsieve==2.5SQLAlchemy==2.0.25typing_extensions==4.9.0Werkzeug==3.0.1

实现原理：

使用Flask+SQLAlchemy，主要特点是方便、简单、快速，最重要的一点就是前面文章分享过基本使用，不需要使用多的时间去研究了！

主要包括三大块：

一、解析电子书并保存到数据库

二、服务端查询和返回逻辑实现

三、前端页面查询入口及返回显示

项目结构：

新创建一个Flask项目，具体结构如下：

```结构book_read_flask├─instance  # 项目初始化的数据库文件│  └─database.db  # Sqlite数据库├─templates  # 静态模板文件│  └─index.html  # 搜索页面├─static  # 样式文件├─app.py  # 应用├─config.py  # 数据库链接配置├─models.py  # 数据库表结构├─requirements.txt  # 依赖包文件└─一句顶一万句.epub  # 电子书```

解析电子书

解析电子书，用到了EbookLib和beautifulsoup4这两个三方库。

EbookLib是一个用于处理电子书文件的Python第三方库。它提供了一组简单易用的API，可以用于读取、解析和操作常见的电子书格式，如EPUB、MOBI和AZW3等。

BeautifulSoup是用于从HTML或XML文档中提取数据的工具。EbookLib解析出来的源文会带有html标签，需要再次进行数据处理。

本次解析的是【刘震云】老师的《一句顶一万句》，epub格式。

# -*- coding: utf-8 -*-import ebooklibfrom bs4 import BeautifulSoupfrom ebooklib import epub
book_name = '一句顶一万句.epub'author = '刘震云'introduction = '作家'
# 读取EPUB文件book_content = epub.read_epub(book_name)# 遍历电子书中的所有项目for item in book_content.get_items():    if item.get_type() == ebooklib.ITEM_DOCUMENT:        # 使用BeautifulSoup解析HTML内容        soup = BeautifulSoup(item.get_content(), 'html.parser')        chapter_tag = soup.find('h1')        chapter_text = chapter_tag.get_text(separator=' ', strip=True) if chapter_tag is not None else ''        if chapter_text != '':            print("章节：", chapter_text)            print(soup.get_text())

（左右滑动查看完整代码）

创建Flask项目

数据库选择的是Sqlite。

框架是Flask+SQLAlchemy。

首先，创建一个Flask项目，设计两个数据表books和books_detail，在项目根目录下新建models.py

from flask_sqlalchemy import SQLAlchemyfrom sqlalchemy.orm import relationshipfrom datetime import datetime
db = SQLAlchemy()

class Books(db.Model):    __tablename__ = 'books'
    id = db.Column(db.Integer, primary_key=True)    name = db.Column(db.String(50))    author = db.Column(db.String(20))    introduction = db.Column(db.Text)    add_time = db.Column(db.String(255), default=datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
    details = relationship('BookDetail', back_populates='book')

class BookDetail(db.Model):    __tablename__ = 'books_detail'
    id = db.Column(db.Integer, primary_key=True)    book_id = db.Column(db.Integer, db.ForeignKey('books.id'))    chapter = db.Column(db.String(255))    content = db.Column(db.Text)    add_time = db.Column(db.String(255), default=datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
    book = relationship('Books', back_populates='details')

（左右滑动查看完整代码）

然后，配置数据库链接，在项目根目录下新建config.py

# -*- coding: utf-8 -*-
# 连接数据库SQLALCHEMY_DATABASE_URI = 'sqlite:///database.db'SQLALCHEMY_TRACK_MODIFICATIONS = False

（左右滑动查看完整代码）

最后，在应用app.py中创建init_app初化数据库，以及创建Migrate

from flask import Flaskfrom flask_migrate import Migratefrom models import dbimport config
app = Flask(__name__)app.config.from_object(config)
db.init_app(app)
with app.app_context():    db.create_all()migrate = Migrate(app, db)

@app.route('/')def hello():    return 'hello world!'

if __name__ == '__main__':    app.run(host='0.0.0.0')

（左右滑动查看完整代码）

运行app.py，启动项目，在项目根目录下将自动创建instance文件夹，其中database.db被初始化成功创建。

如果当Models发生变更时，更新表结构是常规性的操作。

在终端中进入项目目录，并执行命令初始化数据库迁移

flask db init

执行命令生成数据库迁移脚本

flask db migrate -m "Initial migration"

执行命令应用数据库迁移：

flask db upgrade

最后重启Flask应用后，就可以看到Models的变更已经反映在数据库表结构中

电子书写入DB

解析电子书完成后，我们按章节存到数据库中。

在app.py中构造一个read_epud函数

@app.route('/read_epud')def read_epud():    book_name = '一句顶一万句.epub'    author = '刘震云'    introduction = '作家'    # 检查书籍是否存在    book_exist = db.session.query(Books.query.filter_by(name=book_name).exists()).scalar()    if not book_exist:        book_ = Books(name=book_name, author=author, introduction=introduction)        db.session.add(book_)        db.session.commit()
    # 读取EPUB文件    book_content = epub.read_epub(book_name)    book = Books.query.filter_by(name=book_name).first()    # 检查书箱详细内容是否存在    book_detail_exist = db.session.query(BookDetail.query.filter_by(book_id=book.id).exists()).scalar()    if not book_detail_exist:        # 遍历电子书中的所有项目        for item in book_content.get_items():            if item.get_type() == ebooklib.ITEM_DOCUMENT:                # 使用BeautifulSoup解析HTML内容                soup = BeautifulSoup(item.get_content(), 'html.parser')                chapter_tag = soup.find('h1')                chapter_text = chapter_tag.get_text(separator=' ', strip=True) if chapter_tag is not None else ''                if chapter_text != '':                    book_detail = BookDetail(chapter=chapter_text, content=soup.get_text(), book_id=book.id)                    # 将新的书籍详情对象添加到会话中                    db.session.add(book_detail)                    # 提交会话，将新的书籍详情对象插入到数据库中                    db.session.commit()
    return '电子书解析入库成功！'

（左右滑动查看完整代码）

启动服务，打开浏览器，运行网址：

http://127.0.0.1:5000/read_epud

说明调用电子书解析入库已经成功！

注：这个地方的电子书没有做传参，如果换其他电子书写入，需要在源码中修改，

    book_name = '一句顶一万句.epub'    author = '刘震云'    introduction = '作家'

后期抽时间再做优化！

指定内容搜索

电子书存到数据库后，接下来我们就进行指定的内容搜索。

在app.py中构造一个sentence_search函数

@app.route('/sentence_search', methods=['GET'])def sentence_search():    sentence = request.args.get('sentence', '')    if not sentence:        return jsonify([{'sentence': '请输入搜索的内容！', 'book_name': '', 'book_author': '', 'book_chapter': '',                         'chapter_content': ''}])
    # 查询包含特定内容的书籍信息    book_details = BookDetail.query.join(Books).filter(BookDetail.content.contains(sentence)).all()
    # 创建book_list返回结果    book_list = [        {            'sentence': sentence,            'book_name': book_detail.book.name,            'book_author': book_detail.book.author,            'book_chapter': book_detail.chapter,            'chapter_content': book_detail.content        } for book_detail in book_details    ]
    return jsonify(book_list)

（左右滑动查看完整代码）

启动服务，打开浏览器，运行网址：

http://127.0.0.1:5000/sentence_search?sentence=

说明调用电子书指定内容搜索接口是成功的。

设计前端搜索页面

设计一个前端页面，指定的内容搜索框及返回内容显示。

在templates文件夹中新建一个index.html页面，页面主体如下（样式太多就不全贴了，有兴趣的看源码）：

<body>    <div class="Search_content">        <div class="Search_input__1">            <i class="fas fa-search"></i>            <input type="search" id="search_id" value="" placeholder="请输入内容">        </div>        <button class="Search_btn" id="go_search">去找寻</button>    </div>    <div class="Output_box">        <div class="label_class">出自：</div>        <div id="output"></div>    </div></body>

（左右滑动查看完整代码）

服务返回内容处理及显示：

<script>    document.getElementById('go_search').addEventListener('click', function() {        const searchInput = document.getElementById('search_id').value;
        // 发送请求到后端        const xhr = new XMLHttpRequest();        xhr.open('GET', '/sentence_search?sentence=' + searchInput, true);        xhr.onreadystatechange = function() {            if (xhr.readyState === XMLHttpRequest.DONE && xhr.status === 200) {                const responses = JSON.parse(xhr.responseText);
                // 清空之前的内容                document.getElementById('output').innerHTML = '';
                // 遍历每个返回的 JSON 数据对象                responses.forEach(function(response) {                    // 创建显示的元素                    const element = document.createElement('div');                    element.innerHTML = `                        <div class="sentence">搜索：${response.sentence}</div>                        <div class="book_name">出自：${response.book_name}</div>                        <div class="author">作者：${response.book_author}</div>                        <div class="chapter">章节：${response.book_chapter}</div>                        章节内容：<div class="chapter_content">${highlightSentence(response.chapter_content)}</div>                        <div>-----------------------------</div>                    `;                    // 添加到输出框中                    document.getElementById('output').appendChild(element);                });            }        };        xhr.send();    });
    function highlightSentence(content) {        const searchInput = document.getElementById('search_id').value;        const regex = new RegExp(searchInput, 'gi');        const replacedContent = content.replace(regex, '<span class="highlight">$&</span>');        const replacedWithBreaks = replacedContent.replace(/\n/g, '<br>');        return replacedWithBreaks;    }</script>

（左右滑动查看完整代码）

服务添加路由，调用index.html页面：

@app.route('/')def index():    return render_template('index.html', chart_html='')

启动服务，打开浏览器，运行网址：

http://127.0.0.1:5000

成功！

接下来输入搜索内容，看看实际效果：

总结

这个小项目前端页面有点单调，在处理上也可能会有些Bug，但不会有大的影响，后续再丰富吧。

本次除了解析电子书《一句顶一万句》，还解析了《影响力》，解析、入库、搜索都正常。

这两本电子书也会一同分享出来，有兴趣的也可以看看书，这两本书其实还挺不错的！

点个“赞”和“在看”，是对小栈最大的支持！

后台回复“book_read”即可获取源码和电子书！

文章就分享到这儿，喜欢就点个赞吧!

推荐阅读点击标题可跳转

ISEE小栈

没有花里胡哨，简单才是王道。

最新文章

急！紧急！优化Python分析图片颜色至Excel报异常的问题

分享8种方式用来对比两个列表(list)的差异，并提取公共元素

介绍一款开源的工具XTestRunner，可输出惊艳的测试报告（附实例源码）

Python画流程图，从0到实践，完整版（附源码）

Python获取历史上的今天，每一天都是一本书(附源码)

从文字到视频：Python实现全程转换（附源码）

Python项目自动化及输出报告完整实例（附源码）

Python数据分析之匿名函数实例使用

Python在多线程环境中如何保护共享资源

Flask制作本地语言模型聊天室（附源码）

惊艳了，Python可以分析一张图片中包含有几种颜色？（附源码）

Python办公自动化超酷的三方库集锦

Python下载网易云音乐特色榜Top歌曲，完整版(附源码)

Django现代化的后台管理UI界面-simpleui高效使用(附源码)

Python实现Mysql查询字段缺失处理

Python自动生成头像图片

Python对yaml文件的增删改查操作

Python-字符串操作的七大实例，实用版

一篇文章学会Django-从无到有

Python将文本转为语音播放，并生成mp3音频文件(附源码)

Python爬虫豆瓣电影排行榜并保存至Excel中，完整版

Python制作日志监控工具（附源码）

Python列表(list)操作实例大全，让你的数据舞起来！

Python对MongoDB数据库的增、删、改、查操作，独立封装版

Python图像调整通用技巧，必备

Flask制作-奇葩玩转电子书

Python中4个超燃的文本设计三方库，必备！

Python制作个带对联的时间表-元旦快乐

Python下载神器爬虫某图网站的高清图片，详细新版

Pandas数据分析并生成图文一体的分析报告

Python对Sqlite数据库的增、删、改、查操作，独立封装版

Python中pywebview库使用并制作一个时间戳转换工具(附源码+exe)

Python中5个超实用的三方库，精简清晰版

Flask制作大屏显示-实时数据动态更新(附源码)

Python实现对MySql数据库创建和自动导入SQL文件-续篇

Python实现MySql数据库导出表结构和数据功能-实例

python中不常见却强大并好用的6个三方库，精简版

Python队列Queue的增删改查和多线程处理，简版

Python爬虫某阁网站的在线小说，详细新版

Pandas数据清洗+数据分析小例，实战带图版

python中运用Pillow处理图像-调整尺寸、裁剪、旋转、添加滤镜和特效等，实践版

Pandas数据分析，生成10种必备的可视化分析图，详细独立版

Pandas处理数据增、删、改、查，日常使用小结，清晰版

Flask+pyecharts+SQLAlchemy，统计图的数据存放在mysql中，综合版

Flask+pyecharts结合，html统计图呈现在前端页面-优化前端加导航栏显示

Flask+pyecharts结合，html统计图呈现在前端页面

python操作Redis增、删、改、查，独立版本

python制作发送各类内容的邮件，并设置定时自动触发，独立封装

python操作.ini文件增、删、改、查，二次独立封装

python巧妙使用数据库连接池PooledDB连接MySQL，操作性能比对

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉