利用Python做一个漂亮小姐姐词云跳舞视频

科技 2024-12-06 14:00 陕西

本文将以哔哩哔哩–乘风破浪视频为例，you-get下载视频，同时利用python爬取B站视频弹幕，并利用opencv对视频进行分割，百度AI进行人像分割，moviepy生成词云跳舞视频，并添加音频。

1. 导入模块

1.1 下载所需模块

我们需要下载很多的模块，所以我们可以使用os.system()方法来自动安装所需模块，当然也有可能下载失败，特别是opencv-python，多安装几次就好啦.

import osimport timelibs = {"lxml","requests","pandas","numpy","you-get","opencv-python","pandas","fake_useragent","matplotlib","moviepy"}try:    for lib in libs:        os.system(f"pip3 install -i https://pypi.doubanio.com/simple/ {lib}")        print(lib+"下载成功")except:    print("下载失败")

1.2 导入模块

在这里统一先导入所需的模块

‍‍‍

import osimport reimport cv2import jiebaimport requestsimport moviepyimport pandas as pdimport numpy as npfrom PIL import Imagefrom lxml import etreefrom wordcloud import WordCloudimport matplotlib.pyplot as pltfrom fake_useragent import UserAgent

2. 视频处理

2.1 下载视频

从B站视频下载舞蹈视频：

https://blog.csdn.net/qq_45176548/article/details/113379829

使用you-get方法获取B站视频

2.2 视频分割

使用opencv，将视频的分隔为图片，本文截取 800 张图片来做词云。

opencv中通过VideoCaptrue类对视频进行读取操作以及调用摄像头

1代码展示

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 14:08# @File : 视频分割.py# @Software : PyCharmimport cv2cap = cv2.VideoCapture(r"无价之姐~让我乘风破浪~~~.flv")while 1:    # 逐帧读取视频  按顺序保存到本地文件夹    ret,frame = cap.read()    if ret:        cv2.imwrite(f".\pictures\img_{num}.jpg",frame)       else:        breakcap.release()   # 释放资源

2 结果展示

2.3 人像分割

1创建应用

利用百度AI，创建一个人像分割的应用

2.Python SDK参考文档

利用参考文档（https://cloud.baidu.com/doc/BODY/s/Rk3cpyo93?_=5011917520845），来进行人像分割

3. 代码展示

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 14:38# @File : 人像分割.py# @Software : PyCharm"""原文链接："""import cv2import base64import numpy as npimport osfrom aip import AipBodyAnalysisimport timeimport random
APP_ID = '******'API_KEY = '*******************'SECRET_KEY = '********************'
client = AipBodyAnalysis(APP_ID, API_KEY, SECRET_KEY)# 保存图像分割后的路径path = './mask_img/'
# os.listdir  列出保存到图片名称img_files = os.listdir('./pictures')print(img_files)for num in range(1, len(img_files) + 1):    # 按顺序构造出图片路径    img = f'./pictures/img_{num}.jpg'    img1 = cv2.imread(img)    height, width, _ = img1.shape    # print(height, width)    # 二进制方式读取图片    with open(img, 'rb') as fp:        img_info = fp.read()
    # 设置只返回前景   也就是分割出来的人像    seg_res = client.bodySeg(img_info)    labelmap = base64.b64decode(seg_res['labelmap'])    nparr = np.frombuffer(labelmap, np.uint8)    labelimg = cv2.imdecode(nparr, 1)    labelimg = cv2.resize(labelimg, (width, height), interpolation=cv2.INTER_NEAREST)    new_img = np.where(labelimg == 1, 255, labelimg)    mask_name = path + 'mask_{}.png'.format(num)    # 保存分割出来的人像    cv2.imwrite(mask_name, new_img)    print(f'======== 第{num}张图像分割完成 ========')

4. 结果展示

3. 弹幕爬取

由于技术原因，我们改为此视频来获取弹幕，视频链接（https://www.bilibili.com/video/BV1jZ4y1K78N/?spm_id_from=333.788.recommend_more_video.0），哈哈哈哈哈。

3.1 网页分析

通过F12，找到pagelist，通过原始url，找到cid

3.2 观察历史弹幕

清楚元素，展开弹幕列表

日期列表，只有2021年的，点击其他日期，出来了history请求，点击查看

3.3爬取弹幕

1构造时间序列

该视频发布于2020-08-09，本文爬取该视频2020-08-08到2020-09-08日的历史弹幕数据，构造出时间序列：

import pandas as pda = pd.date_range("2020-08-08","2020-09-08")print(a) DatetimeIndex(['2020-08-08', '2020-08-09', '2020-08-10', '2020-08-11',               '2020-08-12', '2020-08-13', '2020-08-14', '2020-08-15',               '2020-08-50', '2020-08-17', '2020-08-18', '2020-08-19',               '2020-08-20', '2020-08-21', '2020-08-22', '2020-08-23',               '2020-08-24', '2020-08-25', '2020-08-26', '2020-08-27',               '2020-08-28', '2020-08-29', '2020-08-30', '2020-08-31',               '2020-09-01', '2020-09-02', '2020-09-03', '2020-09-04',               '2020-09-05', '2020-09-06', '2020-09-07', '2020-09-08'],              dtype='datetime64[ns]', freq='D')

‍‍‍

2. 爬取数据

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 19:33# @File : 弹幕爬取.py# @Software : PyCharm
import requestsimport pandas as pdimport reimport csvfrom fake_useragent import UserAgentfrom concurrent.futures import ThreadPoolExecutorimport datetime
ua = UserAgent()start_time = datetime.datetime.now()
def  Grab_barrage(date):    headers = {        "origin": "https://www.bilibili.com",        "referer": "https://www.bilibili.com/video/BV1jZ4y1K78N?from=search&seid=1084505810439035065",        "cookie": "",        "user-agent": ua.random(),    }    params = {        'type': 1,        'oid' : "222413092",        'date': date    }    r= requests.get(url, params=params, headers=headers)    r.encoding = 'utf-8'    comment = re.findall('<d p=".*?">(.*?)</d>', r.text)    for i in comments:      df.append(i)    a = pd.DataFrame(df)    a.to_excel("danmu.xlsx")def main():    with ThreadPoolExecutor(max_workers=4) as executor:        executor.map(Grab_barrage, date_list)    """计算所需时间"""    delta = (datetime.datetime.now() - start_time).total_seconds()    print(f'用时：{delta}s')if __name__ == '__main__':    # 目标url    url = "https://api.bilibili.com/x/v2/dm/history"    start,end = '20200808','20200908'    date_list = [x for x in pd.date_range(start, end).strftime('%Y-%m-%d')]    count = 0    main()

3.结果展示

4.生成词云图

4.1 评论内容机械压缩去重

对于一条评论来说，有些人可能手误，或者凑字数，会出现将某个字或者词语，重复说多次，因此在进行分词之前，需要做“机械压缩去重”操作。

def func(s):    for i in range(1,int(len(s)/2)+1):        for j in range(len(s)):            if s[j:j+i] == s[j+i:j+2*i]:                k = j + i                while s[k:k+i] == s[k+i:k+2*i] and k<len(s):                       k = k + i                s = s[:j] + s[k:]        return sdata["短评"] = data["短评"].apply(func)

‍‍

4.2 添加停用词和自定义词组

import pandas as pdfrom wordcloud import WordCloudimport jiebafrom tkinter import _flattenimport matplotlib.pyplot as plt
jieba.load_userdict("./词云图//add.txt")with open('./词云图//stoplist.txt', 'r', encoding='utf-8') as f:    stopWords = f.read()

‍

4.3生成词云图

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 19:10# @File : 跳舞词云图生成.py# @Software : PyCharm
from wordcloud import WordCloudimport collectionsimport jiebaimport refrom PIL import Imageimport matplotlib.pyplot as pltimport numpy as npwith open('barrages.txt') as f:    data = f.read()jieba.load_userdict("./词云图//add.txt")
# 读取数据with open('barrages.txt') as f:    data = f.read()jieba.load_userdict("./词云图//add.txt")# 文本预处理  去除一些无用的字符   只提取出中文出来new_data = re.findall('[\u4e00-\u9fa5]+', data, re.S)new_data = "/".join(new_data)
# 文本分词seg_list_exact = jieba.cut(new_data, cut_all=True)
result_list = []with open('./词云图/stoplist.txt', encoding='utf-8') as f:    con = f.read().split('\n')    stop_words = set()    for i in con:        stop_words.add(i)
for word in seg_list_exact:    # 设置停用词并去除单个词    if word not in stop_words and len(word) > 1:        result_list.append(word)
# 筛选后统计词频word_counts = collections.Counter(result_list)path = './wordcloud/'

img_files = os.listdir('./mask_img')print(img_files)for num in range(1, len(img_files) + 1):    img = fr'.\mask_img\mask_{num}.png'    # 获取蒙版图片    mask_ = 255 - np.array(Image.open(img))    # 绘制词云    plt.figure(figsize=(8, 5), dpi=200)    my_cloud = WordCloud(        background_color='black',  # 设置背景颜色  默认是black        mask=mask_,      # 自定义蒙版        mode='RGBA',        max_words=500,        font_path='simhei.ttf',   # 设置字体  显示中文    ).generate_from_frequencies(word_counts)
    # 显示生成的词云图片    plt.imshow(my_cloud)    # 显示设置词云图中无坐标轴    plt.axis('off')    word_cloud_name = path + 'wordcloud_{}.png'.format(num)    my_cloud.to_file(word_cloud_name)    # 保存词云图片    print(f'======== 第{num}张词云图生成 ========')

‍

5. 合成视频

如官方文档所介绍的，moviepy是一个用于视频编辑Python库，可以切割、拼接、标题插入，视频合成（即非线性编辑），进行视频处理和自定义效果的设计。总的来说，可以很方便自由地处理视频、图片等文件。

5.1图片合成

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 19:10# @File : 跳舞词云图生成.py# @Software : PyCharm

import cv2import os
# 输出视频的保存路径video_dir = 'result.mp4'# 帧率fps = 30# 图片尺寸img_size = (1920, 1080)
fourcc = cv2.VideoWriter_fourcc('M', 'P', '4', 'V')  # opencv3.0 mp4会有警告但可以播放videoWriter = cv2.VideoWriter(video_dir, fourcc, fps, img_size)img_files = os.listdir('.//wordcloud')
for i in range(88, 888):    img_path = './/wordcloud//wordcloud_{}.png'.format(i)    frame = cv2.imread(img_path)    frame = cv2.resize(frame, img_size)   # 生成视频   图片尺寸和设定尺寸相同    videoWriter.write(frame)      # 写进视频里    print(f'======== 按照视频顺序第{i}张图片合进视频 ========')
videoWriter.release()   # 释放资源

‍结果展示：

5.2 音频添加

‍

# -*- coding:utf-8 -*-# @Author : 北山啦# @Time : 2021/1/29 19:10# @File : 跳舞词云图生成.py# @Software : PyCharm
import moviepy.editor as mpy
# 读取词云视频my_clip = mpy.VideoFileClip('result.mp4')# 截取背景音乐audio_background = mpy.AudioFileClip('song.mp3').subclip(0,25)audio_background.write_audiofile('song1.mp3')# 视频中插入音频final_clip = my_clip.set_audio(audio_background)# 保存为最终的视频   动听的音乐！漂亮小姐姐词云跳舞视频！final_clip.write_videofile('final_video.mp4')

6. 结果展示

来源：blog.csdn.net/qq_45176548

对编程、职场感兴趣的同学，大家可以联系我微信：golang404，拉你进入“程序员交流群”。

🔥虎哥私藏精品热门推荐🔥

虎哥作为一名老码农，整理了全网最全《python高级架构师资料合集》。

资料包含了《IDEA视频教程》、《最全python面试题库》、《最全项目实战源码及视频》及《毕业设计系统源码》，总量高达 650GB，全部 免费领取。

Python技术迷

回复：python，领取Python面试题。分享AI编程，AI工具，Python技术栈，Python教程，Python编程视频，Pycharm项目，Python爬虫，Python数据分析，Python核心技术，Python量化交易。

最新文章

服了！凌晨二点多领导在微信群里骂人。。

为什么Python没有main函数？

70k，直接封神！

程序员的工资建议统一10k，反正人多。。

微信特别关注怎么设置？

麻了！因为0offer太久，家里人给我做法事了~

百度面试题：数据库出现死锁，该如何排查解决？

微信如何查看实名认证状态？

微信推出超赞的新功能 “送礼物”！

python写后端明明那么好用，为啥国内那么少？

美团面试官：mysql可能出现什么和并发相关问题？

微信怎么绑定QQ号/邮箱？

网友爆料:被降薪10%，主管让我别着急，降薪总比被裁员好，结果2个月后，主管被降薪25%~

面试官：讲一下mysql里有哪些锁？

这个hr的简历，简直炸裂！成功劝退员工4人，未支付赔偿金，工伤调查两起没提报工伤。。

面试官：在 B+ 树的叶子节点之后，如何进行数据查询？

x蚁员工爆料：最近绩效出来了，CTO线老板帮员工背了3.25。。

面试官：如何选择合适的事务隔离级别？

网友爆料：最近隔壁组来了个清华姚班的od，2018辽宁理科状元，太狠了~

面试官：什么是联合索引，它有什么优缺点？在使用时应注意什么？

微信群怎么只关注群内某个人？

刚入职一周的同事提交了一个新增 2w和删减1.4w的代码，不想review代码，头大~

实习了四十天突然被抓。导员：回不去就开除。。

面试官：执行一条SQL请求的过程是什么？

微信豆在哪里查看？微信豆有什么用？

迪子员工爆料：经过裁员优化后，发现35+员工堪比985/211的员工了，他们既听话又好用，又有丰富踩坑经验，不容易犯错!

面试官：mysql中的一些基本函数，你知道哪些？

外包公司的人写的代码，被扒出，骂惨了～

客户要求100块做个百度，我用10行Python代码搞定

X疆员工爆料：组里新来的实习生妹妹要把我这个老员工卷死了啊！领导安排一星期的任务，她提前两天搞定，然后居然还主动拉来了新任务！

一个零差评的 Python 内置库

X耀员工爆料：月薪25K，其中25%看绩效。年终2-4个月，看个人绩效，5%公积金，一二四加班，周六加班有双倍工资。

面试官：说一下Python中的多线程和多进程的应用场景和优缺点

一觉醒来，美团的offer作废了。。

面试官：你都怎么剖析Python代码的执行性能？

面试官：请说一下你对协程的理解，与线程有什么区别？

为什么微信朋友圈更新没有红点提醒？

牛逼！同事在会议室扇了自己几个大嘴巴子~

Python爆破ZIP文件

微信支付提示绑定银行卡？教你轻松解决！

网友吐槽：失业两个月，面试java研发，连外包offer都接不到，居然接到外企技术经理的offer。。

利用Python做一个漂亮小姐姐词云跳舞视频

鹅厂员工爆料：组里来了个有意思的新人，GitHub天天打卡、周末坚持写技术博客、在各种技术群里高谈阔论。。

面试官：如何将with语句用于一个自定义类？

尴尬！在楼梯睡觉被领导抓到了。。

Python 实现循环的最快方式（for、while 等速度对比）

微信登录电脑端后如何同步聊天记录?

外包竟敢用vim，我一个正编都没敢用。。

面试官：说一下你知道的Python编码规范。。。

外包对我怀恨在心，处处给我使绊子。。。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉