分析700份代表提案，看看两会大家关心什么！

文摘教育 2024-03-16 00:00 中国香港

一年一度的两会召开，本着什么火我们做什么的理念，这次我们瞄准的是代表提案，理论上一年有5千以上的议案，我找遍了全网，还是找不全，好吧，可能又是什么奇怪的规定。不过，找了一个神奇的网站，人大网，英文缩写是npc😅，于是写个代码把数据抓下来，看看每年代表们讨论的主题有没有什么有趣的规律。网站页面如下：

又是一通抓包操作，获取了19-24的700多个提案（话说这也太少了哈哈，仅做样例分析）。

于是使用大家喜闻乐见的大模型，使用BERT对每个提案进行encode，得到一个向量矩阵，然后使用kmeans进行无监督聚类，把不同年代的提案打上text注记，如下所示：

看起来也没有啥时间变化模式，于是使用LDA来进行主题聚类。

19年代表提案（文化、教育、养老）

20年代表提案（国家、社区、扶贫）

21年代表提案（发展、治理、十四五）

22年代表提案（教育、农村、乡村）

23年代表提案（文化、养老、企业）

24年代表提案（农业、立法、乡村）

这个结果好无聊，感觉翻来覆去都是农业，养老，扶贫等等，理论上，这几年社会形式变化这么快，随着时间变化肯定有很多有意思的提案，可惜不公开。那这个数据应该没有新闻联播文本更有分析价值，因为这个数据是官方筛选过的，数据bias很高。最后则是告诉大家好消息，公众号有留言功能啦，欢迎大家留言拍砖hhh~

另外记得我们下周六晚上的茶话会，两位老师前沿的分享！

GISChat茶话会第五期-前沿研究分享（下周六晚！）

附送本文所使用的数据抓取代码。

import requestsfrom bs4 import BeautifulSouparticle=[]for i in  range(1,34):#34    url=r'http://www.npc.gov.cn/npc/c2/c185/c12492/index_{}.html'.format(i)    r=requests.get(url)    r.encoding='utf-8'    html_string=r.text
    soup = BeautifulSoup(html_string, 'html.parser')    title = soup.title.text
    # 获取所有a标签    a_tags = soup.find_all('a')    for a in a_tags:        url = a['href']        text = a.text        print(url, text)        article.append(a['href'])###过滤字符new=[]for i in article:    if len(i)>13:        tmp=i.replace('../../../','').replace('../../','').replace('./','')        new.append(tmp)#写入数据import re,time#写入sqlite数据库import sqlite3conn = sqlite3.connect('npc.db')c = conn.cursor()c.execute('CREATE TABLE npc (date TEXT, content TEXT)')# 提交更改conn.commit()
# 关闭连接# "http://www.npc.gov.cn/npc/c2/c30834/201905/t20190521_297075.html"times=[]contents=[]
count=0for i in new:    try:        res=requests.get("http://www.npc.gov.cn/npc/c2/"+i)        html=res.content.decode('utf-8')        pattern = r'(\d{4}年\d{2}月\d{2}日)'          match = re.search(pattern,html)        if match:            date = match.group(0)        else:            date = None        times.append(date)
        soup = BeautifulSoup(res.content, 'html.parser')        content_div = soup.find('div', id='Zoom')        content = content_div.get_text()        content = content.strip().replace('\n', '').replace('\r', '').replace('\t', '').replace('\u3000', '')        contents.append(content)        # 写入数据        c.execute("INSERT INTO npc VALUES (?,?)", (date, content))
    except Exception as e:        time.sleep(2)        print(e)        print("http://www.npc.gov.cn/npc/c2/"+i)    count+=1    if count%100==0:        conn.commit()        conn.commit()# 关闭连接conn.close()print("Data written to database!")

绘图代码：

from sentence_transformers import SentenceTransformerfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltfrom sklearn.manifold import TSNE
# 你的数据documents = [...]years = [...]

# 加载 Sentence-BERT 模型model = SentenceTransformer('all-MiniLM-L6-v2')
# 对文档进行编码document_embeddings = model.encode(documents)
# 使用 KMeans 进行聚类num_clusters = 6  # 根据需要调整聚类数目clustering_model = KMeans(n_clusters=num_clusters)clustering_model.fit(document_embeddings)cluster_assignment = clustering_model.labels_
# 使用 t-SNE 进行降维tsne = TSNE(n_components=2, random_state=0)X_tsne = tsne.fit_transform(document_embeddings)
# 可视化plt.figure(figsize=(12, 8))for i in range(num_clusters):    indices = cluster_assignment == i    plt.scatter(X_tsne[indices, 0], X_tsne[indices, 1], label=f'Cluster {i}')    for year, x, y in zip(np.array(years)[indices], X_tsne[indices, 0], X_tsne[indices, 1]):        plt.text(x, y, year, fontsize=6)plt.legend()plt.show()

LDA聚类代码：

import jiebafrom gensim import corpora, modelsimport pyLDAvis.gensim_models as gensimvisimport pyLDAvisimport pandas as pdimport numpy as np
# 假设 df 是包含所有文档的 DataFramedf = pd.DataFrame({'year': years,'document':documents})# texts = [list(jieba.cut(doc)) for doc in df['document'].values.tolist()]
stopwords_file = "stopword.txt"  # 假设停用词表保存在名为stopwords.txt的文件中
with open(stopwords_file, "r", encoding="utf-8") as file:    stopwords_list = [line.strip() for line in file.readlines()]    stopwords_list.append(' ')# 示例数据tmpf=df[df['year']=='2019']texts = [list(jieba.cut(doc)) for doc in tmpf['document'].values.tolist()]  # 假设你的文本数据已经准备好了# 在分词过程中过滤停用词filtered_texts = [[word for word in text if word not in stopwords_list] for text in texts]texts=filtered_texts
dictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for text in texts]
lda_model = models.LdaModel(corpus, num_topics=5, id2word=dictionary, passes=15)
# vis = gensimvis.prepare(lda_model, corpus, dictionary, sort_topics=False)vis = gensimvis.prepare(lda_model, corpus, dictionary, sort_topics=False, n_jobs=1)
# pyLDAvis.display(vis)pyLDAvis.display(vis)

http://mp.weixin.qq.com/s?__biz=Mzg4NTE4NDE4NQ==&mid=2247486451&idx=1&sn=ed58940391c7ff305e70710f74f895a3

城市感知计算

认识世界和改造世界，张岩博士和志愿者团队搭建的非盈利城市科学分享平台，欢迎加好友学术交流。

最新文章

GISChat茶话会十三期总结与回放

谷歌代码之夏Mesa项目中国开发者招募

GISChat第13期：空间异质性的建模与应用（本周六晚20:00准时开讲~）

利用移动传感数据实现城市环境噪声感知的智能理解

使用街景图像和混合语义图的多级城市街道表征方法

GISChat茶话会十二期总结与回放

GISChat第12期：从建成环境到虚拟空间（周四晚20:00准时开讲~）

论文分享｜基于路划模型（stroke-based）表征的中国主要城市路网韧性测度

GISChat新媒体矩阵及成员介绍

GISChat第11期分享（本周日晚20:00准时开讲~）

SAGE-GSAN:基于街景影像的出租车一氧化碳排放估计的图方法

基于噪音投诉数据和视觉语言混合方法感知噪音暴露及不平等

第10期茶话会回顾（科研习惯与科研经验分析）~

第10期茶话会回顾（工业GIS之旅）~

陈能成教授团队Nature Cities发文揭示全球城市化的局地干旱效应

GISChat第10期分享（明天20:00准时开讲~）

微调BERT实现中文微博情感分类（模型分享至HuggingFace）

空间结构如何影响心理恢复?一种基于图神经网络和街景图像的方法

物理-社会空间交互的视角：实现用户下一位置预测的异构图融合网络

第9期茶话会回顾

GISChat第9期：学术生涯规划与科研经验分享（明天-7月2日晚20：00准时开讲）

茶话会第8期分享（本周末20:00！）

中国地图故事第六辑：高考关注度的地区差异

绘制订阅者的全家福（留言送5件GISChat定制文化衫！）

第七期茶话会回顾

利用微博签到数据感知城市动态（分析代码+抓包教程）

茶话会第7期分享(本周末20:00！)

基于树莓派打造你的个人感知终端

茶话会的故事

人本视角出发的GeoAI模型研究以及其在城市地理问题中的应用—（视频总结版）

碳通量核算-工厂碳排放及海洋碳吸收—（视频总结版）

论文分享｜超过十万条微博数据揭示小区环境如何影响居民在COVID封控期间的情绪

IEEE J-STARS“街景影像与地理人工智能”专刊征稿

分析700份代表提案，看看两会大家关心什么！

GISChat茶话会第五期-前沿研究分享（下周六晚！）

考虑道路风险和道路行人需求的溃坝洪水灾害下的行人疏散规划

微博签到数据的获取思路与实战

第一届亚洲地图学会议AsiaCarto 2024（一号通知）

深度感知一切|自港大&抖音的DepthAnythig

中国人口贩卖数据爬取教程与分析报告

哪个城市是中央眼中的心头爱？基于新闻联播文本的大数据分析

2024年度展望：无用之用&公众号的朋友们

带审图号标准地图制作，如何设置中国地图的标准投影？

标准地图国内外对比＆区划数据获取方法

超越微博，小红书数据采集数据、代码和思路

房价真的降了么！

从街景图像中分析安全感知的性别差异

城市绿地可达性及其计算方法

IJGIS 专刊征稿 | GeoHealth Data Science

应用于城市分析的空间显式的可解释性人工智能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉