利用微博签到数据感知城市动态（分析代码+抓包教程）

文摘 2024-05-25 22:27 中国香港

今天继续给大家带来喜闻乐见的微博签到数据的代码抓包+处理教程。微博签到数据是广泛应用的gis数据之一，由于它具备地理位置+文本+图片等多重属性，一直被作为一种众源数据广泛使用。这次我们来获取的是微博签到数据，首先我们避开Web站点，直接打开mobile端，其数据更容易发现且反扒手段较低。

（图：签到数据示意图）

我们搜索签到点，香港中文大学，首先就返回了我们需要的兴趣位置，我们模拟这个请求。

看看传参的内容（containerid: 100103type=1&q=香港中文大学 page_type: searchall）：

浏览器模拟这个请求~格式化下接口返回的json。

返回内容中scheme键值对应的值为：https://m.weibo.cn/p/index?containerid=100808e472f75028aa9ecf2d6d0d9c630e6149_-_lbs&lcardid=frompoi&extparam=frompoi，似乎是我们需要的签到信息数据。访问页面也确实如此。

containerid所对应的一串代码就是我们需要找的签到点唯一ID。我们模拟请求这个链接，格式化返回的json。这就是我们需要的数据。

我们返回mobile端，向下拉呀拉，抓包他的翻页请求，是使用page这一值的变化进行抓包的。剩下的就很简单啦，不断构建page，然后刷新请求。

构建复用爬虫，抓呀抓呀抓。

存到数据库里~

在分析时还发现了一个好玩的接口，记录话题的状态。右侧返回的API信息，包括随时间的变化，话题原创内容等等。

https://m.s.weibo.com/topic/detail?q=#乐队的夏天#

import osimport reimport requestsimport datetimefrom pymongo import MongoClient
# 请求头headers = {    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",    "accept-encoding": "gzip, deflate, br",}
# MongoDB 连接client = MongoClient('mongodb://localhost:27017/')db = client['weibo']collection = db['weibo_data']
def trans_time(v_str):    """转换GMT时间为标准格式"""    GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'    try:        timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)        ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")    except ValueError:        ret_time = v_str  # 如果解析失败，返回原始字符串    return ret_time
def get_containerid(v_loc):    """    获取地点对应的containerid    :param v_loc: 地点    :return: containerid    """    url = 'https://m.weibo.cn/api/container/getIndex'    params = {        "containerid": f"100103type=92&q={v_loc}&t=",        "page_type": "searchall",    }    try:        r = requests.get(url, headers=headers, params=params)        r.raise_for_status()        cards = r.json().get("data", {}).get("cards", [])        if not cards:            raise ValueError("No cards found in response.")        scheme = cards[0].get('card_group', [{}])[0].get('scheme', '')        containerid = re.findall(r'containerid=(.*?)(?:&|$)', scheme)[0]    except (requests.RequestException, IndexError, KeyError, ValueError) as e:        print(f"Error fetching containerid for {v_loc}: {e}")        containerid = None    return containerid
def getLongText(v_id):    """爬取长微博全文"""    url = f'https://m.weibo.cn/statuses/extend?id={v_id}'    try:        r = requests.get(url, headers=headers)        r.raise_for_status()        json_data = r.json()        long_text = json_data['data']['longTextContent']        dr = re.compile(r'<[^>]+>', re.S)        long_text2 = dr.sub('', long_text)    except (requests.RequestException, KeyError) as e:        print(f"Error fetching long text for ID {v_id}: {e}")        long_text2 = ''    return long_text2
def get_location(v_text):    """    从博文中提取签到地点    :param v_text: 博文    :return: 地点    """    loc = ''    if v_text:        try:            loc = re.findall(r'<span class=\"surl-text\">(.*?)</span>', v_text)[-1]        except IndexError:            pass    return loc
def get_weibo_data(card):    """    从微博卡片中提取数据    :param card: 微博卡片    :return: 提取的数据字典    """    mblog = card['mblog']    create_time = trans_time(mblog['created_at']) if 'created_at' in mblog else ''    author = mblog['user']['screen_name'] if 'user' in mblog and 'screen_name' in mblog['user'] else ''    id = mblog.get('id', '')    bid = mblog.get('bid', '')    text = mblog.get('text', '')    dr = re.compile(r'<[^>]+>', re.S)    text2 = dr.sub('', text)    if mblog.get('isLongText'):        text2 = getLongText(id)    loc = get_location(v_text=text)    reposts_count = mblog.get('reposts_count', '')    comments_count = mblog.get('comments_count', '')    attitudes_count = mblog.get('attitudes_count', '')
    return {        '微博id': id,        '微博bid': bid,        '微博作者': author,        '发布时间': create_time,        '微博内容': text2,        '签到地点': loc,        '转发数': reposts_count,        '评论数': comments_count,        '点赞数': attitudes_count,    }
def get_weibo_list(v_keyword, v_max_page):    """    爬取微博内容列表    :param v_keyword: 搜索关键字    :param v_max_page: 爬取前几页    :return: None    """    containerid = get_containerid(v_loc=v_keyword)    if not containerid:        print(f"Could not retrieve containerid for keyword: {v_keyword}")        return
    for page in range(2, v_max_page + 1):        print(f'===开始爬取第{page}页微博===')        url = 'https://m.weibo.cn/api/container/getIndex'        params = {            "containerid": containerid,            "luicode": "10000011",            "lcardid": "frompoi",            "extparam": "frompoi",            "lfid": f"100103type=92&q={v_keyword}",            "since_id": page,        }
        try:            r = requests.get(url, headers=headers, params=params)            r.raise_for_status()            card_group = r.json().get("data", {}).get("cards", [-1])[-1].get('card_group', [])        except (requests.RequestException, KeyError) as e:            print(f"Error fetching page {page}: {e}")            card_group = []
        for card in card_group:            try:                weibo_data = get_weibo_data(card)                weibo_data['页码'] = page                collection.insert_one(weibo_data)                print(f"插入成功: {weibo_data}")            except Exception as e:                print(f"处理失败: {e}")
if __name__ == '__main__':    max_search_page = 10  # 爬前n页    search_keywords = ['天安门','东湖风景区','日月潭']    for search_keyword in search_keywords:        get_weibo_list(v_keyword=search_keyword, v_max_page=max_search_page)    print('数据爬取和插入完成')

（欢迎关注，GISer博主给大家ღ( ´･ᴗ･` )比心，祝科研顺利！）

http://mp.weixin.qq.com/s?__biz=Mzg4NTE4NDE4NQ==&mid=2247486735&idx=1&sn=96fefa9b834f2258105f43b5d57c2536

城市感知计算

认识世界和改造世界，张岩博士和志愿者团队搭建的非盈利城市科学分享平台，欢迎加好友学术交流。

最新文章

GISChat茶话会十三期总结与回放

谷歌代码之夏Mesa项目中国开发者招募

GISChat第13期：空间异质性的建模与应用（本周六晚20:00准时开讲~）

利用移动传感数据实现城市环境噪声感知的智能理解

使用街景图像和混合语义图的多级城市街道表征方法

GISChat茶话会十二期总结与回放

GISChat第12期：从建成环境到虚拟空间（周四晚20:00准时开讲~）

论文分享｜基于路划模型（stroke-based）表征的中国主要城市路网韧性测度

GISChat新媒体矩阵及成员介绍

GISChat第11期分享（本周日晚20:00准时开讲~）

SAGE-GSAN:基于街景影像的出租车一氧化碳排放估计的图方法

基于噪音投诉数据和视觉语言混合方法感知噪音暴露及不平等

第10期茶话会回顾（科研习惯与科研经验分析）~

第10期茶话会回顾（工业GIS之旅）~

陈能成教授团队Nature Cities发文揭示全球城市化的局地干旱效应

GISChat第10期分享（明天20:00准时开讲~）

微调BERT实现中文微博情感分类（模型分享至HuggingFace）

空间结构如何影响心理恢复?一种基于图神经网络和街景图像的方法

物理-社会空间交互的视角：实现用户下一位置预测的异构图融合网络

第9期茶话会回顾

GISChat第9期：学术生涯规划与科研经验分享（明天-7月2日晚20：00准时开讲）

茶话会第8期分享（本周末20:00！）

中国地图故事第六辑：高考关注度的地区差异

绘制订阅者的全家福（留言送5件GISChat定制文化衫！）

第七期茶话会回顾

利用微博签到数据感知城市动态（分析代码+抓包教程）

茶话会第7期分享(本周末20:00！)

基于树莓派打造你的个人感知终端

茶话会的故事

人本视角出发的GeoAI模型研究以及其在城市地理问题中的应用—（视频总结版）

碳通量核算-工厂碳排放及海洋碳吸收—（视频总结版）

论文分享｜超过十万条微博数据揭示小区环境如何影响居民在COVID封控期间的情绪

IEEE J-STARS“街景影像与地理人工智能”专刊征稿

分析700份代表提案，看看两会大家关心什么！

GISChat茶话会第五期-前沿研究分享（下周六晚！）

考虑道路风险和道路行人需求的溃坝洪水灾害下的行人疏散规划

微博签到数据的获取思路与实战

第一届亚洲地图学会议AsiaCarto 2024（一号通知）

深度感知一切|自港大&抖音的DepthAnythig

中国人口贩卖数据爬取教程与分析报告

哪个城市是中央眼中的心头爱？基于新闻联播文本的大数据分析

2024年度展望：无用之用&公众号的朋友们

带审图号标准地图制作，如何设置中国地图的标准投影？

标准地图国内外对比＆区划数据获取方法

超越微博，小红书数据采集数据、代码和思路

房价真的降了么！

从街景图像中分析安全感知的性别差异

城市绿地可达性及其计算方法

IJGIS 专刊征稿 | GeoHealth Data Science

应用于城市分析的空间显式的可解释性人工智能

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉