本期将利用Python分析「上海链家二手房数据」,看看:上海各行政区二手房数量、单价、均价分布、二手房面积、楼层、年份、小区分布等情况,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。
【下期:上海链家二手房房价预测】
涉及到的库:
Pandas — 数据处理
Pyecharts — 数据可视化
import pandas as pd
from pyecharts.charts import *
from pyecharts.commons.utils import JsCode
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')
2.1 读取数据
df = pd.read_excel('./上海链家二手房数据.xlsx')
2.2 查看数据信息
df.info()
一共有28201条数据 包含小区名称、户型、面积、区域、楼层、朝向、价格、单价、建筑时间等字段
2.3 去除重复数据
df1 = df.drop_duplicates()
2.4 面积、价格、单价、楼层数据提取
df1['面积'] = pd.to_numeric(df1['面积'].str.extract(r'(\d+\.?\d+)', expand=False))
df1['价格'] = pd.to_numeric(df1['价格'].str.extract(r'(\d+)', expand=False))
df1['单价'] = pd.to_numeric(df1['单价'].str.extract(r'(\d+)', expand=False))
df1['楼层'] = pd.to_numeric(df1['楼层'].str.extract(r'(\d+)', expand=False))
def get_map():
chart = (
Map(init_opts=init_opts)
.add('',
[list(z) for z in zip(x_data, y_data)],
'上海',
is_map_symbol_show=False,
)
.set_global_opts(
title_opts=opts.TitleOpts(
title="1-上海各行政区二手房数量分布",
pos_left="center",
pos_top='2%',
subtitle=subtitle,
),
visualmap_opts=opts.VisualMapOpts(
is_show=True,
),
) )
浦东新区、闵行区、徐汇区、杨浦区、宝山区、普陀区、长宁区、嘉定区、松江区等行政区的二手房数量相较其他行政区更多一些。 静安区、金山区、崇明区的二手房相对少一些。
黄浦区二手房均价最高,总价达到了1000万以上。
静安区、长宁区、青浦区、徐汇区、虹口区、浦东新区、闸北区、普陀区、闵行区、杨浦区等行政区二手房平均房价也在500万以上。
def get_bar():
chart = (
Bar(init_opts=init_opts)
.add_xaxis(x_data)
.add_yaxis('', y_data)
.reversal_axis()
.set_global_opts(
title_opts=opts.TitleOpts(
title='3-上海各行政区二手房平均单价(元/㎡)',
subtitle=subtitle,
pos_top='2%',
pos_left='center',
),
visualmap_opts=opts.VisualMapOpts(
is_show=False,
),
legend_opts=opts.LegendOpts(is_show=False)
)
)
静安区、黄浦区两个行政区二手房单价达到了90000以上。
单价50000以上的有徐汇区、长宁区、虹口区、闸北区、杨浦区、普陀区、浦东新区、闵行区、宝山区。
房屋朝向方面90%以上是中规中矩的南北朝向。
3.5 二手房建筑时间分布
def get_line():
chart = (
Line(init_opts=init_opts)
.add_xaxis(x_data)
.add_yaxis('', y_data)
.set_global_opts(
title_opts=opts.TitleOpts(
title="5-二手房建筑时间分布",
pos_left="center",
pos_top='2%',
subtitle=subtitle,
),
visualmap_opts=opts.VisualMapOpts(
is_show=False,
),
) )
大多数房屋建筑时间在1992年以后,房龄在20-30年之间。
大多数二手房楼层在5-9层之间,少量达到了60层及以上。
def get_Scatter():
chart = (
Scatter(init_opts=init_opts)
.add_xaxis(x_data)
.add_yaxis('', y_data)
.set_global_opts(
title_opts=opts.TitleOpts(
title="7-二手房面积(㎡)分布",
pos_left="center",
pos_top='2%',
subtitle=subtitle,
),
visualmap_opts=opts.VisualMapOpts(
is_show=False,
),
)
)
大多数二手房面积在200㎡及以下,400㎡及以上应该是别墅比较多。
2室2厅、2室1厅、3室2厅的二手房居多,每种类型都在5000套以上。
二手房单价最高的小区:宏业花园、汤臣怡园、皋兰路21弄、东宝兴路306号、四方西郊花园、雾晓大楼、荣业里、泰康路21号、凯德茂名公馆、华侨城苏河湾(公寓)
def get_WordCloud():
chart = (
WordCloud(init_opts=init_opts)
.add('',words,word_size_range=[5,34])
.set_global_opts(
title_opts=opts.TitleOpts(
title='10-小区价格词云',
subtitle=subtitle,
pos_top='2%',
pos_left='center',
),
visualmap_opts=opts.VisualMapOpts(
is_show=False,
),
legend_opts=opts.LegendOpts(is_show=False)
)
)
以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
往期推荐
可视化 | Flask+Mysql+Echarts 豆瓣电影Top250数据分析系统
机器学习 | 基于KNN近邻和随机森林模型对用户转化进行分析与预测
Pandas+Pyecharts | 全国热门旅游景点数据分析可视化
Pandas+Pyecharts | 深圳市共享单车数据分析可视化
Pandas+Pyecharts | 暑期档电影票房数据分析可视化
Pandas+Pyecharts | 平均预期寿命数据可视化
Pandas+Pyecharts | 杭州二手房数据分析可视化
Pandas+Pyecharts | 当当网畅销图书榜单数据分析可视化
Pandas+Pyecharts | 海南旅游攻略数据分析可视化
Pandas+Pyecharts | 全国海底捞门店数据分析可视化
Pandas+Pyecharts | 京东某商品销量数据分析可视化
Pandas+Pyecharts | 第七次人口普查数据分析可视化
Pandas+Pyecharts | 快手APP全国大学生用户数据分析可视化
Pandas+Pyecharts | 奥迪汽车销量数据分析可视化
Pandas+Pyecharts | 剧荒了?用Python找找最近的热播好剧!
Pandas+Pyecharts | 2023年胡润百富榜数据分析可视化
Pandas+Pyecharts | 成都大运会奖牌数据分析可视化
Pandas+Pyecharts | 电子产品销售数据分析可视化+用户RFM画像
Pandas+Pyecharts | 北京近五年历史天气数据可视化
Pandas+Pyecharts | 中国高校及专业数据分析可视化
Pandas+Pyecharts | 新冠疫情数据动态时序可视化
Pandas+Pyecharts | 全国吃穿住行消费排行榜,最‘抠门’的地区居然是北京!!!
Pandas+Pyecharts | 2022世界500强数据分析可视化
Pandas+Pyecharts | 上海市餐饮数据分析可视化
Pandas+Pyecharts | 山东省高考考生数据分析可视化
Pandas+Pyecharts | 20000+天猫订单数据可视化
Pandas+Pyecharts | 40000+汽车之家数据分析可视化
Pandas+Pyecharts | 广州市已成交房源信息数据可视化
Pandas+Pyecharts | 某直聘平台招聘信息数据可视化
可视化 | 分享一套Flask+Pyecharts可视化模板
用Python分析了3W+《独行月球》影评数据,看看观众们怎么说~