数据是个宝,研究少烦恼
挖的深,看的远,赚的满
神器,省时,省力,省心
★★★★★博文原创不易,我的博文不需要打赏,也不需要知识付费,可以白嫖学习小技巧。喜欢的老铁可以点赞+收藏分享+置顶,小红牛在此表示感谢。★★★★★
看到有人对关键字选股有研究,比如前面的东方系,凭着好玩好奇,我也来统计统计,看看股票市场中出现的关键字最多的是哪些?要是执行Python代码统计词频结果,需要做以下准备。
1.准备股票数据源:你可以去网页采集,也可以直接在通达信里面提取股票名称,下面讲讲在通达信里面如何提取股票名称。使用快捷键34,弹出数据导出的窗口,这里选择excel+所有数据(表示所有股票),最后选择导出按钮即可得到一份A股数据源(以下我的数据没有包涵科创板和北证的股票测试)。
然后打开表格数据,把里面的名称列选中并复制,直接粘贴到一个txt记事本文件中,命名A股名称并把粘贴的第一行名称删掉。如下图所示
2.Python源码:介绍2种词频统计的分析方法,jieba和Counter模块,如果是逐个字分析可以用Counter模块,如果想要对词语统计用jieba这个中文分词的模块操作,最后把统计的词频,按照从高到低全部保存为txt即可。
↓ 源码如下 ↓
# -*- coding: utf-8 -*-
# @Author : 小红牛
# 微信公众号:wdPython
import re
import jieba
import wordcloud
from collections import Counter
# 1.读取股票名称数据
f = open('A股名称.txt', encoding='utf-8')
text = f.read()
# 使用正则,只取中文的字符,过滤英文数字,各种标点符号*st等等
new_text = re.findall('[\u4e00-\u9fff]+', text)
new_text = ''.join(new_text)
# 2.数据可视化
w = wordcloud.WordCloud(background_color='#CC0033', height=400,
width=700, scale=15, font_path='simkai.ttf')
w.generate(text)
w.to_file('词云图.png')
# 3.使用Counter进行词频统计
# 使用jieba进行分词
# lcut_result = jieba.lcut(new_text, cut_all=False)
# word_freqs = Counter(lcut_result)
# num = len(word_freqs)
# print(num)
# 逐字分词
word_freqs = Counter(new_text)
num = len(word_freqs)
print(num)
# 显示前200的关键词
print(word_freqs.most_common(200))
# 4.保存统计的词频数据
with open('A股词频.txt', 'w', encoding='utf-8') as file:
# 引用num可以把数据按照次数靠前的优先写入
for word, freq in word_freqs.most_common(num):
# 将词汇和频率转换为字符串,并添加到文件中
# 你可以根据需要调整格式,比如添加换行符、分隔符等
file.write(f'{word}:{freq}\n')
print('数据保存完毕!!')
Counter逐字输出内容:比如下面显示的是前200的关键字,股票中含有东字的就有127个。
[('股', 759), ('份', 715), ('科', 580), ('技', 441), ('中', 295), ('电', 286), ('新', 272), ('华', 256), ('业', 229), ('能', 205), ('海', 170), ('国', 165), ('天', 161), ('药', 152), ('金', 146), ('通', 142), ('达', 137), ('集', 127), ('东', 127), ('信', 123), ('材', 123), ('源', 120), ('光', 114), ('智', 113), ('团', 112), ('力', 111), ('大', 100), ('化', 95), ('南', 91), ('江', 87), ('安', 86), ('生', 86), ('工', 85), ('泰', 82), ('子', 81), ('高', 80), ('龙', 78), ('环', 77), ('物', 75), ('联', 74), ('方', 74), ('特', 74), ('德', 73), ('医', 73), ('康', 72), ('创', 72), ('控', 72), ('利', 70), ('发', 69), ('三', 67), ('银', 66), ('山', 66), ('美', 61), ('瑞', 61), ('建', 58), ('机', 57), ('气', 55), ('西', 54), ('星', 54), ('博', 54), ('长', 53), ('恒', 52), ('宝', 52), ('亚', 51), ('精', 51), ('万', 51), ('盛', 51), ('行', 50), ('广', 50), ('航', 49), ('北', 47), ('上', 46), ('尔', 46), ('兴', 45), ('普', 44), ('丰', 43), ('威', 42), ('保', 40), ('阳', 40), ('合', 40), ('和', 40), ('邦', 40), ('百', 40), ('证', 39), ('家', 39), ('传', 39), ('钢', 38), ('明', 38), ('州', 37), ('富', 37), ('宏', 37), ('福', 37), ('凯', 37), ('券', 36), ('疗', 36), ('京', 36), ('苏', 36), ('农', 35), ('际', 35), ('重', 35), ('云', 35), ('品', 35), ('宁', 34), ('城', 34), ('川', 34), ('展', 34), ('奥', 34), ('维', 34), ('网', 34), ('永', 34), ('立', 33), ('远', 32), ('浙', 32), ('正', 32), ('林', 32), ('飞', 31), ('港', 31), ('迪', 30), ('动', 30), ('媒', 30), ('息', 30), ('元', 30), ('健', 30), ('文', 30), ('石', 29), ('学', 29), ('水', 29), ('成', 29), ('润', 29), ('嘉', 29), ('制', 29), ('食', 29), ('神', 28), ('赛', 28), ('投', 28), ('汇', 28), ('资', 28), ('深', 28), ('英', 28), ('日', 28), ('汽', 27), ('顺', 27), ('斯', 27), ('隆', 27), ('克', 27), ('数', 27), ('商', 26), ('微', 26), ('宇', 26), ('马', 26), ('太', 25), ('路', 25), ('蓝', 25), ('思', 25), ('莱', 25), ('森', 25), ('装', 25), ('实', 25), ('讯', 24), ('酒', 24), ('一', 24), ('软', 24), ('设', 24), ('地', 24), ('佳', 24), ('铁', 23), ('鼎', 23), ('青', 23), ('捷', 23), ('境', 23), ('密', 22), ('车', 22), ('波', 22), ('洋', 22), ('众', 22), ('开', 22), ('矿', 21), ('格', 21), ('术', 21), ('同', 21), ('爱', 21), ('乐', 21), ('视', 20), ('世', 20), ('胜', 20), ('峰', 20), ('时', 19), ('民', 19), ('河', 19), ('荣', 19), ('双', 19), ('四', 19), ('贝', 19), ('件', 18), ('九', 18), ('晶', 18), ('风', 18), ('红', 18), ('诺', 18), ('雅', 18)]
jieba分词后逐字输出内容:
温馨提示:股市有风险,投资需谨慎。本文所写内容仅供粉丝们参考使用,仅为个人研究观点表述,股友们须自己思考与分析股市。
-!! 完毕 ,感谢您的收看!!-
----------★★历史博文集合★★----------