对沪深A股股票名称,出现的词频数量统计

文摘   财经   2024-11-22 15:00   湖北  


数据是个宝,研究少烦恼

挖的深,看的远,赚的满

神器,省时,省力,省心

★★★★博文原创不易,我的博文不需要打赏,也不需要知识付费,可以白嫖学习小技巧。喜欢的老铁可以点赞+收藏分享+置顶,小红牛在此表示感谢。★★

看到有人对关键字选股有研究,比如前面的东方系,凭着好玩好奇,我也来统计统计,看看股票市场中出现的关键字最多的是哪些?要是执行Python代码统计词频结果,需要做以下准备。

1.准备股票数据源:你可以去网页采集,也可以直接在通达信里面提取股票名称,下面讲讲在通达信里面如何提取股票名称。使用快捷键34,弹出数据导出的窗口,这里选择excel+所有数据(表示所有股票),最后选择导出按钮即可得到一份A股数据源(以下我的数据没有包涵科创板和北证的股票测试)。

然后打开表格数据,把里面的名称列选中并复制,直接粘贴到一个txt记事本文件中,命名A股名称并把粘贴的第一行名称删掉。如下图所示

2.Python源码:介绍2种词频统计的分析方法,jieba和Counter模块,如果是逐个字分析可以用Counter模块,如果想要对词语统计用jieba这个中文分词的模块操作,最后把统计的词频,按照从高到低全部保存为txt即可。

↓ 源码如下 ↓

# -*- coding: utf-8 -*-# @Author : 小红牛# 微信公众号:wdPythonimport reimport jiebaimport wordcloudfrom collections import Counter
# 1.读取股票名称数据f = open('A股名称.txt', encoding='utf-8')text = f.read()# 使用正则,只取中文的字符,过滤英文数字,各种标点符号*st等等new_text = re.findall('[\u4e00-\u9fff]+', text)new_text = ''.join(new_text)
# 2.数据可视化w = wordcloud.WordCloud(background_color='#CC0033', height=400, width=700, scale=15, font_path='simkai.ttf')
w.generate(text)w.to_file('词云图.png')
# 3.使用Counter进行词频统计# 使用jieba进行分词# lcut_result = jieba.lcut(new_text, cut_all=False)# word_freqs = Counter(lcut_result)# num = len(word_freqs)# print(num)
# 逐字分词word_freqs = Counter(new_text)num = len(word_freqs)print(num)# 显示前200的关键词print(word_freqs.most_common(200))
# 4.保存统计的词频数据with open('A股词频.txt', 'w', encoding='utf-8') as file: # 引用num可以把数据按照次数靠前的优先写入 for word, freq in word_freqs.most_common(num): # 将词汇和频率转换为字符串,并添加到文件中 # 你可以根据需要调整格式,比如添加换行符、分隔符等 file.write(f'{word}:{freq}\n')    print('数据保存完毕!!')

Counter逐字输出内容:比如下面显示的是前200的关键字,股票中含有东字的就有127个。

[('股', 759), ('份', 715), ('科', 580), ('技', 441), ('中', 295), ('电', 286), ('新', 272), ('华', 256), ('业', 229), ('能', 205), ('海', 170), ('国', 165), ('天', 161), ('药', 152), ('金', 146), ('通', 142), ('达', 137), ('集', 127), ('东', 127), ('信', 123), ('材', 123), ('源', 120), ('光', 114), ('智', 113), ('团', 112), ('力', 111), ('大', 100), ('化', 95), ('南', 91), ('江', 87), ('安', 86), ('生', 86), ('工', 85), ('泰', 82), ('子', 81), ('高', 80), ('龙', 78), ('环', 77), ('物', 75), ('联', 74), ('方', 74), ('特', 74), ('德', 73), ('医', 73), ('康', 72), ('创', 72), ('控', 72), ('利', 70), ('发', 69), ('三', 67), ('银', 66), ('山', 66), ('美', 61), ('瑞', 61), ('建', 58), ('机', 57), ('气', 55), ('西', 54), ('星', 54), ('博', 54), ('长', 53), ('恒', 52), ('宝', 52), ('亚', 51), ('精', 51), ('万', 51), ('盛', 51), ('行', 50), ('广', 50), ('航', 49), ('北', 47), ('上', 46), ('尔', 46), ('兴', 45), ('普', 44), ('丰', 43), ('威', 42), ('保', 40), ('阳', 40), ('合', 40), ('和', 40), ('邦', 40), ('百', 40), ('证', 39), ('家', 39), ('传', 39), ('钢', 38), ('明', 38), ('州', 37), ('富', 37), ('宏', 37), ('福', 37), ('凯', 37), ('券', 36), ('疗', 36), ('京', 36), ('苏', 36), ('农', 35), ('际', 35), ('重', 35), ('云', 35), ('品', 35), ('宁', 34), ('城', 34), ('川', 34), ('展', 34), ('奥', 34), ('维', 34), ('网', 34), ('永', 34), ('立', 33), ('远', 32), ('浙', 32), ('正', 32), ('林', 32), ('飞', 31), ('港', 31), ('迪', 30), ('动', 30), ('媒', 30), ('息', 30), ('元', 30), ('健', 30), ('文', 30), ('石', 29), ('学', 29), ('水', 29), ('成', 29), ('润', 29), ('嘉', 29), ('制', 29), ('食', 29), ('神', 28), ('赛', 28), ('投', 28), ('汇', 28), ('资', 28), ('深', 28), ('英', 28), ('日', 28), ('汽', 27), ('顺', 27), ('斯', 27), ('隆', 27), ('克', 27), ('数', 27), ('商', 26), ('微', 26), ('宇', 26), ('马', 26), ('太', 25), ('路', 25), ('蓝', 25), ('思', 25), ('莱', 25), ('森', 25), ('装', 25), ('实', 25), ('讯', 24), ('酒', 24), ('一', 24), ('软', 24), ('设', 24), ('地', 24), ('佳', 24), ('铁', 23), ('鼎', 23), ('青', 23), ('捷', 23), ('境', 23), ('密', 22), ('车', 22), ('波', 22), ('洋', 22), ('众', 22), ('开', 22), ('矿', 21), ('格', 21), ('术', 21), ('同', 21), ('爱', 21), ('乐', 21), ('视', 20), ('世', 20), ('胜', 20), ('峰', 20), ('时', 19), ('民', 19), ('河', 19), ('荣', 19), ('双', 19), ('四', 19), ('贝', 19), ('件', 18), ('九', 18), ('晶', 18), ('风', 18), ('红', 18), ('诺', 18), ('雅', 18)]

jieba分词后逐字输出内容:

[('股份', 706), ('科技', 403), ('集团', 108), ('药业', 68), ('电子', 64), ('智能', 61), ('新材', 55), ('生物', 54), ('中国', 52), ('能源', 51), ('控股', 45), ('中', 43), ('电气', 38), ('医疗', 35), ('证券', 35), ('上海', 32), ('信息', 30), ('新', 30), ('光电', 29), ('国际', 29), ('医药', 28), ('环保', 28), ('东方', 27), ('发展', 27), ('食品', 27), ('银行', 25), ('传媒', 25), ('制药', 25), ('和', 22), ('电力', 21), ('环境', 21), ('技术', 19), ('浙江', 19), ('健康', 19), ('软件', 18), ('精密', 17), ('化学', 17), ('动力', 17), ('通信', 17), ('金', 16), ('精工', 16), ('宁波', 15), ('家居', 15), ('实业', 15), ('达', 14), ('化工', 14), ('重工', 13), ('山东', 13), ('高新', 13), ('航天', 13), ('装备', 13), ('矿业', 12), ('江苏', 12), ('汽车', 12), ('机电', 12), ('文化', 12), ('中科', 11), ('能', 11), ('电器', 11), ('材料', 11), ('网络', 11), ('资源', 11), ('大', 11), ('新能', 11), ('设计', 11), ('节能', 11), ('南京', 10), ('新华', 9), ('海南', 9), ('教育', 9), ('燃气', 9), ('联合', 9), ('工业', 8), ('北方', 8), ('中信', 8), ('机械', 8), ('天', 8), ('高速', 8), ('重庆', 8), ('通', 8), ('国', 8), ('地产', 8), ('建设', 8), ('生态', 8), ('旅游', 8), ('时代', 7), ('招商', 7), ('中航', 7), ('三', 7), ('黄金', 7), ('航空', 7), ('电', 7), ('南', 7), ('西部', 7), ('纸业', 7), ('创业', 7), ('深', 7), ('苏州', 7), ('都', 7), ('长江', 6), ('石化', 6), ('北京', 6), ('资本', 6), ('四川', 6), ('创新', 6), ('湖南', 6), ('厦门', 6), ('激光', 6), ('物流', 6), ('建工', 6), ('智慧', 6), ('四方', 6), ('特', 6), ('高', 6), ('华新', 6), ('世纪', 6), ('石油', 5), ('陕西', 5), ('阳光', 5), ('眼科', 5), ('三峡', 5), ('国投', 5), ('杭州', 5), ('电工', 5), ('路桥', 5), ('长城', 5), ('青岛', 5), ('信', 5), ('华电', 5), ('广电', 5), ('钢铁', 5), ('材', 5), ('华阳', 5), ('天地', 5), ('渤海', 5), ('水务', 5), ('检测', 5), ('出版', 5), ('数据', 5), ('集成', 5), ('数控', 5), ('中原', 5), ('医学', 5), ('合金', 5), ('高科', 5), ('江南', 5), ('乳业', 5), ('智控', 5), ('光学', 5), ('大连', 5), ('种业', 5), ('万', 5), ('时尚', 5), ('投资', 5), ('泰', 5), ('通达', 5), ('贵州', 4), ('电源', 4), ('讯', 4), ('铝业', 4), ('南方', 4), ('鹏', 4), ('鼎', 4), ('特钢', 4), ('兴业', 4), ('啤酒', 4), ('亿', 4), ('山西', 4), ('轮胎', 4), ('有色', 4), ('中粮', 4), ('元', 4), ('华科技', 4), ('深圳', 4), ('重机', 4), ('英', 4), ('科达', 4), ('利', 4), ('酒店', 4), ('东华', 4), ('晨光', 4), ('凤凰', 4), ('振华', 4), ('神州', 4), ('粤', 4), ('传动', 4), ('国机', 4), ('电路', 4), ('广东', 4), ('永安', 4), ('期货', 4), ('美', 4), ('电科', 4), ('数字', 4), ('通用', 4), ('电机', 4), ('宏达', 4), ('影视', 4), ('远', 4), ('三维', 4)]

温馨提示:股市有风险,投资需谨慎。本文所写内容仅供粉丝们参考使用,仅为个人研究观点表述,股友们须自己思考与分析股市。


-!! 完毕 ,感谢您的收看!!-


----------★历史博文集合★----------

股软件  龙虎榜小红牛分析系统  资金大单系统 

通达信主附图指标改选股器  通达信自定义数据系统

小红牛股票数据共享   其他股软  Ex系统

 通达信小技巧  通达信指标编写教程  Tdx指标公式

龙虎榜教程  游资盈亏数据  产业链上下游

量化教程  指标回测  Python  股学堂

龙虎榜小红牛分析系统
大数据分析,程序化研股,来识别可交易的机会,通过策略模型和算法,找到最佳或大概率的操作方向。
 最新文章