第七次课程序代码，直接复制运行

教育 2024-10-29 10:55 湖南

第一个程序：测试豆瓣网站

import requestsfrom bs4 import BeautifulSoupurl=input('请输入您要爬取的网址：') #动态输入网址r=requests.get(url) #向网站服务器发送请求print(r.status_code)r.encoding=r.apparent_encoding #修改编码方式html=r.text #网页的源代码soup=BeautifulSoup(html,'html.parser') #解析源代码text=soup.get_text().replace('\n\n','') #得到源代码中的文本数据print(text) #输出文字内容title=soup.title.text#得到title标签的内容print(title) #输出文字内容with open(title+".txt","w",encoding=r.encoding,errors='ignore') as f:        f.write(text)#将爬取的小说写进记事本文件中#测试爬取豆瓣文学作品

第二个程序：加入代理再测试爬取豆瓣

import requestsfrom bs4 import BeautifulSoupurl=input('请输入您要爬取的网址：') #动态输入网址headers = {'User-Agent':'*'}#设置用户代理https://www.douban.com/r=requests.get(url,headers=headers) #向网站服务器发送请求print(r.status_code)r.encoding=r.apparent_encoding #修改编码方式html=r.text #网页的源代码soup=BeautifulSoup(html,'html.parser') #解析源代码text=soup.get_text().replace('\n\n','') #得到源代码中的文本数据print(text) #输出文字内容title=soup.title.text#得到title标签的内容print(title) #输出文字内容with open(title+".txt","w",encoding=r.encoding,errors='ignore') as f:        f.write(text)#将爬取的小说写进记事本文件中

第三个程序：修改文件名字符爬取《肖申克的救赎》

import requestsfrom bs4 import BeautifulSoupurl=input('请输入您要爬取的网址：')  #动态输入网址headers = {'User-Agent':'*'}#设置用户代理https://www.douban.com/ r=requests.get(url,headers=headers)  #向网站服务器发送请求print(r.status_code)
if r.status_code==200:        print('恭喜您！爬取成功！')        else:        print('很遗憾！爬取失败了！')        exit()#退出程序        
r.encoding=r.apparent_encoding  #修改编码方式non_bmp = dict.fromkeys(range(0x010000, 0x10FFFF))#去掉乱起八糟的字符
html=r.text.translate(non_bmp)  #网页的源代码soup=BeautifulSoup(html,'html.parser')  #解析源代码text=soup.get_text().replace('\n\n','')  #得到源代码中的文本数据print(text)  #输出文字内容
asc= dict.fromkeys(range(0x00000, 0x0007F))#去掉ASCII码字符title=soup.title.text.translate(asc)  #得到title标签的内容
print(title)  #输出文字内容with open(title+".txt","w",encoding=r.encoding,errors='ignore') as f:    f.write(text)#将爬取的小说写进记事本文件中
#https://movie.douban.com/subject/1292052/comments

http://mp.weixin.qq.com/s?__biz=MzI0ODM4MDUzNQ==&mid=2247533139&idx=1&sn=47783dd1602ce945ecba8dce3191c713

信息科技时代

本公众号主要以数据与事实为基础进行推文，不接受立场式质疑，乐意接受论证式质疑……会经常分享信息技术相关教学资源及最新的信息技术资讯等，欢迎大家关注~

最新文章

我支持精英教育，但是不支持精致的利己主义者的精英教育

卷是自找的，一盘散沙，面对不公忍气吞声

教育里没有神话，只有赤裸裸的资源分配不公带来的结果

误会大了，那些提前完成作业的不是因为他们卷，而是因为他们提前完成后可以搞别的事情

第十次课测试程序：爬取李飞飞的《我看见的世界》的短评

软件应用|在线免费清除图片背景-romove.bg

学生的近视里，有多少是“被迫”近视的呢？

学生嘘声一片：连信息课都卷，还让不让人活了？

没有技术迭代更新的应用，普通人的上升通道更加有限

媒体狂推狗尾草能让视力变好：看来狗尾巴草要遭殃了！

湖南2024年高校招生58.41万，2023年出生人口39.5万，未来师范类的出路显然是毕业即失业

株洲房价鹤岗化？要买便宜房子可以来株洲了……

期中考试考完语文哭着打电话要我接回家的小娃，成绩出来了

课改失败的罪魁祸首，值得一听

科技如果没有创新应用，靠发钱也解决不了所有问题

文明的到来与维护，需要科技的加持与经济的发展作为前提

底层美国人民对精英们的膜拜以及对非法移民而来的更底层人们排斥的反差感，不得不让人沉思

越是难熬的时段里，越努力越痛苦，个体越需要修生养息

MATE60的评论塌方了？某宝的东西越来越差强人意了。

2024（下）|信息奥赛--动态规划与记忆化搜索

78的拜登与特朗普都要干到82岁才能退休，我们还能抱怨啥呢？

梁建章：建议取消分流普及大学教育，人的一生不仅仅是为了工作！

当种族主义与性别歧视失宠时，文凭主义成为目前社会中堂而皇之的偏见

过“紧日子”时，更需要领导层给予老师们精神上的理解与支持共度难关，而不是纪律上“严管”下属

书记的一句尽量为老师们解决负担重的安慰，就赢得了老师们如雷的掌声

2024(下)必修一|第九节文件名的命名规则--4.4.1for循环结构

终于明白：精英们宣扬的有些观念本身的问题在哪里？

没有技术自动化的应用，弱势群体过得有多惨？看看日本的明治维新

从姜萍事件来看CCF处理舆情的方式，精英阶层的傲慢与自私才导致无产阶级的卢德运动

2024（下）|信息奥赛--动态规划

AI越发达，应用越深入，被控感则越强，人活得越来越像受控的工具

为什么监管机制对于姜萍事件的处理能力这么迟钝？

这个世界从来不会自觉自发地对弱者善良，除非社会制度在完善中越来越好

教育现状：晋上高级的已躺平，晋级无望的在摆烂，晋级途中的在拼命。

2024化学国集名单迟迟不发布，据说数据里面跟生物竞赛一样出现了异常？

月度指定考核C等人数的奇葩政策为何延续了九年，还无力推翻？

不要脸的金灿荣，质疑他就被扣“特务”与“恨国党”的帽子

从美国两党政策，看本单位月度考核C等之奇葩政策

从生物国集数据异常谈合理怀疑

说一说教育生源集中时代为何开始走向生源分散时代

信息课太爽了，超爱信息课

参考日本学历贬值史，当下读研读博还有性价比吗？

第七次课程序代码，直接复制运行

央视纪录片 |《智能时代 2023》1-6集（可给学生播放观看）

2024(下)必修一|第八节爬虫的响应与编码--4.3.1if...elif...else语句的应用

编程的核心不是语法，而是算法

人工智能的七个阶段

新科技利润继续增长，亏损的是夕阳产业？

两个不同的自媒体世界，两个不同的评论区人群

2024CSP-S提高级第二轮认证习题及下载

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉