Airtest-Selenium实操小课①：爬取新榜数据

科技科技 2023-12-15 10:52 广东

👆对私有云感兴趣可以进入公众号回复“私有云”哦。

1. 前言

最近看到群里很多小伙伴都在用Airtest-Selenium做一些web自动化的尝试，正好趁此机会，我们也出几个关于web自动化的实操小课，仅供大家参考~

今天跟大家分享的是一个非常简单的爬取网页信息的小练习，在百度找到新榜网页，搜索关键词“自动化”，爬取前5名的公众号名称。

2. 需求分析和准备

整体的需求大致可以分为以下步骤：

打开chrome浏览器
打开百度网页
搜索“新榜官网”
点击“找达人”按钮
搜索关键词“自动化”
爬取排名前5的公众号名称

在写脚本之前，我们需要准备好社区版AirtestIDE，设置好chrome.exe和对应的driver；并且确保我们的chrome浏览器版本不是太高以及selenium是4.0以下即可（这些兼容问题我们都会在后续的版本修复）。

3. 脚本实现

3.1 完整示例代码

接下来就可以着手写脚本啦，关于web自动化脚本，我们可以借助IDE的selenium Window ，方便我们录制控件信息和快速使用常用接口：

完整的参考代码如下：

# -*- encoding=utf8 -*-
__author__ = "AirtestProject"

from airtest.core.api import *
from airtest_selenium.proxy import WebChrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

"""
任务描述：打开chrome浏览器，打开百度搜索新榜，进入新榜搜索关键词“自动化”，爬取自动化综合排名前10的公众号名称
https://www.newrank.cn/search/gongzhonghao/%E8%87%AA%E5%8A%A8%E5%8C%96
"""
def start_selenium():
    # 创建一个实例，代码运行到这里，会打开一个chrome浏览器
    driver = WebChrome()
    driver.implicitly_wait(20)

    driver.get("https://www.baidu.com/")
    # 输入搜索关键词并提交搜索
    search_box = driver.find_element_by_name('wd')
    search_box.send_keys('新榜官网')
    search_box.submit()
    # 使用XPath查找文本为 "上海新榜信息技术股份" 的元素并点击
    try:
        element = driver.find_element_by_xpath("//div[@id='content_left']/div[@id='1']/div[@class='c-container']/div[1]/h3[@class='c-title t t tts-title']/a")
    except Exception as e:
        element = driver.find_element_by_xpath('//*/text()[normalize-space()="上海新榜信息技术股份"]/parent::*')
    element.click()
    # 获取所有窗口句柄
    window_handles = driver.window_handles
    # 切换到新打开的窗口
    driver.switch_to.window(window_handles[1])
    # 获取新页面的链接
    new_page_url = driver.current_url
    # 打印新页面的链接
    print(new_page_url)
    driver.get(new_page_url)
    # # 在主内容内部查找 "找达人" 按钮并点击
    search_box = driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

    print(search_box.text)
    # 获取a标签的URL
    url = search_box.get_attribute('href')
    # 打印URL
    print(url)
    driver.get(url)  # 请求搜索链接-跳转
    # 输入搜索关键词并提交搜索
    search_box = driver.find_element_by_id('rc_select_0')
    # 模拟发送Backspace键
    search_box.send_keys(Keys.BACKSPACE)  # 清空内容
    search_box.send_keys(Keys.BACKSPACE)
    search_box.send_keys('自动化')
    # 模拟发送Enter键
    search_box.send_keys(Keys.ENTER)
    sleep(5)
    list_date = driver.find_elements(By.XPATH, "//div[@class='ant-spin-container']//li")
    for item in list_date:
        name_str = item.find_element_by_class_name("index_name__Fk83i")
        print(name_str.text)

if __name__ == "__main__":
    start_selenium()

3.2 重要知识点

1）创建实例并打开浏览器

driver = WebChrome()

2）打开网页

driver.get("https://www.baidu.com/")

3）元素定位

driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

更多定位方式可以在官方教程学习：https://python-selenium-zh.readthedocs.io/zh_CN/latest/ 。

4）模拟按键输入

search_box = driver.find_element_by_name('wd')
search_box.send_keys('新榜官网')

5）模拟回车

search_box = driver.find_element_by_name('wd')
search_box.submit()

6）模拟键盘事件

search_box = driver.find_element_by_id('rc_select_0')
# 模拟发送Backspace键
search_box.send_keys(Keys.BACKSPACE)

4. 注意事项与小结

4.1 相关教程

4.2 参考脚本的有效性

请同学们不要过多依赖于我们给出的参考脚本，通常情况下，网页的控件信息可能会随着前端的改动而更新，所以我们的教程并不是永久有效的。

更多的是参考整体脚本的知识点，查漏补缺，让自己在小实践中对web自动化的熟练程度更高。也非常欢迎热心同学给我们投稿~

（猜你还想看）

▼

【更新公告】Airtest更新至1.3.2版本

Airtest结合Poco对控件实施精准截图，学起来！

Airtest：各平台的剪切板功能汇总

AirtestProject

AirtestProject是网易开源的UI自动化测试方案。关注我们，获取测试领域的最新技术，洞察测试行业的最新动态。

最新文章

关于Airtest近期常见问题解答

iOS-Tagent上新了，iOS17的wda的部署小技巧你get了吗~

轻松掌握在AirtestIDE中切换为本地Python环境的详细指南

Selenium 进阶技巧：实现 Web 端的鼠标操作功能

高效Selenium测试技巧：轻松控制已开启的浏览器

网易Airtest预祝大家国庆节快乐！

【IOS自动化】IOS18如何使用Airtest进行自动化测试及go-ios的基本使用

【私有云场景案例分享③】批量回归测试自动化流程

【装包测试】Android应用权限授权小技巧

【私有云场景案例分享②】批量装包与冒烟测试的自动化实现

批量图像识别的快速遍历技巧

【私有云场景案例分享①】高效的集群管理能力

录屏方法剖析，记录脚本跑测不再难

Airtest封装的Tidevice接口有多好用（二）

网易Airtest私有云新增成员：主板机箱重磅出击

Airtest封装的Tidevice接口有多好用（一）

Airtest成功案例分享：KLab连续2年携Airtest私有云产品参加CEDEC大会！

文字识别技术升级：Airtest与PaddleOCR模型的协作小技巧

自动化测试小技巧之Airtest-Selenium和Excel的无缝协作

Airtest-Selenium实操小课④：微信读书上阅读书籍

Airtest脚本的重构与优化：提升测试效率和可读性

多设备兼容脚本，轻松拿捏

Windows技巧：轻松连接多进程窗口之一

Poco框架实操：对节点可实施的操作

打开、关闭、切换App以及清除App进程，操作so easy！

网易Airtest集群方案大揭秘：升级版便携式机柜来袭~

网易Airtest祝大家劳动节快乐，事业腾飞！

Poco框架实操：获取节点属性的高效技巧(一)

Poco节点关系大公开！

如何用覆盖函数的方式，实现你自己的touch？

遇到时间控件怎么办？不要慌，教你轻松拿下

摸鱼小技巧来啦，速来围观

Airtest全新升级兼容Selenium 4.0，快来看看更新的内容吧

【更新公告】AirtestIDE更新至1.2.17版本

网易Airtest祝大家龙行龘龘，前程朤朤，新春快乐！

2023 Airtest 年终总结来了，大佬们速来围观！

Airtest-Selenium实操小课③：下载可爱猫猫图片

【更新公告】Airtest更新至1.3.3版本

Airtest-Selenium实操小课②：刷B站视频

网易Airtest预祝大家元旦快乐，龙年如意！

Airtest-Selenium实操小课①：爬取新榜数据

【更新公告】Airtest更新至1.3.2版本

Airtest结合Poco对控件实施精准截图，学起来！

Airtest：各平台的剪切板功能汇总

【更新公告】AirtestIDE更新至1.2.16版本

【新手必读】Airtest测试Android手机常见的设置问题

【速看】如何通过合理的封装，让你的自动化脚本更上一层楼！

新手如何用Airtest实现在图片范围内随机点击？

AirtestProject 全体祝大家欢度双节，中秋国庆快乐~

网易Airtest全新推出：小型便携式集群解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉