原文作者
原文发表于Gale Review Blog
Sarah L. Ketchley,Gale数字人文高级专家
Gale数字学术实验室(Gale Digital Scholar Lab)最新增加了三套Python笔记本(Python Notebooks),为处理和分析文本数据提供更多灵活性。每套笔记本都可以下载,然后直接使用或进行改编以满足个性化的研究需求。本文为想要将Python编程部分加入到他们的文本分析工作中但却不知道从哪里开始的研究者提供了一些思路。
本文也可以与《Gale数字学术实验室中的命名实体识别、Python笔记本和一位勇敢的女性日记作者》一文一同阅读,后者对使用命名实体识别的研究项目提供了一些实用的编程建议。
什么是Python?
在编程语言领域,Python表现出色,是一个多用途且强大的工具,在很多不同领域都深受欢迎,从网络开发到数据分析和人工智能。它的设计理念强调代码的可阅读性和简易性,而其庞大的代码库更是初学者和资深开发者的理想之选。Python提供工具和资源支持各类应用,包括Django或Flask等支持网络开发的框架、Pandas和NumPy等数据科学库、以及TensorFlow或PyTorch等机器学习和人工智能库。
Python入门:人文学科的方法
作为各自领域的学科专家,很多人文学者既没有时间也不愿意将学习编程加入到他们的任务清单中。很多数字人文研究项目跨学科的特性意味着专职的程序员常常是团队的核心成员。然而,学习基本的编程技能对于计划使用数字人文方法研究数据的学者而言是有一些益处的。
这样的技能能够让人文学者验证假设,例如,建立最初的研究路径,开展初步的分析等,这些可以是申请经费时建立概念验证的要素。在由不同学科背景的学者和研究者组成的团队中,熟练的编程技能将会是很有帮助的:团队中能够有效沟通是数字人文项目取得成功的核心组成部分。
幸运的是,有很多有用的资源可以指导新手轻松开始学习编程,很多都是免费的。例如,William Mattingly的“Python人文”(https://pythonhumanities.com/)提供文字和视频教程,向新手介绍Python。Mattingly的YouTube频道上还有一套三小时的入门课程。
“会编程的历史学家”(https://programminghistorian.org/en/lessons/?topic=python)提供30多个使用Python的入门课程,演示如何完成不同的分析任务,适合初学者或有一定经验的人使用。大学图书馆通常也会为教师和学生开设研讨班,你可以留意你所在院校的培训计划,找到合适的机会。
Gale数字学术实验室中的Python笔记本
Gale数字学术实验室中的Python笔记本
在实验室中现在提供了三套Python笔记本,从初学者到有一定经验的研究者都可以一行一行的运行预先写好的Python脚本,处理文本数据,运行分析,以CSV或图片格式展示分析结果。这些可执行的代码可以使用Google Colab或Jupyter Notebooks运行。笔记本里的每一行代码或每个代码块都带有注释。注释用井号开始,例如“#provide the name of the file you’re uploading”(提供你正在上传文件的名称),如下图所示。这些备注提供了更多的描述性资料,说明相关代码行正在做什么。
Google Colab
Google Colab的全称是Google Colaboratory,是一个在线平台,提供与Google Drive相整合的Python开发环境。它允许用户在浏览器中编写和执行Python代码,无需本地安装或设置。它基于云的方法非常用户友好,而界面对于使用Google工具套件的用户而言也很熟悉。平台会将你正在使用的笔记本直接保存在你的Google Drive中,可以在不同的设备上轻松分享和访问。
在点击选定Python笔记本中的“获取副本”(Get a Copy)后,一个压缩文件夹会下载到你本地的计算机中。然后你可以登录进入Google Drive,搜索“Colab”或直接进入:https://colab.research.google.com/。
点击“文件”(File),然后点击“上传笔记本”(Upload Notebook),选择你从实验室下载的.ipynb文件。上传成功后,界面看起来如下:
在Google Colab中上传Python笔记本
你会看到每一个代码块都包含可执行的文本,以及解释每一段正在发生什么的评论文字。你将从文档最上方开始,通过将鼠标停留在[ ]区域或使用快捷键Ctrl+Enter运行每一个可执行单元。
在Google Colab中运行单元
以这种方式运行代码块能够观察到处理顺序:例如在执行相关指令之前,加载预先安装在Google Colab中的必要代码库,或调整代码,在分析路径中挖掘你关注的特定元素。这种方法可以帮助研究者有效解读他们的分析结果,因为他们能够控制每一个处理阶段。它也有助于对“开箱即用”的工具建立一种全方位思考和批判性的方法。
每一个单元都完全可以在平台上编辑,因此研究者可以根据需要调整代码。他们也可以使用Markdown(https://www.markdownguide.org/)添加他们自己的备注。
Jupyter Notebooks
和Google Colab一样,Jupyter笔记本(之前被称为IPython Notebooks)是交互式的、基于网络的平台,用于创建和分享包含活动代码、方程式、可视化图形和解释性文本的文档。它支持各种编程语言,而Python是在这个平台内最被广泛使用的一种语言。
如果你想要在本地使用Jupyter Notebooks,你可以通过Python的安装包管理器(https://jupyter.org/install)安装。安装后,你可以在你的终端上使用命令“jupyter notebook”启动本地Notebook服务器。这会在你的默认浏览器中打开一个基于网络的界面,你可以在此创建、编辑和运行存储在你本地计算机上的笔记本。
实验室中增加Python笔记本的目的是支持研究和教学,在平台内开展的研究工作和平台外开展的研究工作之间架起桥梁,使用更多的工具和研究方法。很多的开放教育资源可供Python初学者使用,为新手提供了一个轻松上手的起点。
欢迎关注:
Gale官方微信公众号及视频号:
联系我们
识别二维码填写您的联系信息和问题
或发送邮件至:
GaleChina@cengage.com