在EarlETF上,我曾在周日时不时更新名为“Earl好物志”的栏目,分享我近期购买或体验过的优质产品与软件。许多读者对此颇为喜爱,不时询问何时更新。今日,我便借此机会,谈谈我近期颇为钟爱的一项操作——使用语音输入撰写稿件。
我对效率有着近乎偏执的追求,尤其是在写作方面。此前我曾提及,为提升打字速度,2016年,即我35岁之际,我毅然放弃了当时已颇为熟练的全拼输入法,转而学习小鹤双拼。
虽然最初三个月颇为烧脑,但之后输入速度显著提升,一分钟100字已不在话下。
近期,我开始尝试使用语音输入撰写稿件——进一步提升速度。
为什么很多年我都不用语音输入
众所周知,人的语速极快,正常情况下一分钟可达250至300字,这意味着即便我双拼打字再快,也无法与语音输入相媲美。尽管我深知语音输入的优点,但多年来一直处于观察状态,未曾实际应用。
对于语音输入的体验可以追溯到2000年之前,可能是1997或1998年。早在那时,IBM已在Windows平台上推出了一款专门的中文语音输入法。当时我对各种新技术充满好奇,因此第一时间下载并安装使用。
在那个时代,使用IBM的语音输入系统,用户必须按照软件的指示朗读约30分钟的常用句子,以此为基础进行声音识别和语音输入。当时的技术条件与现今相比,无疑是天壤之别。尽管IBM的语音输入软件在识别准确率上表现尚可,但由于我个人的口头表达能力有限,其生成的文本往往带有浓厚的口语化特征,需要大量润色才能达到书面语的标准,因此整体效率并不理想。
在数年之后,我得知香港科幻作家倪匡竟已采用语音输入法长期创作小说,对此我深感敬佩。看来倪匡的口头表达能力相当强,令人叹为观止。尽管当时IBM的语音输入技术仅是浅尝辄止,但我始终关注各类语音输入的体验,包括各种输入法内置的功能。然而,这些技术始终面临一个问题:过于口语化的表达,需经过大量修改方能使用。
大模型的破局
语音输入法在日常聊天中输入短句尚可,但用于撰写文章则显得不够可靠。然而,随着2022年末ChatGPT等大模型的问世,这一局面发生了根本性变化。这些大模型能够对文本这类非结构化数据进行深度处理,即使我以口语化方式表达,大模型也能通过规则将其转化为适合书面语的文本。因此,我开始思考如何将语音输入融入我的写作流程。
当然,当时还面临另一个问题,即我主要撰写A股基金等细分财经领域的内容,即便当时讯飞听见这类带有金融主题的语音输入工具,仍难以准确处理我常用的专业表达。
对于A股投资者而言,万得全A指数是一个至关重要的基准指数。然而,通过语音输入法输入该指数时,可能会出现“万德权威”这样的错误表述,导致信息失真。
在财经投资领域,专用语料和表达词汇的使用至关重要。对于我这样需要频繁使用专业术语的细分领域从业者来说,普通的输入工具往往难以满足需求。一个多月前,我阅读了王树义老师的一篇分享,其中探讨了如何利用大模型对传统语音输入生成的文字进行二次纠错。这让我意识到,仅仅让大模型执行通用化的规则校正,实际上是对其智能的浪费。更好的方法是将个人化的要求一并提交给大模型,由其进行精准纠错。
首先,简要介绍一下我的语音输入写稿前置流程。
我使用讯飞听见这款软件进行语音输入。之前我也尝试过其他语音输入法,例如微信输入法,其语音识别能力确实很强,甚至我认为比通用版的讯飞听见还要强。但最终,我在双11期间花费158元购买了讯飞听见的一年订阅,每月享有30小时的APP语音输入权限。主要原因是,讯飞听见的APP在语音输入时,能够将整个过程的音频录制下来。这意味着,除了文字,音频本身还可以用于其他用途,同时也能规避因网络不佳而在地铁等环境中无法进行语音输入的问题。更重要的是,讯飞听见可以选择不同的内容类别,例如我经常选择金融类别,这样它会结合金融体系进行初步的过滤和纠错,一些常见术语,如沪深300指数,它都能准确识别,这为后续工作省去了不少麻烦。
在经过讯飞听见的语音处理后,我获得了一份初步符合基本书面表达的文本。尽管对于普通读者来说,这份文本可能已经足够使用,但我仍将根据以下提示词对其进行进一步处理。
首先,我设定了文体限制,旨在将文字细化为专业的财经专栏文章风格。经常阅读财经类,尤其是股票类文章的读者会注意到,这类文章在风格上具有一定的特殊性。
在文字润色方面,我选择将任务交给大模型处理,如果你是在大模型对话环境下使用,记得将你要处理的文本替代{content}。大模型可以有效规避口语化表达的不足,使整体文字更贴合书面语规范。
当然,真正让他加速的,其实是下面大家会看到的一个自定义常用词表。如果你是在大模型对话环境下使用,记得将你的此表放入上面提示词{word_list}的部分。这个表中包含了许多我经常使用的术语,如“9·24”行情、“20cm”,以及“基民”这类在投资圈常见但对大多数语音软件来说陌生的词汇。类似的还有我自己创立的概念,如“五年之锚”和“40日收益差”。
在研究过程中,我深刻体会到大型模型在文本处理方面的强大能力。除了日常用于撰写财经类稿件,我最近还利用大模型记录我家孩子的成长日记。不到 20天,已积累了1.2 万字的内容。在这个过程中,我甚至在常用词表中加入了背景信息,如孩子的名字和性别,以及她是小学生的身份。这样,大模型在处理文本时,能够自动结合这些信息进行性别和身份的调整。当我聊到我家女儿时,大模型会自动用“她”而不是默认的“他”来表述。
在语音转写过程中,我设定了更多词汇属性有助于系统更准确地识别同音词。例如,我曾进行过一项测试,设置了两个发音完全相同的地名:一个是红中心(医院),另一个是虹中心(小学)。用括号来对词汇详细信息进行标记。当我表示“送女儿去红中心上学,再送太太去红中心体检”时,大模型会根据这些词汇的备注,自动选择正确的地点。送女儿去的是小学的虹中心,而送太太去的是医院的红中心。通过进行词性标注,大模型的效果显著提升。
为了进一步提升工作效率,我并未采用传统的大模型对话界面,而是利用当下热门的大模型编程软件Windsurf,将整个工作流程整合至一个WEB小界面。下方展示的截图中,我可自由选择各类模型、提示词和常用此表。
在语音转写及稿件修正过程中,我较多使用国产的DeepSeek模型。该模型由上海一家量化私募公司幻方打造,其在国内开源模型中表现优异,既稳健又经济实惠。通过API调用,每百万token仅需两元,几乎等同于免费使用。
我在一个多月前充值了10元,至今仅花费不到1元,使用体验极为经济。
为了应对不同的需求,我设置了不同的提示词,例如“语音润色财经”,专为撰写财经稿件设计,输出结果书面化;还有“语音润色生活”,较为口语化,用于记录我女儿的成长日记。
在撰写稿件时,设定不同的常用词表可以针对不同文本范围进行输出。例如,在撰写财经稿件时,配置财经领域的常用词汇;而在撰写关于女儿的文章时,则使用生活领域的常用词汇。此外,根据不同场合的需求,也可以灵活应用相应的词表。通过这种方式,整个写作过程的效率将显著提高。
在撰写一篇1500字左右的稿件时,我通常会花费五六分钟进行语音录制,随后通过大模型处理配图。我曾计算过,在常态情况下,即使撰写一篇1500字的较为复杂的稿件,包括使用AI绘制封面图和排版,整个过程也能在半小时内完成。这一流程极大地提升了我的生产效率。
在追求效率的过程中,我发现通过减少时间投入来完成相同的工作量,能够腾出更多时间用于其他活动,如陪伴家人、观看有趣的视频或阅读相关书籍,这种体验颇具价值。如果你对语音输入写稿感兴趣,可以参考我的方法,并调试出更适合你的工作流。
PS: 本文3100 字,从语音输入到配图完成,耗时大概45 分钟。