人工智能技术助力有声阅读服务精准化研究——以喜马拉雅APP为例

时事   2024-10-15 00:02   湖南  

近年来,人工智能技术在各个领域的应用逐渐深入,并展现出了广泛的应用前景和巨大的经济潜力。在有声阅读领域,人工智能技术凭借其高效、精准和智能化特点,正在引领新的变革与发展。面对读者更加个性化、多元化、智能化的阅读需求,有声阅读出版方可利用深度学习、智能语音合成、情感分析、AI图像生成和环境适应性朗读等人工智能技术,为读者提供更加精准的内容推荐,更加精准的情感表达,更加智能化、可视化、沉浸式的阅读体验,提升有声阅读精准化服务水平,推动有声阅读高质量发展,实现更大文化价值和数字经济价值。



一、精准化服务是有声阅读高质量发展的必然要求

有声阅读是读者通过听觉器官接受并向大脑传递信息的一种阅读活动。其实施主体是读者,客体是作为融合出版物的有声读物,即以文字内容为主的声音出版产品。

(一)有声阅读是一种重要的阅读模式

从客体发展看,有声阅读发展迅速且更加智能化。2000年左右,数字技术的发展使有声出版物进一步突破磁带、CD等介质的物理限制,出现了可以通过网络下载的数字有声书。2010年后,随着互联网的快速发展和智能手机的普及,有声书市场出现爆发式增长。2014年全球主要出版社和大型公司出版的有声书品种突破了3.5万种。2020年,全球有声读物销售额达35亿美元,市场增长25%,有声书超越电子书,成为出版业增长速度最快的板块。我国的有声出版物市场近十年来发展迅速,2017 年中国有声书市场规模为32.4亿元,2018年为46.3亿元,2019 年达到63.6亿元,连续3年增速高于30%。

从主体需求看,读者需求不断增长,且介质更加多样化。据中国新闻出版研究院调查统计,2017年我国成年国民的听书率为22.8%,2019年这一比例上升到 30.3%,2020年是31.6%,2021年则是32.7%,2022年有35.5%的成年国民养成“听书”的习惯。有关对我国成年国民听书介质的考察发现,选择“移动有声APP”听书的国民比例较高,为17.9%;有11.2%的人选择通过微信公众号或小程序听书;有10.8%的人选择通过智能音箱听书;分别有8.9%和5.7%的人选择通过广播和有声阅读器或语音读书机听书。可见,在音频技术和用户需求的双重刺激下,有声阅读蓬勃兴起,已成为移动互联时代的一种重要阅读模式。

(二)精准化服务是有声阅读高质量发展必然要求

近年来,国家越来越重视有声阅读产业的发展,标准更完善、要求更严格。2019年,国家新闻出版署发布了关于有声读物的录音制作、发布平台、质量要求与评测等方面的标准,进一步规范有声读物的内容生产和发行。2020年、2021年,国家新闻出版署分别组织了全国有声读物精品出版工程项目的申报工作,进一步引导有声读物创作生产。在此过程中,服务的精准化和发展的高质量是有声读物精品创作题中之义。

从行业竞争看,差异化特色发展是核心竞争力。随着技术的不断发展,有声阅读所凭借的介质必将越来越多,各平台之间的竞争也会越来越大,出版方要想在激烈竞争市场中占有一席之地,必须提高内容质量和服务水平,实现内容差异化和服务对象精准化的特色运营,从而形成竞争优势。

从读者阅读需求看,多元化和个性化需求必然要求服务精准化。在文化强国建设道路上,人民群众对精神文化的需求必将日益增长,具体到有声阅读领域,读者对内容丰富性、表达多样性和体验多元化等方面的需求会越来越具体化、分类化。如何满足不同读者的个性化需求,是出版方必须面对且要解决好的问题。其中,提供从内容生成到内容表达和沉浸体验等全流程精准服务是必由之路和关键一招。



二、人工智能技术为有声阅读精准化服务提供技术支撑

满足有声阅读精准化服务的社会需求,是一项系统工程,需要有关各部门、各环节通力合作,共同努力。在这一过程中,人工智能技术可以发挥不可替代的作用。

人工智能技术是指通过计算机模拟人类智能活动的技术,核心在于让机器具备感知、学习、推理、规划和行动的能力。其涵盖机器学习、深度学习、自然语言处理、计算机视觉等多个领域。其中,机器学习是人工智能的基础,即通过数据驱动的方式,使计算机系统能够从数据中学习规律,并作出预测或决策;深度学习作为机器学习的一个分支,主要依赖于神经网络模型,尤其是深度神经网络,通过模拟人脑的神经元连接,实现对复杂数据的高效处理和特征提取;自然语言处理则是使机器能够理解和生成人类语言的技术,涉及语言的语法、语义和语用等多个层面;计算机视觉则赋予机器“看”的能力,通过图像和视频的分析,实现物体识别、场景理解等功能。

人工智能技术所具备的技术优势和显著特点,为有声阅读实现精准化服务提供了坚强技术支撑。一是数据驱动性可提高决策准确度。人工智能系统的性能在很大程度上依赖于训练数据的质量和数量。通过大量数据的训练,人工智能模型可以从中提取复杂的模式和规律,进而提升其预测和决策能力。二是算法复杂性可提高智能化。人工智能算法通常涉及大量的数学模型和计算方法,如梯度下降、反向传播、卷积神经网络等。这些复杂的算法能够处理和分析高维度的数据,提高智能化水平。三是自适应性可提高反应灵敏度。人工智能技术能够根据环境的变化和新的数据自主调整其内部模型和参数,从而保持较高的适应性和灵活性。四是智能交互性可提高参与率。人工智能技术通过自然语言处理和语音识别,实现人与机器之间的自然交互,使机器能够理解和回应人类的语言指令。



三、人工智能技术赋能有声阅读精准化的实现路径

(一)深度学习算法赋能阅读内容精准推荐

人工智能技术,尤其是深度学习算法在有声阅读中的应用成为研究热点。深度学习算法如卷积神经网络(CNN)、循环神经网络(RNN)及其衍生的长短期记忆网络(LSTM)能够处理大量有声数据,提取高维特征,进行复杂的模式识别和预测,从而实现对读者偏好的精准捕捉和个性化推荐。具体而言,系统通过深度学习模型处理和分析读者点击、收听、下载、分享、评分和评论等操作记录,提取读者的兴趣特征和偏好模式。LSTM模型利用在处理时间序列数据方面的优势,有效捕捉读者兴趣变化。使用CNN可以捕捉语音的音频特征,如语速、音调、语气变化和情感倾向等细节,自动提取有声内容的语音和文本特征。深度学习模型如Transformer和BERT在处理自然语言理解任务方面表现优异,读者可以通过语音指令要求系统解释某个词语的含义、回放特定段落或切换到另一个章节,获取个性化的内容推荐或解决疑问。综合以上功能,结合多模态数据融合技术,智能系统可将读者的行为数据、语音数据和文本数据融合,构建全面的读者画像,实现内容与读者偏好的精准匹配、个性化推荐和动态服务。

以喜马拉雅APP为例,作为国内领先的有声阅读平台,其个性化推荐系统在深度学习算法赋能下,实现了精准化服务。具体而言,首先,运用深度学习算法收集读者的收听历史、搜索记录、点赞和收藏等行为数据,并对数据进行分析,构建读者画像,从而理解读者的偏好和需求。然后,根据读者画像和内容特征进行个性化的内容推荐,包括推荐读者可能感兴趣的新内容以及相似或相关的有声读物。例如,读者在工作时间和休闲时间的兴趣不同,系统可以根据这些变化适时适地的进行内容推荐。

(二)智能语音合成与情感分析技术赋能阅读内容精准表达

智能语音合成和情感分析技术能有效提高有声阅读的音质和情感表达,从而提升内容表现力,加深读者对内容的精准理解和有效感知。具体来看,智能语音合成技术依靠前沿算法,通过端到端训练,在音调、语速和语气等方面给予精确处理,将文本转换为自然流畅的语音。如,WaveNet利用概率模型生成高保真音频,适时调整语音的高低、快慢、强弱等。Tacotron通过序列到序列架构结合注意力机制,提高了语音合成的连贯性和自然度,减少合成语音的机械感;情感分析技术通过自然语言处理(NLP)和机器学习算法,高效识别并提取文本情感特征,进而通过语音调整进行符合特定情感的表达,使听众更能感受故事氛围和人物情感变化。如,BERT基于双向编码器捕捉文本上下文信息,GPT通过生成式预训练实现对情感的深度理解。此外,智能语音合成技术支持多语种和多方言生成,满足不同语言背景读者需求,使有声阅读内容更加多样化和普及化。

以喜马拉雅APP为例,其自动语音识别(ASR)技术能够对平台中无文稿的声音内容进行语音转写,并输出相应的文字,为读者提供听看一体的阅读体验,提高阅读效果。同时,喜马拉雅的语音合成(TTS)技术能够将文本转换为语音,实现多情感、多风格、多语种声音的合成,增强TTS表达的情感和韵律,被广泛运用于评书、新闻、小说等多种内容制作中。此外,喜马拉雅的音频大模型技术能够基于上下文智能预测文本的情绪、语调等细微信息,生成超自然、高保真、个性化语音,支持多语种、多方言。通过这些技术的应用,喜马拉雅不仅提升了内容生产效率,也使内容表达更精准生动。

(三)AI图像生成技术赋能阅读内容精准可视

AI图像生成技术在有声阅读领域的应用是一个前沿且具有潜力的研究方向。虽然目前这种技术还未全面应用于有声阅读领域,但可以预见其未来的发展前景。具体而言,在大量的图片和相应的文本描述数据集中,生成对抗网络(GANs)可以根据提取的关键词和语义信息生成符合阅读内容的图像,精确反映文本中的人物、场景和事件等;结合深度学习中的风格迁移技术,可以根据阅读内容的情感基调和叙述风格,调整生成图像的艺术风格,使其与文本氛围更加契合;利用计算机视觉技术,可以对生成的图像进行细节优化,确保图像的清晰度和视觉效果;为了满足实时性要求,可以采用优化的算法和高效的计算模型,确保图像生成过程能够在短时间内完成。此外,利用云计算和分布式处理技术,可以加快图像生成速度,处理大规模数据流,提高系统的整体性能。基于读者的阅读历史和偏好,系统可以生成个性化的图像内容,增强读者沉浸式体验,通过读者反馈机制,不断优化图像生成模型,提升图像生成的准确性和读者满意度。喜马拉雅APP正在探索将AI图像生成技术应用于有声阅读内容的实时精准可视化,即通过整合现有文本和图像来构建数据库,实现AI技术辅助有声读物播放内容贴合、制作精良的图像,不断提升读者阅读体验。

(四)智能环境适应性朗读赋能阅读氛围精准适配

除了阅读内容的优劣,阅读氛围安静与否对阅读体验也有直接影响。对此,可用智能环境感知技术实现阅读内容与阅读氛围精准适配。智能环境感知技术系统通过传感器和环境音分析,可以识别读者所处的环境,并动态调整音频输出。例如,在嘈杂的环境中,系统会提高音量和清晰度;在安静的环境中,则会降低音量,使声音更为柔和。结合地理位置和时间数据,系统还可以在适当的场景和时间自动推荐适合的有声书内容,实现精准适配听书环境,营造听书氛围,进一步提高读者听书的便利性和满意度。

以喜马拉雅APP为例,APP利用智能手机内置的麦克风或其他传感器收集周围环境的声音数据。这些数据可能包括声音的音量、频率分布以及可能的背景噪声类型。在嘈杂环境中,APP会识别出高背景噪声水平,并自动提高音频输出的音量,以确保读者能够清晰地听到朗读内容。同时,会增强语音的清晰度,通过算法优化语音与背景噪声的分离,使读者更容易理解朗读内容。在安静环境中,APP会降低音频输出的音量,以避免过大的音量对读者或周围的人造成干扰。同时,调整语音的柔和度,使得听书体验更加舒适和自然。另外,智能环境感知技术与APP的其他功能,如内容推荐系统相结合,可以提供更加个性化的阅读体验。例如,在读者经常听书的时间段或地点,APP可以自动推荐读者可能感兴趣的内容。



结语

人工智能技术在有声阅读领域的应用具有广阔的前景和重要的实际意义。深度学习算法可以实现阅读内容的精准推荐和有效交互,增强阅读针对性;智能语音合成与情感分析技术的结合,使阅读内容能够更加生动和具有情感层次地表达,增强阅读深入性;AI图像生成技术的应用,使阅读内容能够实时精准可视,为读者提供更为丰富的多感官阅读体验,增强阅读的形象性;智能环境适应性朗读技术通过识别阅读环境变化,自动调整朗读参数,确保读者在不同情境下都能享受到更佳的听书体验,增强阅读的沉浸性。整体来看,人工智能技术大大提升了有声阅读的精准化服务水平,为读者带来了更为个性化、情感化和沉浸式的听书体验。未来,随着人工智能技术的不断进步和优化,其在有声阅读领域的应用将更加广泛和深入。


来源:《现代视听》2024年07期

作者:山东开放大学 郭小坤

一审:郑竹婷

二审:王天祥

三审:陈刚

电台工厂
广播超级碗发布平台
 最新文章