音视频面试题集锦第 15 期 | 编辑 SDK 架构 | 直播回声 | 播放器架构

文摘科技 2024-01-24 08:00 上海

我们在知识星球上创建的音视频技术社群关键帧的音视频开发圈已经运营了一段时间了，在这里大家可以一起交流和分享音视频技术知识和实战方案。我们会不定期整理一些音视频相关的面试题，汇集一份音视频面试题集锦（可进入免费订阅）。也会循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱（可进入免费订阅）。

下面是第 15 期面试题精选：

1、音视频编辑 SDK 一般包含哪些模块？各模块是什么职责？
2、音视频编辑中转码流程 pipeline 的线程模型和缓冲区要怎么设计？
3、直播中发现有回声，可能的原因是什么？
4、如果让你设计一个播放器的架构，你会分哪几层？

1、音视频编辑 SDK 一般包含哪些模块？各模块是什么职责？

从业务角度来看，视频编辑 SDK 上层的功能模块通常包括：抽帧模块、预览播放器模块、转码模块。

转码模块主要负责将编辑态的音视频素材及相关效果编码和封装为目标视频。
抽帧模块主要负责从视频素材中抽取图片用于缩略图、封面等场景。
预览播放器模块则主要负责渲染播放编辑态的音视频素材及相关效果。

这里，我们重点说一下支持编辑能力的转码模块，为了支持编辑能力通常需要设计一套数据结构，一般包括如下概念：

Composition：最外层的数据结构。音视频编辑相关的数据结构都包含在其中，比如多音频视频轨道、片段信息。
Track：轨道。包括音频轨道、视频轨道等。
Segment：片段。包括指定时间的音频、视频的片段。
Timeline：时间线。时间线是各音视频及特效素材如何串起来的基准。

配合这套数据结构的细分功能模块有：

Reader：资源数据读取模块。按照数据结构层级可以封装对应的 CompositionReader、TrackReader、SegmentReader 等。在 Reader 中可以按需组装 Demuxer、Decoder、FrameFilter、Effect、Mixer、Speed 等模块，从资源文件中读取数据，并按照给定的参数进行处理并输出最终需要的帧数据。
Demuxer：解封装模块。
Decoder：解码模块。
FrameBuffer：帧缓冲区。用于不同模块在生产和消费对接时缓存数据。
FrameFilter：帧处理模块。可以跟进设定的参数进行丢帧、补帧，输出指定帧率的音视频数据。
Effect：特效处理模块。提供滤镜、特效效果等能力。
Mixer：音视频混合模块。不同层级的 Mixer 可以提供不同的功能，比如和 CompositionReader 协同的 Mixer 可以支持混音、画中画，和 TrackReader 协同的 Mixer 可以支持混音、转场等能力。
Speed：变速模块。用于处理编辑里对音频或视频进行变速处理。
Encoder：编码模块。
Muxer：封装模块。

更详细的编辑 SDK 的模块架构图，见我们的知识星球帖子：https://t.zsxq.com/16h36X77N^[1]

2、音视频编辑中转码流程 pipeline 的线程模型和缓冲区要怎么设计？

这里我们可以将 Demuxer、Decoder 模块封装到 Reader 中，它们在一个线程中来处理数据读取、解封装、解码几个环节的工作，并将解码后的数据存入 FrameBuffer 缓冲区。

我们将 Encoder、Muxer 模块封装到 Writer 中，它们在一个线程中来处理编码、封装几个环节的工作。其中编码需要的数据通过一个回调向 Reader 要数据，在回调中，Reader 将其 FrameBuffer 中缓冲的数据喂给 Writer 的 Encoder 来进行编码。

上面的设计是一个比较简要的设计，这里还有一些经验可供参考：

Encoder 中我们会将 AudioEncoder、VideoEncoder 拆分开，各自一个线程。
AudioEncoder、VideoEncoder 输出的编码数据我们会在 Muxer 中做音视频交错和封装。
Decoder、Encoder 根据使用的具体软编解码器或硬编解码器的不同，可能会有自己的线程。
在实践中，如果发现某个节点在 pipeline 中是瓶颈，可以考虑将其放在独立的线程中去，并配置对应的缓冲区，但是当线程过多时也会引入复杂性和问题。我们在之前就因为在 pipeline 中引入过多的线程不仅没有提升转码性能，反而带来了很多奇奇怪怪的问题，简化后，反而解决了不少问题。
我们在实践中发现使用 Android Surface 编码时，如果用同步的方式，可能会出现编码卡住的情况：往编码器喂数据时，编码器由于内部缓冲区满了卡住，而由于是同步，编码好的数据未被取出，则缓冲区无法被清理导致数据始终喂不进去。所以，编码器最好做成异步的，并且由编码器主动去取数据。

更直观的转码流程 pipeline 图，见我们的知识星球帖子：https://t.zsxq.com/16PFkFene^[2]

3、直播中发现有回声，可能的原因是什么？

直播中发现有回声，可能有如下原因：

1、主播在直播的同时用其他设备看自己的直播并且声音外放，这种情况下，外放的直播间声音又被主播自己的麦克风采集再次传输到观众端，观众端连续听到直播间相同的声音，这就是一种回声，这种回声要经过直播延时、传输延时，整体延时可能会达到 6-10s 左右。
2、主播在直播的同时用自己的手机外放音乐，这种情况下，如果这个音乐音频有被合成进直播流，而同时又由于音乐外放被麦克风采集到，这时候直播流中就会有两个音乐声，这两个音乐声有一定的延时，通常大概 1s 左右，这就会让直播观众听到回声。
3、主播连麦也是容易产生回声的场景。主播 A 的声音传输到主播 B 端，主播 B 的设备如果外放连麦声音，就会将主播 A 的声音采集到再传回给主播 A，主播 A 收到这个声音就会听到自己刚才的说话声，这就是回声。如果还有观众在观看主播 A 的直播间，观众也会听到重复的主播 A 的声音，也是回声。这里需要注意的是虽然听到的是主播 A 的回声，但原因是其实是主播 B 端造成的。

4、如果让你设计一个播放器的架构，你会分哪几层？

我们可以分下面几层来设计播放器的架构：

音视频核心层：职责在于处理网络协议、音视频解封装（Demuxer）、音视频解码（Decoder）、音视频数据结构封装等等，通常基于 FFmpeg 来实现。
播放器内核层：基于音视频核心层的能力来封装播放器内核能力，包括使用多线程、多缓冲区串联网络、解封装、解码、渲染等节点；支持播放、暂停、seek、刷新数据源等控制能力；提供播放状态获取、播放事件回调、播放器错误上报等接口。
播放器封装层：基于平台开发语言对播放器内核进行封装，提供高内聚低耦合的播放器接口。
播放器工具层：在播放器核心能力的基础上组装和扩展其他播放相关的其他能力，比如：边下边播视频缓存能力、播放远程配置能力、播放数据埋点上报能力等等。
播放业务控制层：基于业务属性进行播放策略控制，比如：码率选档、解码方式选择、网络链路优选等策略。

更多的音视频知识、面试题、技术方案干货可以进群来看：

参考资料

[1]

https://t.zsxq.com/16h36X77N: https://t.zsxq.com/16h36X77N

[2]

https://t.zsxq.com/16PFkFene: https://t.zsxq.com/16PFkFene

http://mp.weixin.qq.com/s?__biz=MjM5MTkxOTQyMQ==&mid=2257489008&idx=1&sn=624f5055174cd3ca36ed3dbb3f8baf3a

关键帧Keyframe

系统性地探索音视频、AIGC、区块链技术。

最新文章

【音视频】面试题集锦第 39 期｜编辑 SDK 方向

【音视频】面试题集锦第 38 期｜ iOS 渲染方向

【音视频】生产框架介绍：拍摄、编辑、上传、推流丨音视频实战经验

【音视频】面试题集锦第 37 期｜ iOS 播放器 SDK 方向

【音视频】面试题集锦第 36 期｜客户端音视频开发

【音视频】面试题集锦第 35 期｜播放器功能方案（附伪代码）

【音视频】面试题集锦第 34 期｜直播和视频播放器方向

【音视频】面试题集锦第 33 期｜面试官针对编解码方向的追问

【音视频】面试题集锦第 32 期｜面试官针对编解码方向的问题

【音视频】面试题集锦第 31 期｜面试官常用的基础问题

【AIGC】用 v0.dev 迭代开发一个极简版小红书前端，5 分钟搞定 1 天的工作量，会打字会截图就能开发网站

【AIGC】利用 AI 技术，1 个人养 1327 个账号，可行吗？

【AIGC】一条内容 19 万点赞，50 万转发，三分钟学会使用 AI 工具制作小猫跳舞视频

【音视频】面试题集锦第 29 期｜视频渲染相关各种问题

【AIGC】随便发发就点赞过万，AI 萌宠打工人，视频素材直接下载去养号做号

抽奖开奖

【AIGC】一条视频 144 万点赞，AI 萌宠时尚走秀，视频素材直接下载去养号做号

福利来了

【AIGC】ComfyUI 入门教程（10）：快捷方式和技巧

【AIGC】ComfyUI 入门教程（9）：使用 LoRA

【AIGC】ComfyUI 入门教程（8）：使用 Embeddings

【音视频】面试题集锦第 28 期｜音视频 SDK 开发 WebRTC 面试题

【AIGC】ComfyUI 入门教程（7）：SDXL 工作流和 ComfyUI 整合包

【AIGC】ComfyUI 入门教程（6）：图像修复｜AI 生成图片

【AIGC】ComfyUI 入门教程（5）：图片上采样放大｜AI 生成图片

【音视频】特效编辑等场景常用的动画系统：PAG 与 Lottie｜音视频实战经验

【AIGC】ComfyUI 入门教程（4）：ComfyUI 管理器｜AI 生成图片

【AIGC】ComfyUI 入门教程（3）：图生图工作流｜AI 生成图片

【AIGC】ComfyUI 入门教程（2）：从文本生成图像的流程｜AI 生成图片

【AIGC】ComfyUI 入门教程（1）：安装 ComfyUI｜AI 生成图片

音视频面试题集锦第 27 期｜音视频 SDK 开发 C++ 基础知识

AI 让老照片动起来・简单教程和赚钱方式｜ AI 生成视频｜ AIGC

音视频面试题集锦第 26 期｜ FFmpeg 基础和音频处理

《Stable Diffusion 倚天剑术》第 7 卷：控制 AI 模特的年龄 | StableDiffusion 实战案例

什么是 Stable Diffusion？ | StableDiffusion 基础知识

音视频面试题集锦第 25 期｜直播相关功能技术方案

音视频面试题集锦第 24 期｜直播相关技术指标优化

音视频面试题集锦第 23 期｜编码相关

音视频面试题大合集 202405

音视频面试题集锦第 22 期｜视频编码

音视频面试题集锦第 21 期

音视频面试题集锦第 20 期 | 视频编辑相关

音视频面试题集锦第 19 期｜读取纹理数据

音视频面试题集锦第 18 期｜ OpenGL 实战经验

关于 Sora

音视频面试题集锦第 17 期

音视频面试题集锦第 16 期

音视频面试题集锦第 15 期 | 编辑 SDK 架构 | 直播回声 | 播放器架构

音视频面试题集锦（第 14 期）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉