音视频面试题集锦第 25 期｜直播相关功能技术方案

文摘科技 2024-07-03 08:01 浙江

如果对音视频、AIGC、区块链技术感兴趣，可以关注一下保持联系：

我们在知识星球上创建的音视频技术社群关键帧的音视频开发圈已经运营了一段时间了，在这里大家可以一起交流和分享音视频技术知识和实战方案。我们会不定期整理一些音视频相关的面试题，汇集一份音视频面试题集锦（可进入免费订阅）。也会循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱（可进入免费订阅）。

下面是第 24 期面试题精选，我们来讲讲直播相关功能技术方案：

1、直播美颜如何实现？
2、直播间礼物特效的如何实现？
3、直播连麦的如何实现？
4、直播间的回声消除如何实现？

1、直播美颜如何实现？

下面是实现美颜的一种思路：

1、降采样。对输入图像进行降采样，缩小其分辨率为 256 * 256。目的是为了加快处理速度，提升算法性能。
2、均值模糊。对上一步的结果进行卷积核为 9 * 9 的均值模糊，并拆分成水平方向和垂直方向上先后分别进行一次均值模糊，计算量由 9 * 9 = 81 降为 9 + 9 = 18。
3、高反差保留。利用模糊后的图和原图做 diff，计算得到图像的高低频信息，将高低频信息用 frame buffer 的 alpha 通道存储，将均值模糊的结果用 rgb 通道存储，以此来减少 draw call 和 GPU 显存占用。
4、对步骤 3 结果中的 alpha 通道数据进行均值模糊，同样分为横向和纵向。
5、将人脸 mask 静态素材贴到人脸位置。此步骤是为后续做锐化和降噪做铺垫，这里可能会有性能问题，可以根据机型性能选择性开启。
6、磨皮。根据输入图的 rgb 计算肤色概率。综合肤色概率、人脸 mask、高低频信息，得到混合系数 kMin，计算磨皮系数 smoothSkinResult = mix(inputColor, blurColor, kMin) 进行磨皮。
7、对非人脸 mask 区域进行降噪处理。
8、锐化。
9、美白。使用单张 lut 图进行颜色映射。

2、直播间礼物特效的如何实现？

下面是实现直播间礼物特效的一种思路：

1、通过制作 Alpha 通道分离的视频素材；
2、在客户端上通过 OpenGL 重新实现 Alpha 通道和 RGB 通道的混合，从而实现在端上播放带透明通道的视频。

如果你有需要，可以扫下面的优惠二维码加入「关键帧的音视频开发圈」知识星球，下载直播间礼物特效 iOS/Android 实现源码以及其他更多音视频工程源码。

3、直播连麦的如何实现？

下面是一种在客户端合流的直播连麦方案：

直播连麦在客户端进行合流时，主播端一方面使用 WebRTC 和远端主播连麦通信，一方面使用推流器进行合流和推流操作。其中需要注意：

WebRTC 采集模块、编码模块要提供数据回调接口和推流器对接。
WebRTC 回声消除模块要与推流器对接。
WebRTC 给推流器回调解码后数据（PCM、YUV/Texture）。这个数据是要和播放效果一致的数据，即已回声消除或倍速，如果上抛 texture，要共用 OpenGL context。
WebRTC 解决底层依赖的编译库冲突问题，FFmpeg、OpenSSL 等。
推流器在连麦和非连麦模式切换时，要支持推不同的分辨率和码率，并且刷新 SPS、PPS 信息。
播放端要支持直播流在分辨率变化时能够正常切换画面。这里可以通过探测到 SPS、PPS 中的分辨率信息变化时，来刷新解码器。

更多音视频技术方案干货，可以扫码文章后面的优惠二维码加入「关键帧的音视频开发圈」知识星球来看。

4、直播间的回声消除如何实现？

直播中发现有回声，可能有如下原因：

1、主播在直播的同时用其他设备看自己的直播并且声音外放，这种情况下，外放的直播间声音又被主播自己的麦克风采集再次传输到观众端，观众端连续听到直播间相同的声音，这就是一种回声，这种回声要经过直播延时、传输延时，整体延时可能会达到 6-10s 左右。
2、主播在直播的同时用自己的手机外放音乐，这种情况下，如果这个音乐音频有被合成进直播流，而同时又由于音乐外放被麦克风采集到，这时候直播流中就会有两个音乐声，这两个音乐声有一定的延时，通常大概 1s 左右，这就会让直播观众听到回声。
3、主播连麦也是容易产生回声的场景。主播 A 的声音传输到主播 B 端，主播 B 的设备如果外放连麦声音，就会将主播 A 的声音采集到再传回给主播 A，主播 A 收到这个声音就会听到自己刚才的说话声，这就是回声。如果还有观众在观看主播 A 的直播间，观众也会听到重复的主播 A 的声音，也是回声。这里需要注意的是虽然听到的是主播 A 的回声，但原因是其实是主播 B 端造成的。

一个常见的回声消除系统一般会包含这些核心模块，如图所示：

双讲检测模块。这里主要是计算麦克风采集的音频信号和对端传过来的音频信号的相关性。如果相关性较高超过一定阈值，则判断麦克风输入的主要是回声；如果相关性较低，则判断麦克风输入的有其他声音。在双讲判断有回声的情况下，接下来就会开始做回声消除了。
延迟估计模块。该模块用于估计回声的延时，这个延时对后面进行回声处理很有用。延迟估计比较简单的做法是移动远端音频信号的起始位置，然后和回声信号计算相关性，并找到相关性最大的位置，即我们计算得到的延迟。
自适应滤波器模块。回声一般分为线性回声和非线性回声，自适应滤波模块一般用来消除线性回声。自适应滤波的过程就是通过更新声音信号评估公式的系数来找到和麦克风音频信号（认为是回声）最为接近的一组系数，并将公式在该系数下计算的信号从麦克风音频信号中减去，从而消除线性回声。
非线性回声处理模块。非线性回声处理模块则用来消除非线性回声。该模块利用前面估计的线性回声信号和经验知识生成估计的非线性回声信号，并在音频信号中减去估计的信号，从而消除非线性回声。这里的经验知识主要是指非线性回声生成原因，手机上主要是扬声器失真。
降噪模块。通常一个回声消除系统在做完回声消除后还会做一下降噪，这里的降噪可以包含传统的降噪算法处理来去除一些背景噪声，以及用深度学习降噪算法去掉一些特定噪声。
自动音量控制模块。降噪做完后，还可以做一下自动音量控制，将音频信号中声音过小或过大的部分尽量拉平。当然这个模块要放在降噪模块后面，要不然噪音可能会被放大。

总结来讲，一个简单的回声消除系统，通过输入的对端语音信号、麦克风采集的录音信号，经过双讲判断来计算是否有回声，当有回声时会估计回声的延时，并通过自适应滤波器模块消除线性回声，通过非线性回声估计模块消除非线性回声，从而实现回声消除的目的。在消除噪声后，还可以选择性的做一下降噪和自动音量控制来提升音频质量。

更多的音视频知识、面试题、技术方案干货可以进群来看：

http://mp.weixin.qq.com/s?__biz=MjM5MTkxOTQyMQ==&mid=2257489681&idx=1&sn=79b9200c03dedd6c00c2ed0a62c4cffa

关键帧Keyframe

系统性地探索音视频、AIGC、区块链技术。

最新文章

【音视频】面试题集锦第 39 期｜编辑 SDK 方向

【音视频】面试题集锦第 38 期｜ iOS 渲染方向

【音视频】生产框架介绍：拍摄、编辑、上传、推流丨音视频实战经验

【音视频】面试题集锦第 37 期｜ iOS 播放器 SDK 方向

【音视频】面试题集锦第 36 期｜客户端音视频开发

【音视频】面试题集锦第 35 期｜播放器功能方案（附伪代码）

【音视频】面试题集锦第 34 期｜直播和视频播放器方向

【音视频】面试题集锦第 33 期｜面试官针对编解码方向的追问

【音视频】面试题集锦第 32 期｜面试官针对编解码方向的问题

【音视频】面试题集锦第 31 期｜面试官常用的基础问题

【AIGC】用 v0.dev 迭代开发一个极简版小红书前端，5 分钟搞定 1 天的工作量，会打字会截图就能开发网站

【AIGC】利用 AI 技术，1 个人养 1327 个账号，可行吗？

【AIGC】一条内容 19 万点赞，50 万转发，三分钟学会使用 AI 工具制作小猫跳舞视频

【音视频】面试题集锦第 29 期｜视频渲染相关各种问题

【AIGC】随便发发就点赞过万，AI 萌宠打工人，视频素材直接下载去养号做号

抽奖开奖

【AIGC】一条视频 144 万点赞，AI 萌宠时尚走秀，视频素材直接下载去养号做号

福利来了

【AIGC】ComfyUI 入门教程（10）：快捷方式和技巧

【AIGC】ComfyUI 入门教程（9）：使用 LoRA

【AIGC】ComfyUI 入门教程（8）：使用 Embeddings

【音视频】面试题集锦第 28 期｜音视频 SDK 开发 WebRTC 面试题

【AIGC】ComfyUI 入门教程（7）：SDXL 工作流和 ComfyUI 整合包

【AIGC】ComfyUI 入门教程（6）：图像修复｜AI 生成图片

【AIGC】ComfyUI 入门教程（5）：图片上采样放大｜AI 生成图片

【音视频】特效编辑等场景常用的动画系统：PAG 与 Lottie｜音视频实战经验

【AIGC】ComfyUI 入门教程（4）：ComfyUI 管理器｜AI 生成图片

【AIGC】ComfyUI 入门教程（3）：图生图工作流｜AI 生成图片

【AIGC】ComfyUI 入门教程（2）：从文本生成图像的流程｜AI 生成图片

【AIGC】ComfyUI 入门教程（1）：安装 ComfyUI｜AI 生成图片

音视频面试题集锦第 27 期｜音视频 SDK 开发 C++ 基础知识

AI 让老照片动起来・简单教程和赚钱方式｜ AI 生成视频｜ AIGC

音视频面试题集锦第 26 期｜ FFmpeg 基础和音频处理

《Stable Diffusion 倚天剑术》第 7 卷：控制 AI 模特的年龄 | StableDiffusion 实战案例

什么是 Stable Diffusion？ | StableDiffusion 基础知识

音视频面试题集锦第 25 期｜直播相关功能技术方案

音视频面试题集锦第 24 期｜直播相关技术指标优化

音视频面试题集锦第 23 期｜编码相关

音视频面试题大合集 202405

音视频面试题集锦第 22 期｜视频编码

音视频面试题集锦第 21 期

音视频面试题集锦第 20 期 | 视频编辑相关

音视频面试题集锦第 19 期｜读取纹理数据

音视频面试题集锦第 18 期｜ OpenGL 实战经验

关于 Sora

音视频面试题集锦第 17 期

音视频面试题集锦第 16 期

音视频面试题集锦第 15 期 | 编辑 SDK 架构 | 直播回声 | 播放器架构

音视频面试题集锦（第 14 期）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

音视频面试题集锦第 25 期 ｜ 直播相关功能技术方案

1、直播美颜如何实现？

2、直播间礼物特效的如何实现？

3、直播连麦的如何实现？

4、直播间的回声消除如何实现？

音视频面试题集锦第 25 期｜直播相关功能技术方案