当前位置:首页 > 嵌入式 > 嵌入式硬件
[导读]音视频同步是我们观看视频的一个基本体验,尤其对于视频画面中能看到声源动作(如:嘴型)的场景,音视频同步问题非常影响体验。在短视频与直播APP中,采集端作为音视频的生产

音视频同步是我们观看视频的一个基本体验,尤其对于视频画面中能看到声源动作(如:嘴型)的场景,音视频同步问题非常影响体验。

在短视频与直播APP中,采集端作为音视频的生产者,如果采集端产生的音视频源本身就无法保证同步,那么后面不管经过什么处理,都很难再让用户看到音视频同步的画面了,因此,在采集端保证音视频同步上尤其重要。

那么如何保证app在各种正常/非正常状况下尽量保证输出同步的音视频?本文就是讲述我们是如何解决上述问题的。

音视频同步的原理

音视频采集的数据分别来自于麦克风与摄像头,而摄像头与麦克风其实是两个独立的硬件,而音视频同步的原理是相信摄像头与麦克风采集数据是实时的,并在采集到数据时给他们一个时间戳来标明数据所属的时间,而编码封装模块只要不改动音视频时间的相对关系就能保证音频与视频在时间上的对应。如此封装好数据之后,播放端就能够根据音视频的时间戳来播放对应的音视频,从实现音视频同步的效果。

时间戳参考标准

取格林威治时间做为对比标准,即音视频时间戳都为采集时间点相对于格林威治标准时间的时间差;

取系统开机时间做为对比标准,即音视频时间戳都是采集时间点相对于手机开机时间的时间差。目前iOS上AVCaptureSession这套API就是参考这个时间标准给的时间戳。

其它时间戳标准

基于“开源项目1”的音视频同步探讨

原生某开源框架

如图:

 

简介

音/视频被采集到之后会先经过音/视频处理模块,音/视频在被处理之后才进入计算时间戳的模块。

在第一帧到达时记一个计时起点,然后根据采集的帧间隔对接下来每一帧的时间戳进行计算:frameTimeStamp = lastFrameTimeStamp + frameDuration。

优点

能输出frame duration稳定的音视频时间戳。

风险

无论是音频还是视频,在手机过热、性能不足等极端情况下有可能出现采集不稳定的情况,比如说预计1s采集30帧,实际只采集到28帧,而音视频的时间戳是通过累加来计算的,这样就有会出现音视频不同步的情况。

Video Process(人脸检测、滤镜、3D贴纸)有可能无法在一帧时间内处理完当前帧,这样就会出现帧数比预期低的情况,从而出现音视频不同步。

帧间隔涉及到无限小数时,因为计算机的精度有限会引发的时间戳偏移,此偏移会随着帧数的增加而逐渐被放大。

基于开源项目1的改进方案1

如图:

 

时间戳的获取方法非常直接——每一帧都在改帧进入时间戳计算模块时获取当前系统时间作为时间戳。

优点

APP性能正常的情况下肯定不会出现音视频不同步;

能够实时纠正时间戳,只要APP正常运转,就能立即恢复正确的时间戳。

风险

依赖Video Process与Audio Process模块处理时长相近,而实际工程中因为人脸检测、贴纸等原因,Video Process可能会出现阻塞的情况,从而导致临时性的音视频不同步

在Audio Process与Video Process模块处理帧耗时不均匀的情况下会出现音视频时间戳不均匀的问题,能否正常播放依赖于终端

基于开源项目1的一个改进方案2

如图:

 

简介

音/视频被采集到之后,先获取采集模块提供的音视频时间戳,然后在音/视频处理模块透传采集模块获取到的音/视频时间戳,在时间戳计算模块继续透传采集模块给的时间戳。

优点

除非采集模块给出错误数据,否则音视频都一定是同步的。

风险

可能会出现音视频时间戳不均匀的情况,尤其是在手机过热、性能不足等极端情况下。

直播方向更进一步的优化探讨

大致流程如图:

 

简介

音/视频被采集到之后,先获取采集模块提供的音视频时间戳,然后在音/视频处理模块透传采集模块获取到的音/视频时间戳。

在时间戳计算模块透传视频时间戳,并根据下文中提到的方法计算音频时间戳。

音频时间戳计算方法

实时计算时间戳:当前时间戳=起始时间戳+帧数*帧采样数/采样率;

如果时间戳偏移量超出阈值,纠正时间戳;

纠正频率达到超出阈值,直接透传采集时间戳。

优点

能够提供一个稳定的音频时间戳,可以兼容帧间隔小幅抖动造成的音频时间戳不均匀;

兼容性能不足时导致实际采集帧数低于帧率。

风险

纠正时间戳时可能会造成声音卡顿的感觉。

总结

具体方案最好是针对实际应用场景有选择性的做优化,比如说,在可以控制播放器策略的情况,可以考虑根据自研播放器特性做时间戳处理。而如果播放器不可控,则尽量通过策略保障帧间隔稳定。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

上海2023年8月8日 /美通社/ -- 音频、视频和协作解决方案领军企业 Jabra 宣布,全球化工业集团丹佛斯(Danfoss)部署Jabra PanaCast 50智能音视频一体机及全新Evolve2系列...

关键字: EV 可持续发展 音视频 ST

2023年7月5日,高性能连接解决方案领先供应商Valens Semiconductor(纽约证交所代码:VLN)今日宣布其董事会已任命Peter Kuo为董事会和审计委员会成员。他将接替自2021年9月以来担任董事会和...

关键字: 汽车 音视频

史胜辉,在MTK工作了11年,一直在基带芯片的USB驱动领域做开发和验证。从最开始做USB2.0/3.0 IP验证和驱动开发到后面带领团队做上层协议驱动开发,以及跟硬件设计部门合作开发全新的USB硬件加速器。

关键字: 基带芯片 驱动领域 驱动开发

第五代移动通信技术(5th Generation Mobile Communication Technology,简称5G)是具有高速率、低时延和大连接特点的新一代宽带移动通信技术,5G通讯设施是实现人机物互联的网络基础...

关键字: 4G 同步 5G

LT6911C 适用于 VR/智能手机 / 显示应用。 对于 MIPI®DSI / CSI 输出,LT6911C 具有可配置的单端口或双端口 MIPI®DSI/CSI,具有 1 个高速时钟通道和 1~4 个高速数据...

关键字: 音视频

广州2022年6月7日 /美通社/ -- 在疫情的影响下,部分制造商产品出口欧美市场受到了严重的冲击。不少厂商将关注点转向中东市场,例如阿联酋,期望挖掘新的商机。企业在把握商...

关键字: 音视频 无线通讯 研讨会 电源适配器

摘要:对变电站辅助监控平台系统进行了探究,针对环境监测、消防火灾、安防门禁、动力照明及视频监控等辅助系统的智能融合程度不高等现状,提出了一种基于消息队列的变电站智能联动技术,给出了辅助监控系统的智能联动框架及其实现方案,...

关键字: 变电站 智能联动 实现方案

摘要:传统的罗氏线圈校准工作大多在实验室里完成,没有考虑到测量用的附属设施设备,而将罗氏线圈独立地进行校准,且72套罗氏线圈校准工作量比较大,效率比较低,测量不同步。鉴于此,设计了一种新型的72套罗氏线圈同时校准的方法,...

关键字: 罗氏线圈 校准 同步

关注、星标公众号,直达精彩内容文章来源:网络音视频业务的繁荣,必定造就开源项目的繁荣,反过来说也是一样的,互相成就。遍地都是开源的轮子,如何选择?提供一个有效的角度,可作为避坑指南。如果已经入坑了,您躺平就好,入坑就已经...

关键字: 开源 音视频

摘 要:开发人员都愿意编写同步代码的原因是简单。但是,如果电脑不能快速响应用户界面的请求,鼠标就会不停地转圈,若在界面上点两下,界面变灰,标题栏上将出现“没有响应",然后使人束手无策。而异步编程则可使运行耗时的操作线程在...

关键字: 同步 异步 线程 .NET
关闭
关闭