一、直播的技术架构:
直播视频采集SDK(PC/IOS/Anddroid)——直播CDN
(直播流分发加速)——直播视频播放器SDK(PC/IOS/Android)
二、音视频处理的一般流程:
数据采集→数据编码→数据传输(流媒体服务器) →解码数据→播放显示
1、数据采集:
摄像机及拾音器收集视频及音频数据,此时得到的为原始数据
涉及技术或协议:
摄像机:CCD、CMOS
拾音器:声电转换装置(咪头)、音频放大电路
2、数据编码:
使用相关硬件或软件对音视频原始数据进行编码处理(数字化)及加工(如音视频混合、打包封装等),得到可用的音视频数据
涉及技术或协议:
编码方式:CBR、VBR
编码格式
视频:H.265、H.264、MPEG-4等,封装容器有TS、MKV、AVI、MP4等
音频:G.711μ、AAC、Opus等,封装有MP3、OGG、AAC等
3、数据传输:
将编码完成后的音视频数据进行传输,早期的音视频通过同轴电缆之类的线缆进行传输,IP网络发展后,使用IP网络优传输
涉及技术或协议:
传输协议:RTP与RTCP、RTSP、RTMP、HTTP、HLS(HTTP Live Streaming)等
控制信令:SIP和SDP、SNMP等
4、解码数据:
使用相关硬件或软件对接收到的编码后的音视频数据进行解码,得到可以直接显示的图像/声音
涉及技术或协议:
一般对应的编码器都会带有相应的解码器,也有一些第三方解码插件等
5、播放显示:
在显示器(电视、监视屏等)或扬声器(耳机、喇叭等)里,显示相应的图像画面或声音
涉及技术或协议:
显示器、扬声器、3D眼镜等
三、常见的视频直播相关协议:
1、RTMP(Real Time Messaging Protocol,实时消息传送协议)
RTMP是Adobe Systems公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议。它有三种变种:
1)、工作在TCP之上的明文协议,使用端口1935;
2)、RTMPT封装在HTTP请求之中,可穿越防火墙;
3)、RTMPS类似RTMPT,但使用的是HTTPS连接;
RTMP协议是被Flash用于对象、视频、音频的传输。这个协议建立在TCP协议或者轮询HTTP协议之上。RTMP协议就像一个用来装数据包的容器,这些数据既可以是AMF格式的数据,也可以是FLV中的视音频数据。一个单一的连接可以通过不同的通道传输多路网络流,这些通道中的包都是按照固定大小的包传输的。
2、RTSP(Real Time Streaming Protocol,实时流传输协议)
RTSP定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP提供了一个可扩展框架,数据源可以包括实时数据与已有的存储的数据。该协议目的在于控制多个数据发送连接,为选择发送通道如UDP、组播UDP与TCP提供途径,并为选择基于RTP上发送机制提供方法。
RTSP语法和运作跟HTTP/1.1类似,但并不特别强调时间同步,所以比较能容忍网络延迟。代理服务器的缓存功能也同样适用于RTSP,并且因为RTSP具有重新导向功能,可根据实际负载情况来切换提供服务的服务器,以避免过大的负载集中于同一服务器而造成延迟。
3、RTP(Real-time Transport Protocol,实时传输协议)
RTP是针对多媒体数据流的一种传输层协议,详细说明了在互联网上传递音频和视频的标准数据包格式。RTP协议常用于流媒体系统(配合RTCP协议),视频会议和一键通系统(配合H.323或SIP),使它成为IP电话产业的技术基础。
RTP是建立在UDP协议上的,常与RTCP一起使用,其本身并没有提供按时发送机制或其它服务质量(QoS)保证,它依赖于低层服务去实现这一过程。
RTP 并不保证传送或防止无序传送,也不确定底层网络的可靠性,只管发送,不管传输是否丢包,也不管接收方是否有收到包。RTP 实行有序传送,RTP中的序列号允许接收方重组发送方的包序列,同时序列号也能用于决定适当的包位置,如在视频解码中,就不需要顺序解码。
4、RTCP(Real-time Transport Control Protocol,实时传输控制协议)
RTCP是RTP的配套协议,为RTP媒体流提供信道外的控制。RTCP和RTP一起协作将多媒体数据打包和发送,定期在多媒体流会话参与者之间传输控制数据。
RTCP的主要功能是为RTP所提供的服务质量(QoS)提供反馈,收集相关媒体连接的统计信息,例如传输字节数,传输分组数,丢失分组数,单向和双向网络延迟等等。网络应用程序可以利用RTCP所提供的信息来提高服务质量,比如限制流量或改用压缩比小的编解码器。
一个直播系统大概可以分为一下几个模块,媒体模块,服务模块,管理模块。媒体模块是其中的核心,又可分为采集,前处理,编码,传输,解码,渲染这几个环节。
1、采集
采集是直播系统中的第一环节,获取视频源。 因为iOS是软硬件种类不多,官方也提供了稳定可靠的接口,比较简单。 Android因为机型种类繁多,需要适配机型,会是很大一部分工作。 而PC也面临各种摄像头驱动,难点在于机型适配。
2、前处理
主要用于图像美化,风格化,图像处理方面。除了秀场需求以外,在UGC内容生产方式下,大量的内容对美颜都有较高的要求。美颜简单的可以通过美颜镜头,但局限性大,限于PC端的主播,更好的办法是通过软件实现,需要图像处理方面的人员,美颜算法需要需要用到GPU编程, 难点在于美颜效果是否自然,GPU占用与效果的平衡。GPU用于高性能计算,但功耗也相对高,需要考虑到手机温度对数据采集的影响。图像处理不仅仅是美颜,在交互中可能会涉及到滤镜,人脸识别,人物风格化等,使得客户拥有更好的互动体验。目前iOS上比较好的图像处理库是GPUImage,提供了丰富的预处理效果,也可利用该库自定义设计。Android上也提供了功能强大的图像处理库grafika。
3、编码
在编码方面,有两种编码方式,硬编码(硬件)与软编码(软件)。编码主要难点有两个:1、处理硬件兼容性问题。2、在高 fps、低 bitrate 和音质画质之间找到平衡。iOS 端硬件兼容性较好,可以直接采用硬编。而 Android 的硬编的支持则难得多,需要支持各种硬件机型,推荐使用软编。
4、传输
传输涉及系统的多个部分,连接主播端,服务端,客服端等多个部分。 传输效率高与否决定直播系统的性能好不好,传输是直播系统非常重要的技术核心。
涉及技术或协议:
传输协议:RTP与RTCP、RTSP、RTMP、HTTP、HLS(HTTP Live Streaming)等
控制信令:SIP和SDP、SNMP等
5、解码和渲染
拉流获取音视频数据后,需要通过解码器解码,渲染才能在播放器上播放。 H.264和H.265是有所压缩的,在解码恢复之后是缺损的原数据。之前提到的体积最小画质最优的编码参数,就是在这里恢复画质的,该参数组合是非常重要的技术。现在的播放器普遍都需要高清支持,解码也应选择硬解码。iOS能够较好的支持,但Android还需要很多工作去弥补Android在平台差异的缺陷。而在播放端,保证音画同步的同时,保证稳定流畅的直播流量,需要服务端与播放端做调度优化。
以上是媒体模块,还有服务模块的支付,运营,任务等系统,管理模块的客户端设计与维护、后台数据库、后台控制系统等。
现在市场提供直播能力的供应商很多。AnyChat、微吼、网易云、阿里云都可以提供直播APP开发能力。
互联网一直在喊“互联网+”,直播平台一直在喊“直播+”,游戏直播间,未来必定也将走向新趋势“游戏+”。全民TV小智在直播的时候,开始尝试加入趣味讲电影、趣味讲小说的内容;斗鱼直播的QQQ也一直在做电竞设备的数据和体验分析。他们也许是无心之举,也许是刻意筹备,但是我相信,这些都是游戏主播走向“游戏+”模式的新尝试,而且也必定是未来直播间的一大新趋势。单一游戏直播走向真正的内容直播,绝对是好现象好趋势。直播的“游戏+”模式拥有必然性:一、传统游戏热度下降,粉丝缩水游戏行业目前正处在英雄联盟热度逐渐下降时期,王者荣耀难当大任,绝地求生国服尚未开始,而且开始之后到底能否成为英雄联盟级别的超现象级游戏也是模棱两可,所以游戏直播的主流观众很有可能出现缩水现象,将直接影响游戏主播们的观众人数。二、直播平台的游戏人口红利吃尽,天花板渐显随着直播从业者的耕耘,依托于游戏而得益的人口红利逐渐吃尽,已经看到了第一层天花板。那么直播观众的增长就需要谋求于游戏外。如果主播依然只直播游戏的话,则很难看到到粉丝的持续增长,所以,他们将会通过“游戏+”的模式,尝试从外站获取更多流量。这种现象也是直播平台希望看到的,他们并不愿意众多主播们只在站内争抢已经属于直播平台的流量。三、观众审美要求提高,需要更丰富的内容单纯看游戏看唱歌跳舞,已经让观众开始出现审美疲劳。如果主播们不能提供更多的丰富内容,已有老观众将会逐渐流失,而新观众的增加又需要付出成本。要知道,任何时候,互联网的根本都是内容为王。所以,开发“游戏+”模式,产出更优秀的内容,会成为未来直播间的发展趋势。直播中的“游戏+”加什么最合适?一、游戏加“自媒体”目前,虽然很多主播都已经运营着自己的自媒体账号,但是事实上,大多数情况下,它仅仅是为已有粉丝提供了一个互动平台或者信息告知平台而已,完全起不到站外引流的作用。放着自己庞大的粉丝基数不会运作,看着站外更加庞大的流量不会吸收,实在是资源的巨大浪费。