今天写到的一些观点非常偏向于个人理解,很多地方未必能跟所有人有同样理解或认知,我也觉得未必有必要大家在这个问题上有一致的理解。我认为核心是对技术体系的理解是否通顺,另外是否方便让我们理解过去、未来和将来。这里面我认为也藏着行业变化的动力、原因,以及我们感知到这个领域人才结构变化以及环境变化的一切。

从现在这个一切智能化的时代回想过去的技术环境,就有点像站在现代文明回想文艺复兴的感觉有点像。这篇写得非常快,心里怎么想怎么写,图也是顺着记忆画的,难免不准确,主要想讲一下这个行业的变迁,顺便讲一下这些标准之间的关系。如果有​问题,请大家指正。

标准是摇钱树

在Thomson工作时,每一次财报里,都会常看到IP&L(知识产权与法律)部门的收入贡献比非常的高,其实大头也是因为Thomson(后改名为Technicolor),持有对mp3标准的专利权,因此全球每生成一个mp3解码单元,都会给Thomson交钱的。当年mp3可基本人手一个,网络上音乐分发也都是mp3,这听起来是不是一个一本万利的好生意?只要拿下一个标准的专利权,并被业界大量应用,是不是可以一直像印钞一样赚钱?

这简直就是摇钱树。

那么是什么敲醒了这个美梦呢?2017年,mp3所有的专利过期了,这么大一块收入没有了,mp3变成了全人类的共同财产,不再只属于某个个体了,收入应声下降。

作为尝到甜头的公司,当然也不会坐等着专利期结束,所以研究院大幅度地参与了H.264, SVC, MVC,以及后面新的HEVC标准的研发,专利申请以及标准组织的提案与标准专利池的申请,继续从新的国际标准,如H.264,HEVC等收取专利费用。当然,对应的也是大量的人力、物力的投入。

听起来是个闭环,确定一个标准,引导行业使用这个标准,收取专利费,在专利失效之前,引入新的标准,循环往复,技术也因此,不断更新迭代,越来越好。

这是完全可行的,一段时间里也做到了。但实际上,天底下永远没有那么好的事情一直这么运转下去。

另外我觉得不只一次有人跟我聊起这个事情,感觉现在音视频行业的人才好像没有那么多了,圈子好像就那么大,这是为什么。

这一切都跟视频编码标准的发展息息相关,这也是这个行业变化的过程缩影。

视频编码标准的进化

我们来整理一下主流视频编码标准的发展过程,从视频信号被传输的第一天开始到现在是如何演进的。当然说明一下,把所有的标准都放进来统计一来工作量比较大,二来有些没有意义,因为不是所有标准都得到大规模应用的,我们围着几个比较著名的标准组织和公司来做一下断代。

涉及到的几个组织如下:

• ITU-T, VCEG,International Telecommunication Union - Telecommunication Standardization Sector, Video Coding Expert Group,国际电信联盟电信标准化部门视频编码专家组,如H.264, H.265这类标准的制定者

• JPEG,Joint Photographic Experts Group,联合图像专家小组,我们都熟悉的jpeg标准的制定者

• ISO/IEC, MPEG,International Organization for Standardization/International Electrotechnical Commission, Motion Picture Expert Group,国际标准化组织/国际电工委员会,动态影像专家小组,如MPEG-2, MPEG-4等标准的制定者

• SMPTE,Society of Motion Picture and Television Engineers,电影电视工程师协会。

• On2 Technologies,原来叫The Duck Corporation,后来于2010年被Google以1亿美金收购。

• Apple,家喻户晓的苹果公司

• Sony,日本索尼公司,摄像机巨头,很多自己定的标准用在他们自己的摄像机设备上

• AVS,Audio Video Coding Standard,是我们自主研发的音视频编码标准

• RealVideo,最早互联网上的音视频播放器,一家生命力极其顽强的视频播放器开发商

接下来是各个组织在视频标准与格式这块这些年的主要工作大概的编年断代,可能个别标准时间线未必准确,但不影响我们分类分析:

影响的五大因素(我对标准的理解)(1)

这张图我按我自己逻辑画的,可能不同的人会觉得这个分法不科学,有些人可能会发现一些标准可能年份没那么准确,但没关系,我们求同存异,基本上大趋势不会有问题。不同的颜色代表了一个时代或一类方法,我们分开说一下:

影响的五大因素(我对标准的理解)(2)

所以可见,其实标准无法是视频应用发生场景级别的应用升级阶段时(无论是从电视的普及,还是互联网的普及,还是超高清应用等),被行业提出的相应的编码算法集合。虽然还有很多其他的标准或格式,但归类下大多都在这个分类的范畴里。

比如RealVideo的RV系统标准,RV10, RV20就是H.263的模仿者,RV30是H.264的早期版本模仿者,RV40是H.264的成熟期版本模仿者,RV60是HEVC的模仿者。编码结构与算法结构都与当时的代表性编码器相近,原理相似。

那这些信息能告诉我们什么呢?

一些个人理解

1. 做一个新的标准是否困难

这曾经是个非常困难且专业的事情。但现在对大部分有参与标准经验的人或是有对之前标准有深度理解的人,依托于某一代框架来优化一个私有的标准,应该都不会觉得困难。真想横空出世突破现有框架建立新架构,取得极大性能提升,并被行业认知,这个难度会是大的。

各路公司不断的因为各种原因和应用场景都会私有化出来一些格式或“标准",然后逐步把它们公开、开源,以期被更大行业范围或人群接受,目前看最终基本上都只是约束在有限的场景里应用着。的确选择的余地太大了,没有大的场景突破,很难让人有动力产生关注。

所以一个公司如果找对人(甚至都不需要那么顶尖),做一个自己的视频格式或标准,完全可行的,但是做出来之后怎么去推广,这个是头疼的,需要想特别清楚。另外做完之后,还要考虑,是否侵犯了别人的专利权,这个问题就更麻烦了,因此会引出下一个问题。

2. 为什么标准推行越来越难了

2013年定稿的HEVC,到现在已经过去8年了,到目前为止,目前互联网、广电大量应用的标准仍然是H.264/AVC。H.265/HEVC以及他们同代的标准仍然还没有成为主流。这并不是因为它们不够好,在高清以上视频编码HEVC能提升25%-50%的结果也是公认的,但在商业世界里,技术永远只是链条中的一环,甚至有时候都不是最重要的那环。

最大的问题在专利池,说白了就是钱怎么分的问题,这个问题对HEVC,甚至VVC,都是一团乱麻。

H.264的时候,只有一个专利池,MPEG-LA,所有使用H.264技术的人,只需要交专利费给MPEG-LA就可以了,明码标价,所有的成员分这笔钱就可以,非常简单。而HEVC到现在一共有三个专利池:MPEG-LA,HEVC-Advance,Velos Media。最初的时候MPEG-LA还是最大的专利池,但是HEVC-Advance近几年看起来在越变越大。2020年的时候,有9家公司退出了MPEG-LA,另外之前没有加入任何专利池的华为,也加入了HEVC-Advance。从HEVC-Advance退出的Technicolor,三年后又重新加入了HEVC-Advance,所以专利的平衡一直在动摇,到2020年1月份统计:

•HEVC-Advance有大约10800专利

•MPEG-LA有大约7400专利

•Velos Media包括了高通、松下等公司,专利数量不明确,但比上面两家会少一个数量级。

更可怕的是,很多公司明确表示还有相当大一部分HEVC相关的专利还没有加入到专利池中。也就是说使用HEVC的企业会面临:

1.花费比H.264高非常多的授权使用费

2.要向多家专利机构进行购买

3.即使花了也不能保证是否会面临更多的专利使用诉讼,因为本来就没有整理干净

是不是听起来不太妙?

另外如果你解决了这一堆专利问题,HEVC/VVC的编码复杂度相比H.264复杂了数倍,对服务器资源成本的提升非常明显,而且内容生产生态、浏览器支持生态等上下游的支持离到位也还有相当大的差距。

与此同时,再过几年H.264就要免费了。

H.264出来的时候,也有一些小的专利池在跟MPEG-LA分利益,但是最终没有生存下来。相信拉长时间,这三个专利池也会不断取舍,最终达成一致。VVC从开始的时候就有一定约定,要尽可能使用单一专利池来做授权,只不过不知道是不是会太晚了。

如果你是一个视频业务企业主,我猜你大概率会选择留在H.264不动了,或者去使用AV1,royalty free,安全,干净,放心,省得专利这场仗打起来没完,不知道啥时候就溅一身血。

3: Royalty Free Codec

Google是一家极技术驱动的公司,他的一些决策就非常超前并有效。知道专利这个事情大概率很难解决了,早早地就收购了On2,开放VP8, VP9,这样至少不会被这些专利战争裹挟。另外开启了Royalty Free的标准AV1,打开了一扇新的路径,毁天灭地。

MPEG也在跟进,新起草的MPEG-5 EVC,也是朝这条路走了,但感觉节奏上已经有点晚了。

从定义上,Royalty Free Codec本质上就是只使用过期了的专利和免费授权可以使用的专利来完成一个标准,同时从性能上与其他标准接近。这个事情本身就挺让真刀真枪参加收费标准制定的公司难受的,投入那么大得不到回报,好像这碗吃了几十年的专利饭要突然吃不上了。

其实如很多业内人事在2013-2015年之间就在分析,这扇门的打开,基本上标记了一个时代的结束,会对这个曾经充满活力与朝气的产业泼一身凉水。如果你经历感受过当年MPEG标准制定的环境,各公司把最聪明的大脑都放在上面,全力支持他们每三个月满世界飞着参加标准组织会议,去一个个算法抠着突破,每次会上拼命争取权益和方案采纳机会,为了得到那百分之一的性能提升没日没夜的跑数据,你就很难理解为什么那个年代人才就像文艺复兴一样,飞速地被培养和成长起来。你也就没办法理解Leonardo Chiariglione这一生为啥那么热衷于推广MPEG标准组织,也没办法理解Gary Sullivan要花多大力气平衡各公司才能达成一致,也没办法理解像暴君一样的Thomas Wiegand如何让HHI变到那么强,也没办法理解当年陈颖、叶琰、Yin Peng等等一大票中国标准参与者有多强,也没办法理解高文院士、吴枫教授、尹宝才教授等国内推着AVS标准往前走的人有多不容易,也就不能理解为啥那个年代会出现膝下那么多门徒在这条路上追随着他们。

你可能无法想象这些人对这个行业深深的感情和热爱。

而当真的这些都Royalty Free了,企业推进这个事情的源动力小太多了,哪怕像AV1这样已经很顶尖的标准,你要细看,都会感觉做的那么养生,大家强调了个坚持和热爱,很难有当年的血性和肉搏式的感受了。因此必然会引出下面这个问题。

4:行业人才供给为什么偏少了

去年跟包研好像聊过这个问题。

好多人也会有这个感觉,我觉得不完全对。看你怎么定义从业人员。

如果说媒体应用层,不管推拉流,WebRTC还是ffmpeg工程师,行业人群现在比以前真是多太多了,很多重要的事情因为这些年网络质量的提升、计算能力的提升,变得可解可不解,必竟机器比人力要便宜,很多公司也不再有动力去从根本上解决一些问题了。随着应用和开源项目的成熟化和普及化,你不需要再是一个懂视频技术的工程师,才能做得了直播项目、点播项目、实时通讯项目等各种各样的使用SDK、开源就可以搞定的事情。它已经变成了一个系统搭建和整合的事情。

但是大量的从业者,其实对底层技术与逻辑了解非常浅,没有多少认知,甚至系统搭起来,参数怎么调都不知道。对于底层这些算法是如何实现的,熟悉的人就更少。这就造成了一个问题,对于这批实施工程师,这些基础知识到底有没有用,有没有可能学得会。

与此同时,真懂底层的专家和工程师,实际上没有变多,反而有可能因为逐渐有更重要的职责要承担反而在变少的。这个时候你只要参加几次会议,基本就知道这个圈子有多小,圈子顶部的人,还有心力看技术的人还剩几个,基本就会有数。

Now What?

说了好多,接下来该怎么办。我认为在接下来的一段时间里,核心技术的研发可能只会逐渐落在几个大的有能力做基础研究的公司比如Google、Apple、腾讯,或是一些视频垂直服务类公司,比如声网等。研究方向会越来越偏向于与AI、AR、VR方面的结合(CSVT看一圈就基本能下这个判断了)。云游戏等应用也许会要求视频技术的再次升级,因为场景上跟之前的设定差异变大了(高清晰度,高帧率,低延迟,非自然规则运动场景),这也是当年的编码算法噩梦,placebo模式的假想敌之一。

而视频技术这个能力,就像基础3D图形学,中间件技术等等一样,成为一个基础计算机科学范畴的内容。你可能不一定对每个原理和技术点都那么清楚,但是因为视频应用如此普及,你不可能在需要使用它的时候,不知道怎么使用。它将变成你的一项基础能力,你什么都不会不懂,有可能就是约束你前进的绊脚石,企业也未必每次都是通过招聘一个视频技术专家来解决这些问题,在实际工作中,这个现象已经好多次被观察到,它也许将渗透到好多人的工作内容中。

前几天看到大师兄写的一句话:

如果你身边有一个从事音视频技术开发的朋友、同事,请珍惜和他的友谊,因为他对音视频技术确实是真爱,而且是深爱的那种,经历过这种门槛的程序员并不多,因为这种门槛如果只是为了挣钱并非爱好的话,他真的在看不到未来的时候就放弃了。

非常认同,不忘初心,只要有空就在这里继续往下写,不求快不贪多,也许能影响到几个人就蛮好的。

,