多年来,英特尔内置于其 CPU 中的视频解码/编码引擎一直主导着市场,因为它们提供了领先的性能和功能,并且易于使用。但是定制专用集成电路 (ASIC) 的性能往往优于通用硬件,因为它们仅针对一种工作负载而设计。因此,谷歌转向为 YouTube 开发自己的视频处理任务专用硬件,并取得了巨大的成效。

intel cpu 仿真(谷歌自研油管专用VCU)(1)

Google 设计了自己的新处理器Argos 视频(转)编码单元 (VCU),其目的只有一个:处理视频。高效的新芯片使这家技术巨头能够用自己的芯片替换数百万颗英特尔 CPU。

不过,英特尔也不会坐以待毙,可能会利用其最新技术来赢回谷歌的专业视频处理业务。

大量视频需要新硬件

用户每分钟向 YouTube 上传超过 500 小时的各种格式的视频内容。Google 需要将该内容快速转码为多种分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p)和数据高效格式(例如,H.264、VP9 或 AV1),这需要强大的编码能力。

从历史上看,谷歌有两种转码/编码内容的选择。第一个选项是英特尔的视觉计算加速器(VCA),它包含三个 Xeon E3 CPU,内置 Iris Pro P6300/P580GT4e 集成图形内核和先进的硬件编码器。

第二种选择是使用软件编码和通用英特尔至强处理器。谷歌认为,对于新兴的YouTube工作负载来说,这两种方案都不够省电--视觉计算加速器本身相当耗电,而扩大至强CPU的数量基本上意味着增加服务器的数量,这意味着额外的电力和数据中心的占用。因此,谷歌决定采用定制的内部硬件。

intel cpu 仿真(谷歌自研油管专用VCU)(2)

谷歌的第一代 Argos VCU 并没有完全取代英特尔的中央处理器,因为服务器仍然需要运行操作系统并管理存储驱动器和网络连接。在很大程度上,谷歌的 Argos VCU 就像一个总是需要一个 CPU 的 GPU。

谷歌的 VCU 与我们在 GPU 中看到的流处理器不同,它集成了十个 H.264/VP9 编码器引擎、几个解码器内核、四个 LPDDR4-3200内存通道(具有 4x32 位接口)、一个 PCIe 接口、一个 DMA 引擎和一个用于调度目的的小型通用内核。除了内部设计的编码器/转码器外,大多数 IP 都从第三方获得许可,以降低开发成本。每个 VCU 还配备了 8GB 的可用 ECC LPDDR4 内存。

谷歌VCU的主要理念是将尽可能多的高性能编码器/转码器放入一块硅片中(同时保持节能)),然后根据所需的服务器数量分别扩展VCU的数量。谷歌在一块板上放置了两个VCU,然后在每台双插槽英特尔至强服务器上安装了10张卡,大大提高了该公司每个机架的解码/转码性能。

效率的提高导致从至强的迁移

谷歌表示,与英特尔Skylake-powered服务器系统相比,其基于VCU的机器在性能/TCO计算效率方面有高达7倍(H.264)和33倍(VP9)的改进。这一改进将 VCU 的成本(与英特尔的 CPU 相比)和三年的运营费用考虑在内,这使得 VCU 成为视频巨头 YouTube 的轻松选择。

CPU、GPU 和配备 VCU 的系统中的离线双通道单输出 (SOT) 吞吐量:

intel cpu 仿真(谷歌自研油管专用VCU)(3)

从谷歌分享的性能数据来看,很明显单个 Argos VCU 仅比 H.264 中的 2 路 Intel Skylake 服务器快。但是,由于可以在这样的服务器中安装 20 个 VCU,因此从效率的角度来看VCU 胜出。但对于要求更高的 VP9 编解码器,谷歌的 VCU 似乎比英特尔的双路至强快五倍,因此提供了令人印象深刻的效率优势。

由于谷歌使用Argos VCU已经有几年了,它显然用运行自己芯片的机器取代了许多基于Xeon的YouTube服务器。很难估计谷歌实际替换了多少Xeon系统,但一些分析家认为,该技术巨头可能将400万到3300万颗英特尔CPU替换成了自己的VCU

intel cpu 仿真(谷歌自研油管专用VCU)(4)

由于谷歌的其他服务需要大量的处理器,该公司从AMD或英特尔购买的CPU数量很可能仍然很高,而且不会很快减少,因为谷歌自己的数据中心级系统芯片(SoC)还要等上几年。

同样值得注意的是,现在为了尝试使用创新的编码技术(如AV1),谷歌甚至需要为YouTube使用通用的CPU,因为Argos不支持该编解码。此外,随着更有效的编解码器的出现(而这些编解码器往往对计算能力的要求更高),谷歌将不得不继续使用CPU进行初始部署。具有讽刺意味的是,专用硬件的优势在未来只会越来越大。

谷歌已经在开发支持 AV1、H.264 和 VP9 编解码器的第二代 VCU,因为它需要进一步提高其编码技术的效率。目前尚不清楚何时部署新的 VCU,但很明显该公司希望尽可能使用自己的 SoC 而不是通用处理器。

英特尔并未停滞不前

不过,英特尔并没有停滞不前。该公司 基于DG1 Xe-LP的 四芯片 SG1 服务器卡可以解码多达 28 个 4Kp60 流以及转码多达 12 个同时流。从本质上讲,英特尔的 SG1 与谷歌的 Argos VCU 所做的完全一样:将视频解码和转码性能与服务器数量分开,从而减少用于视频应用的数据中心所需的通用处理器数量。

intel cpu 仿真(谷歌自研油管专用VCU)(5)

凭借即将推出的单块 Xe-HP GPU,英特尔将同时提供 10 个高质量 4Kp60 流的转码。请记住,某些 Xe-HP GPU 将扩展到四个区块,并且每个系统可以安装一个以上的 GPU,英特尔市场领先的媒体解码和编码能力只会变得更加稳固。

总结

Google 已成功构建了出色的 H.264 和支持 VP9 的视频(转)编码单元 (VCU),与英特尔现有的 CPU 相比,它可以在视频编码/转码工作负载方面提供显着更高的效率。此外,VCU 使 Google 能够独立于服务器数量扩展其视频编码/转码性能。

然而,英特尔已经拥有其 Xe-LP GPU 和 SG1 卡,它们也提供了一些重要的视频解码和编码功能,因此英特尔仍将在具有繁重视频流工作负载的数据中心取得成功。此外,随着英特尔 Xe-HP GPU 的出现,该公司有望巩固其在该市场的地位。

,