NVIDIA今年会推出新一代Pascal显卡,最快4月份的GTC 2016大会上就能见到面向高性能服务器市场的Tesla版GP100核心显卡。只不过NVIDIA这次的保密工作做到太好了,除了官方公布过的3D显存、FinFET工艺之外,Pascal显卡的规格还是非常神秘。还好NVIDIA功亏一篑,日前曝光的一份文档中显示Pascal显卡配备的3D显存带宽高达1024GB/s,单精度浮点性能12TFLOPS,双精度浮点性能4TFLOPS,是GK110核心的三倍之多。

魔龙显卡和猛禽显卡哪个好(NVIDIA自爆Pascal性能12TFLOPS浮点性能)(1)

3DCenter论坛有网友找到了NVIDIA公司CUDA院士Manuel Ujaldon去年6月份发布的一份演讲文档,他本身也是西班牙大学教授,这份文档里对比了Intel、AMD及NVIDIA公司不同处理器、显卡的带宽及计算性能,我们来看最关键的Pascal与Teslak K20X的对比。

K20X使用的是GK110核心,14组SMX单元,2688个CUDA核心,384bit位宽,带宽25GB/s,单精度浮点性能3.95TFLOPS,双精度浮点性能1.31TFLOPS。Pascal显卡规格没提,但应该是GP100核心,配备3D显存,带宽1024GB/s,单精度浮点性能12TFLOPS,双精度浮点性能4TFLOPS。

GK110与Pascal之间隔了Maxwell架构,不过Maxwell显卡之所以高效,很大一部分原因是阉割了双精度单元,所以在这一点上它实际上连GK110核心都不如,这可能是GM200核心没有加入对比的原因。

只看GK110与Pascal的GP100核心,GP100的性能是GK110核心的三倍,单精度及双精度差不多都是这样。虽然缺少与GM200核心的直接对比,但GM200核心的Tesla M40单精度性能是7TFLOPS,以此计算的话GP100性能依然是GM200核心的1.7倍,也就是性能提升了70%。

魔龙显卡和猛禽显卡哪个好(NVIDIA自爆Pascal性能12TFLOPS浮点性能)(2)

不同处理器/显卡的带宽性能比

从三倍GK110性能来看,GP100核心的规模也一定很庞大,所以之前传闻的6144个CUDA核心、170亿晶体管以及600mm2核心面积的传闻还是有一定可信度的。

值得一提的是,Pascal显卡使用HBM显存几乎是板上钉钉了,而且1024GB/s的带宽也正好与HBM 2显存特性相符,但Manuel Ujaldon这篇文章中除了一个列表提到HBM显存之外,大部分篇幅都是在讲HBM对手HMC显存的,这也是一种3D堆栈内存技术,但HMC 1.0显存的带宽与规格跟1024GB/s的带宽也不符,实在是猜不透这里面到底是怎么回事。

考虑到这篇演讲是去年6月份的了,并不是最新资料,所以内容仅供参考,GP100核心的性能基本没跑了,至于3D显存到底是HBM还是HMC,笔者还是倾向于HBM 2,毕竟HBM的商业化程度比HMC高多了。

,