总部位于布里斯托尔的Graphcore刚刚推出了第二代IPU(智能处理单元)系统,该系统针对的是希望大规模进行人工智能处理的组织。在这些IPU机器M2001U刀片系统内部,有四个由TSMC根据其最先进的7nm工艺制造的新巨像MK2GC200IPUs,每个封装1472个内核,可以“一机智能计算千万亿次”。如果IPU机器M2000听起来像是你想要扩展的东西,Graphcore已经推出了IPU-POD,它可以促进高达64,000 IPU的数据中心规模的系统,提供高达16 ExaFlops的机器智能计算。
让我们先来仔细看看今天发布的所有核心处理器Graphcore Colossus Mk2 GC200 IPU。在主图中可以看到这款处理器的关键规格和功能。为了清楚起见,我在下面列出了他们的要点。
每个IPU有594亿个晶体管,
TSMC N7芯片尺寸为823mm,
1,472个IPU内核,每个内核都有一个IPU内核和处理器内存,
8,832个独立的并行计算线程,
每个IPU 900MB SRAM,
每IPU 47.5 TB/s的内存带宽。
Graphcore表示,其第二代IPU完全是使用Poplar SDK构建的,以加快机器智能。新IPU在实际测试中将其第一代芯片(2018)的性能提高了8倍。
Graphcore IPU机器M2001U刀片服务器在披萨盒大小的系统中使用4个GC200IPUs来提供1 PetaFlop AI计算。该系统可以为您提供5888个处理器内核和35328个独立线程,以及高达450GB的处理器流出交换内存。
升级到超级计算机规模的机器学习处理,Graphcore表示也涵盖了这一点。其IPU POD64构建模块可以帮助您部署数千台机器来处理大型AI/ML问题或多个并发工作负载。Graphcore表示,它拥有自己的IPU-Fabric技术,可以实现超高带宽和低延迟的通信。
以上可能在学术上很有趣,但我打赌你想知道封装7nm graph core Colossus mk2g c200 IPU的系统能和英伟达DGX A100系统相比如何?Graphcore分享了一张比较幻灯片,其中对EfficientNet-B4图像分类进行了比较。同样的性能,它声称你只需要在Graphcore系统上投资25.9万美元,而不是在英伟达DGX-A100服务器上投资300万美元。
可用性
IPU-机器M2000和IPU-POD64系统可以立即预订,2020年第四季度将开始全面量产。早期用户将能够通过Graphcore合作伙伴Cirrascale评估IPU-POD系统。