史上最大半导体晶片诞生!拥有 1.2 兆电晶体和 40 万核

发布时间:2020-06-24 编辑: 查看次数:597

史上最大半导体晶片诞生!拥有 1.2 兆电晶体和 40 万核

之前文摘菌报导了一家印度新创公司打着 AI 的旗号,干的却是人工的活,还拿到了 2950 万美元(约新台币 9 亿)的融资。

但是大部分 AI 公司拿到融资还是真正去做 AI 的,例如这家名叫 Cerebras 的公司,在 2016 年也获得 2500 万美元(约新台币 7.8 亿)的投资,用于开发深度学习硬体设备。

如今,研究终于出了成果。据 ventruebeat 报导,Cerebras 推出了拥有 1.2 兆电晶体的史上最大半导体晶片。

看来投资人可以鬆口气了。

1.2 兆个电晶体,建构史上最大半导体晶片

1971 年,英特尔首款 4004 处理器拥有 2,300 个电晶体,最近的 Advanced Micro Devices 处理器拥有 320 亿个电晶体。而这款史上最大的晶片 Cerebras Wafer Scale Engine 拥有 1.2 兆个电晶体。

大多数晶片是在 12 英吋硅晶片上建构晶片集合,并在晶片工厂中批量处理。但 Cerebras Systems 晶片是在单个晶圆上互连的单晶片,这些互连设计使其全部保持高速运行的状态,因此 1.2 兆个电晶体全部一起工作。

透过这种方式,Cerebras Wafer Scale Engine 是有史以来最大的处理器,它专门设计用于处理人工智慧应用程式。该公司本週正在加州帕罗奥图的史丹佛大学举行的 Hot Chips 会议上讨论这项设计。

此前三星已经製造了一个很大的快闪晶片,即 eUFS,拥有 2 兆个晶体管。但 Cerebras 晶片专为流程加工而设计,拥有 400,000 个内核,42,225 平方毫米。它比最大的 Nvidia GPU 大 56.7 倍。

史上最大半导体晶片诞生!拥有 1.2 兆电晶体和 40 万核

WSE 还包含 3,000 倍的高速片上记忆体和 10,000 倍的记忆体频宽。

40 万个 AI 优化核心,可自行过滤无意义的 0 计算

WSE 包含 400,000 个 AI 优化的计算内核(compute cores)。被称为 SLAC(Sparse Linear Algebra Cores),计算内核灵活,支持编程,并针对支持所有神经网路运算的稀疏线性代数进行了优化。SLAC 的可编程性,确保内核可以在日新月异的机器学习领域中运行所有神经网路演算法。

由于稀疏线性代数内核针对神经网路运算进行了优化,因此它们可实现业界最佳资源利用率——通常是图形处理单元的三倍或四倍。此外,WSE 内核包括 Cerebras 发明的稀疏性收集技术,以及加速稀疏工作负载(包括 0 的工作负载)的计算性能,如深度学习。

0 在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是 0。然而,乘以零是浪费资源,功率和时间的行为。

因为 GPU 和 CPU 是密集的执行引擎——引擎的设计是永不遇到 0——它们即使在遇到 0 时也会进行计算。当 50% 到 98% 的数据为零时,例如深度学习中的情况,大多数乘法都没有意义。而 Cerebras 稀疏线性代数内核不会乘以零,所有零数据都会被过滤,直接在硬体中跳过,因此可以释放资源完成其他有用的工作。

记忆体紧密相连,提升运算速度与降低延迟

记忆体是电脑体系结构的关键部分。更接近计算的记忆体意味着计算速度更快、更低的延迟和更好的数据移动效率。高性能深度学习需要大量计算,并且频繁访问数据。这需要运算记忆体和随机存取记忆体(RAM)之间的紧密接近,这在 GPU 中并非如此。

Cerebras Wafer Scale Engine 则包含更多记忆体,具有比迄今为止任何晶片都有更多的 native memory,并且在一个週期内,可以透过其记忆体访问 18 GB 的片上内存。WSE 上的记忆体,native memory 集合可提供每秒 9 PB 的记忆体频宽——比领先的 GPU 多 3,000 倍的片上内存和 10,000 倍的记忆体频宽。

低延迟,高频宽的通讯结构

Swarm 通讯结构是 WSE 上使用的处理器间通讯结构,它以传统通讯技术的功耗的一小部分,实现突破性频宽和低延迟。Swarm 提供低延迟,高频宽的 2D 网格,可连接 WSE 上的所有 400,000 个核,每秒频宽为 100 petabits。Swarm 支持单字活动消息,可以直接透过接收记忆体来处理。

路由、可靠的通讯和同步在硬体中处理。消息会自动启动每个到达消息的应用程式处理程式 Swarm,为每个神经网路提供独特的优化通讯路径。软体根据正在运行的特定用户定义的神经网路结构,配置透过 400,000 个记忆体的最佳通讯路径以连接处理器。

一个 Cerebras WSE 的总频宽为每秒 100 petabits,不需要例如 TCP/IP 和 MPI 之类的通讯协议。并且该架构中的通讯能量成本远低于 1 焦耳每比特,这比 GPU 低近两个数量级。通过结合大的频宽和极低的延迟,Swarm 通讯结构使 Cerebras WSE 能够比任何当前可用的解决方案进行更快地学习。

更大的晶片有望解决 AI 的发展瓶颈:训练时间长

承担计算任务的晶片尺寸在 AI 应用中非常重要,因为更大的晶片可以更快地处理资讯,在更短的时间内得出结果。训练时间的减少,可以使研究人员能够进行更多测试,使用更多数据并解决新的问题。Google、Facebook、OpenAI、腾讯、百度都认为,今天人工智慧的基本限制,是训练模型需要很长时间。因此,训练时间是整个 AI 行业进步的主要瓶颈。

当然,一般晶片製造商不会生产这幺大的晶片是有原因的。在单个晶圆片上,製造过程中通常会出现一些杂质。如果一个杂质可以导致晶片的故障,那幺晶圆片上的多个杂质就会击穿几片晶片。从而导致实际的效益只是实际工作的晶片的一部分。如果晶圆片上只有一个晶片,那幺它含有杂质的可能性是 100%,杂质会使晶片失效。但是 Cerebras 晶片是设计成冗余的,所以一个杂质不会使整个晶片失效。

「而设计的人工智慧工作,Cerebras WSE 包含基本的创新,解决了几十年以来限制晶片尺寸的技术挑战,如 cross-reticle 的连接性、产量、功率输出和包装,」Cerebras 的创始人兼 CEO Feldman 在一份声明中说,「每一个架构决策都是为了优化人工智慧工作的性能,其结果是,Cerebras WSE 在功耗和空间很小的情况下,根据工作负载提供了现有解决方案数百或数千倍的性能。」

Linley Group 首席分析师 Linley Gwennap 在一份声明中表示:「Cerebras 在晶片规模的技术上取得了巨大进步,在一块硅片上实现的处理性能超出想像。为了实现这一壮举,该公司已经解决了困扰该行业数十年的一系列工程挑战,包括实现高速模对模通讯、解决製造缺陷、封装如此大的晶片、提供高密度电源和冷却。透过将不同学科的顶尖工程师聚集在一起,Cerebras 创造了新技术,并在短短几年内交付了一个产品,这是一个令人印象深刻的成就。」

Cerebras:推动深度学习的电脑系统公司

Cerebras 是一家致力于加速深度学习的电脑系统公司,其联合创始人兼执行长 Andrew Feldman 是一位致力于推动电脑领域的企业家。

在加入 Cerebras 之前,他是 SeaMicro 的联合创始人兼首席执行官,SeaMicro 是节能、高频宽微服务器的先驱。SeaMicro 于 2012 年被 AMD 以 3.57 亿美元(约新台币 110 亿)收购。在 SeaMicro 之前,Andrew 曾担任 Force10 Networks 的产品管理、行销和 BD 副总裁,后来以 8 亿美元(约新台币 248 亿)的价格出售给戴尔电脑公司。在加入 Force10 Networks 之前,Andrew 在 RiverStone Networks 担任行销和企业发展副总裁,从公司成立到 2001 年首次公开上市,Andrew Feldman 拥有史丹佛大学的 MBA 学位。

网友在 twitter 上的评论也是众说纷坛,有提问此晶片是否是加速器的独立晶片,还有关于保持散热、稳定方面的疑问。但多数网友持乐观的态度,认为这是令人印象深刻的第一个晶片,在朝正确的方向迈进!

更多关于半导体晶片的消息

AMD 将靠新 CPU「逆袭」英特尔?7nm 晶片之战山雨欲来
这台「自驾脚踏车」装了全球首款异构类脑晶片,AI 跨出了超越人类智慧的第一步!
「滑」手机开始走入历史?Google Pixel 4 能够「隔空操作」,秘密全在这块 Soli 晶片

宝马娱乐登录网址_送38彩金平台可提现|提供生活消费|提供的生活指南|网站地图 申博官网备用网址_众发彩票代理 申博官网备用网址_万博体育App