你所在的位置: 首页 > 正文

加码AI异构计算,Arm发布Ethos系列NPU!华为高通们会采用吗?

2019-11-09 点击:1733

10月23日,在北京举行的2019年Arm技术峰会上,Arm正式发布了新的Ethos-N77/N57/N37系列NPU IP,进一步将代码添加到人工智能(人工智能)计算中 与此同时,Arm还为主流手机游戏市场推出了高能效的马里G57 GPU,以及主流和入门级市场中单位面积效率最高的马里-D37 DPU。

ARMv8及后续架构将继续无限制地支持中国合作伙伴!

今年9月25日,Arm China在深圳召开媒体交流会议。针对“Arm已经切断了对华为的供应”的传言,Arm表示仍是华为的合作伙伴,ARMv8及后续指令集可以继续授权!

10月23日,在2019年Arm技术峰会北京站上,Arm董事长兼首席执行官吴雄刚在开幕词中重申,经过严格的法律调查和相关调整,ARMv8及其后续架构目前都是基于英国的技术,并将继续无限制地支持中国的合作伙伴。

此外,吴雄刚指出,Arm在中国有200多个合作伙伴,中国合作伙伴发运的基于Arm架构的芯片数量已经超过160亿,国内95%的SoC芯片基于Arm架构

吴雄刚强调,Arm是唯一一个非源自美国的主流计算架构 Arm China承担Arm在中国的业务和技术,自主创新,实现Arm标准下的生产能力,并调动中国工程师创造知识产权的能力。 这些知识产权不仅将提供给中国工业,还将通过统一的标准提供给世界。

根据Arm和研究机构的预期,到2028年,移动设备的数量将从17亿增加到22亿,智能知识产权相机的数量将从1.6亿增加到13亿。 终端端的人工智能设备数量将从3亿台增加到32亿台 这显示了人工智能市场的快速增长。

随着人工智能技术的兴起和广泛应用,人工智能也对芯片的计算能力提出了更高的要求 作为全球最大的处理器知识产权供应商,Arm的皮层中央处理器(Cortex CPU)和马里图形处理器(Mali GPU)在以智能手机为代表的移动终端市场占据了很大的市场份额。然而,在人工智能计算领域,Arm一直依靠其皮层中央处理器(Cortex CPU)、马里GPU和相关软件开发工具来增强其人工智能计算能力。

然而,传统的中央处理器和图形处理器内核并不是人工智能计算的最佳载体 因此,越来越多的芯片制造商开始引入人工智能专用芯片或将人工智能专用核处理器内核添加到SoC中 例如,华为在2017年率先推出集成NPU内核的麒麟970处理器,而苹果A11处理器也首次集成了NPU内核。 从那以后,高通、联发科技、三星和詹瑞等手机芯片制造商也开始将他们的NPU内核集成到SoC中。

在这种趋势下,为了满足对人工智能内核的市场需求,Arm还在2018年初宣布了人工智能万亿项目,其中包括一个新的机器学习处理器知识产权、目标检测处理器知识产权和神经网络软件库 近两年后,延龄草项目的成果也开始正式商业化。

Arm Ian Smythe,Arm marketing副总裁

数据显示,华为麒麟970 NPU基于寒武纪1A知识产权,计算力为1.92吨 然而,苹果A11的NPU计算力仅为0.6 TOPS,A12的NPU性能为5TOPS。 根据高通小龙855此前发布的数据,其总体(包括中央处理器+图形处理器+数字信号处理器等)。)人工智能计算力(超过7 TOPS)是华为麒麟980的两倍。根据这一估计,麒麟980的NPU性能约为3.5 TOPS。 此外,根据核心情报,华为麒麟980的NPU是基于寒武纪IH8,这是一个低功耗场景视觉的NPU核心知识产权。寒武纪IH8有4种可选配置1T、2T、4T、8TPS

1 GHz,麒麟980应该是4TP的版本 麒麟990系列NPU还没有发布具体的OPS数据,但由于新的达芬奇架构和两个大内核加一个小内核的配置,其性能应该会更好。

就单位面积的计算力而言,根据SMIC之前的估算,麒麟970的NPU单位面积性能约为1.48 ToP/mm,而麒麟980和990则没有相应的数据可供参考。 根据技术灯的拆卸,苹果A12的NPU核心面积为5.79毫米,也就是说,苹果A12的每单位面积NPU的计算力约为0.86顶/毫米

从上述数据的比较来看,Ethos-N77的人工智能性能相当于苹果A12和麒麟980,麒麟990系列的NPU性能可能比麒麟990系列弱。 就单位面积的计算力而言,它远远高于苹果A12和麒麟970的NPU。 就每瓦计算力而言,它也远高于苹果A12 NPU,略低于麒麟810。 总的来说,Arm Ethos-N77仍在各方面表现突出,达到旗舰新产品的当前标准。

应该指出,4个TOPS的性能是单个Ethos-N77内核在1GHz主频下的性能。如果配置双核,性能无疑会进一步提高,当然功耗和面积也会进一步提高。

Arm早些时候表示,Ethos系列IP具有高度的可扩展性、兼容性和可编程性,能够提供从2 GOPS到70 TOPS以上的最低计算性能产品。

此外,Arm还为主流市场推出了Ethos-N57,内置512KB静态随机存取存储器。在1GHz主频下,计算功率可达2 TOPS。面向低端市场的Ethos-N37旨在为最大似然推理处理器(小于1毫米)提供最小的面积。它还内置了512千字节静态存储器。在主频为1GHz时,计算能力可达1TOPS。

Arm说Ethos-N57和Ethos-N37优化了Int8和Int16数据类型的可支持性。通过创新的Winograd技术的登陆,性能比类似的NPU提高了200%以上,并配备了先进的数据管理技术来减少数据移动和相关功耗。M1性能与成本、面积、带宽和电池寿命之间达到了良好的平衡。

除了移动市场之外,Arm's Ethos系列知识产权也将在未来进入物联网、工业、汽车、网络和服务器市场

开源人工智能开发框架Arm NN

众所周知,高通小龙845/855系列以前都没有内置特殊的NPU内核,但它仍然提供高人工智能能力,这都要归功于其神经网络引擎神经处理引擎的帮助 也就是说,采用更加灵活的异构机器学习架构,在通用平台上进行内核优化,使得人工智能计算合理地分布在中央处理器、图形处理器、数字信号处理器等各个单元上,从而可以针对不同的移动终端灵活调用各种处理单元进行人工智能计算

虽然Arm此次发布了Ethos系列NPU IP,但它也推出了开源人工智能开发框架Arm NN,以加强异构人工智能计算,进一步提高人工智能的整体性能

据介绍,Arm NN是一种低级架构,在此基础上,它可以支持高级第三方的其他神经网络框架,并提供完整的工具链,可以在人工智能计算中实现对Arm CPU/GPU/NPU内核的合理调用,实现更高效的异构人工智能计算。

Arm表示,由于不同SoC的人工智能加速方法不同,第三方应用和开发者很难利用片上系统的加速能力。 开源Arm神经网络的引入将降低开发人员调用Arm内核的难度,并进一步增强开发人员的体验。

此外,为了促进基于Arm NN的内容的创建和开发,Arm还与Unity进行了合作(Unity目前是主要的3D引擎,50%的3D游戏和75%的虚拟现实内容是基于Unity引擎开发的),进一步优化了Unity引擎,使得基于Unity的开发人员可以更容易地访问和更有效地使用Arm的核心,从而在Arm CPU/GPU/NPU之间获得更好的性能 可以实现一个开发,可以获得Arm整个系列内核的支持(可以支持基于Arm的多种不同类型内核的SoC),不需要重新编译

Mali G57 GPU:将智能和身临其境的体验带入主流市场

今年6月,Arm推出了首款基于高端市场新瓦尔霍尔架构的GPUMali-G77 今天,Arm为游戏市场推出了基于瓦尔霍尔架构的第二款高性能、高能效的GPU内核Mali-G57。 (瓦霍尔架构进一步提高了并行执行的能力,同时尽可能简化代码,从编译的角度来看更加友好 )

据介绍,马里-G57的能效比前代马里-G52高30%,性能密度高30%,机器学习性能高60%。 此外,马里-G57还增加了对虚拟现实(VR)凝视点渲染的支持和机器学习性能的提高,可以支持更复杂的XR现实世界应用。 此外,马里-G57还支持1-6个核心配置,可以满足不同市场定位的智能手机的需求。

Arm表示,马里-G57可以为主流市场带来高质量的智能和身临其境的体验,包括高保真游戏、可与视频游戏控制台媲美的移动设备图形、数字电视的4K/8K用户界面,以及更复杂的虚拟现实和增强现实工作负载。

马里-D37:单位面积arm效率最高的dpu在今天的技术论坛上,Arm还推出了目前单位面积效率最高的显示处理器马里-d37

据介绍,马里-D37是Arm面向主流市场的第一家总部位于科米达的DPU公司。单位面积效率极高。在支持全高清和2K分辨率的配置下,16纳米工艺的面积将小于1毫米

就性能而言,马里-D37保留了高阶马里-D71的关键显示功能,包括高动态对比度(HDR)和标准动态对比度(SDR)的混合显示,配合主张显示器5使用后 此外,马里-D37通过将一些图形处理器内核显示的工作负载卸载到马里-D37来减少图形处理器的工作和对内存的访问,从而可以将系统的功耗降低30%

Arm表示,马里-D37可以支持入门级智能手机、平板电脑和其他低成本设备,并获得2K级视觉效果和性能支持。

Arm的通用NPU能成功吗?

从目前的市场趋势来看,人工智能芯片正日益向专业化发展,越来越多的算法制造商基于自己的算法推出了自己的人工智能芯片。 同样,正如我们之前提到的,华为、苹果、高通、三星和詹瑞等许多手机芯片制造商也推出了自己的NPU内核。 那么,Arm的“通用”精神真的有市场吗?

对此,手臂营销副总裁伊恩斯迈思(Ian Smythe)表示,手臂的民族精神NPU知识产权并不是孤立存在的。其主要优势是在提供卓越人工智能性能的同时,能够更好地与Arm的中央处理器和GPU配合,从而实现异构人工智能计算,进而在整个系统层面上进一步提高人工智能性能,降低功耗。 此外,人工智能市场仍处于早期阶段,许多人工智能算法仍在经历快速迭代。选择一个“通用”的核动力装置更安全。

采访中,伊恩斯迈思(Ian Smythe)向SMIC证实,Arm的Ethos NPU IP也可以集成到RISC-V等其他架构的SoC中,但伊恩斯迈思也强调,这并不能充分发挥Ethos NPU和其他非Arm CPU/GPU在人工智能计算中的协同优势。

此外,Arm的民族精神NPU知识产权也实现了高水平和低水平的全面覆盖。然而,目前许多芯片制造商主要是将NPU集成到他们的高端SoC中。随着人工智能计算向边缘发展的趋势,未来对新产品的市场需求也将增加。 Ethos NPU IP的推出将有助于芯片设计者以更简单、更低的成本获得不同齿轮的NPU内核的支持。

另一方面,当前的安卓应用生态系统基本上基于基于Arm的处理器。因此,如果采用Arm的Ethos NPU知识产权,结合开源Arm神经网络框架,应用开发者将能够更加简单高效地调用Arm的中央处理器/图形处理器/NPU内核,从而给用户带来更好的人工智能体验。 此外,它可以开发一次,无需重新编译即可支持全部Arm内核(这也意味着它可以支持基于不同类型Arm内核的许多SoC)。 然而,对于其他芯片制造商的网络处理器(NPU),开发者要想灵活高效地调用网络处理器,充分发挥其人工智能性能,就需要进行有针对性的优化,并提供相应的权限和工具。 即使开发人员开发应用程序来调用供应商A的NPU,也可能需要重新编译相同的应用程序来调用供应商b的NPU 显然,对于应用程序开发人员来说,Arm的NPU的生态优势无疑是其他制造商无法比拟的。

最后,伊恩斯迈思(Ian Smythe)强调,Arm在提高人工智能性能方面是多维的。一方面,arm将继续引入更高性能的网络处理器知识产权,另一方面,Arm处理器/图形处理器人工智能的性能将继续提高

值得一提的是,伊恩斯迈思(Ian Smythe)在他的演讲中透露,Arm已经将矩阵多重(MatMul)添加到下一代大核心架构Matterhorn中,其M1(机器学习)性能比上一代CPU翻了一番。

编者:辛志勋-浪客健

特别声明:本文由网易自媒体平台“网易号”的作者上传发布,仅代表作者的观点。 网易只提供信息发布平台

跟随帖子

跟随帖子

0

加入

9

在阅读了下一个

国庆节之后,300个城市的土地销售收入出来了。10月23日,在北京举行的2019年Arm技术峰会上,Arm正式发布了新的Ethos-N77/N57/N37系列NPU IP,进一步增加了人工智能计算 与此同时,Arm还为主流手机游戏市场推出了高能效的马里G57 GPU,以及主流和入门级市场中单位面积效率最高的马里-D37 DPU。

ARMv8及后续架构将继续无限制地支持中国合作伙伴!

今年9月25日,Arm China在深圳召开媒体交流会议。针对“Arm已经切断了对华为的供应”的传言,Arm表示仍是华为的合作伙伴,ARMv8及后续指令集可以继续授权!

10月23日,在2019 Arm技术峰会北京站上,Arm董事长兼CEO吴雄昂在开场致辞当中再度重申,经过法务严谨的调查及相关调整,目前无论是ARMv8,还是后续的架构都是源自英国的技术,将可不受限制的继续支持中国的合作伙伴!

此外,吴雄昂还指出,Arm在中国的合作伙伴已经超过200家,中国合作伙伴出货的基于Arm架构的芯片已超过了160亿颗,国产SoC芯片95%都是基于Arm架构的。

吴雄昂强调,Arm是唯一非源于美国的主流计算架构。Arm中国承接Arm在中国的业务和技术,在Arm标准之下自主创新、赋能产能,把中国工程师能力调动起来打造知识产权。这些知识产权将不只是提供给中国产业,还要通过统一标准面向全球。

加码AI计算,Arm发布Ethos系列NPU IP

根据Arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能的IP Camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。

而随着AI技术的兴起和广泛应用,AI对于芯片的算力也提出了更高的要求。作为全球最大的处理器IP供应商,Arm的Cortex CPU和Mali GPU在以智能手机为代表的移动终端市场占据了极大的市场份额,但是在AI计算领域,Arm此前一直都是依托于其Cortex CPU、Mali GPU及相关软件开发工具来提升其AI计算的能力。

但是,传统的CPU、GPU核心并不是AI计算的最佳载体。因此越来越多的芯片厂商开始推出了AI专用芯片,或者在SoC当中加入AI计算专用的NPU内核。比如华为2017年就率先推出了集成NPU内核的麒麟970处理器,同时苹果推出的A11处理器也首次集成了NPU内核。此后,高通、联发科、三星、展锐等手机芯片厂商也纷纷开始在SoC当中集成自己的NPU内核。

在此趋势之下,为了应对市场对于AI内核的需求,Arm在2018年年初也公布了针对AI的Project Trillium项目,其中就包括了全新的机器学习处理器IP、目标检测处理器IP和神经网络软件库。经过了近两年的时间,现在Project Trillium项目的成果也开始正式产品化。

▲Arm市场营销副总裁Ian Smythe

今天,Arm市场营销副总裁Ian Smythe在Arm技术峰会上正式发布了全新的Ethos系列NPU IP,包括针对高端市场的Ethos-N77、针对主流市场的Ethos-N57和低端市场的Ethos-N37。

Ethos-N77实际上就是Arm去年公布的Project Trillium项目中的那款机器学习处理器IP,其内部集成了可配置的1-4MB的SRAM,在1GHz主频下,7nm工艺下,可以提供最高4 TOPS的AI算力,每瓦性能高达5 TOP。另外,之前Project Trillium项目公布的数据显示,Ethos-N77的单位面积算力为4.6 TOPs/mm(最新发布的可能有进一步提升)。那么Ethos-N77的这个性能在市场上处于什么水平呢?

根据资料显示,华为麒麟970 NPU是基于寒武纪1A IP,算力是1.92TOPS。而苹果A11的NPU算力仅为0.6 TOPS,A12的NPU性能为5TOPS。而根据此前高通骁龙855发布之时的数据显示,其整体(包括CPU+GPU+DSP等)的AI算力(超过7 TOPS)是华为麒麟980的两倍,照此估算的话,麒麟980的NPU性能大概在3.5 TOPS左右。另外据芯智讯了解,华为麒麟980的NPU是基于寒武纪IH8,是针对低功耗场景视觉领域的NPU内核IP,而寒武纪IH8有 4 种可选的配置1T、2T、4T、8T OPS

-

亚心网 版权所有© www.xatst.com 技术支持:亚心网 | 网站地图