阿里平头哥又发布一款芯片,含光800问世

阿里平头哥又发布一款芯片,含光800问世

在9月25日召开的2019杭州云栖大会上,阿里巴巴发布自主研发的AI芯片——含光800,它在未来将主要用于云端视觉场景,未来还可应用于医疗影像、自动驾驶等领域。

阿里表示,含光800是目前全球最强AI芯片,性能和能效比均为第一,1颗含光800的算力相当于10颗GPU。

含光800芯片在业界标准的ResNet-50测试中,推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

目前基于含光800的AI云服务已在阿里云上线,性价比提升100%。

云栖大会现场,阿里巴巴集团CTO兼阿里云智能总裁张建锋表示,“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”

另据媒体报道,过去半年,阿里平头哥先后发布了玄铁910、无剑SoC平台,此次含光800发布,意味着阿里平头哥端云一体产品系列初步成型,实现了芯片设计链路的全覆盖。

比特大陆发布第三代云端AI芯片BM1684  将携手福州城市大脑实现应用落地

比特大陆发布第三代云端AI芯片BM1684 将携手福州城市大脑实现应用落地

作为全球矿机芯片龙头厂商及国内AI芯片主要厂商之一,比特大陆在芯片领域又有新动作。

9月17日,福州城市大脑暨闽东北信息化战略合作发布会在数字中国会展中心隆重召开。发布会上,福州市委副书记、市长尤猛军宣布福州城市大脑正式发布并启动建设,与此同时,比特大陆正式发布其第三代AI芯片BM1684,BM1684芯片将作为福州城市大脑的底层算力。

在这次大会期间,比特大陆董事长詹克团接受了《全球半导体观察》等媒体采访,谈及了比特大陆AI芯片与福州城市大脑的相关细节,以及比特大陆AI芯片的更新迭代、产品定位与发展布局等事宜。

第三代云端AI芯片BM1684发布 性能提升6倍

2016年,全球矿机霸主比特大陆宣布全力进军人工智能领域,随后相继发布算丰第一代云端AI芯片BM1680、第二代云端AI芯片BM1682。詹克团表示,其第二代云端AI芯片在市场上的订单反馈情况很好,在全国各地均有大量出货和实践项目落地。

这次发布会比特大陆正式推出其第三代云端AI芯片BM1684。BM1684聚焦于云端及边缘应用的人工智能推理,采用台积电12nm工艺,在典型功耗仅16瓦的前提下,FP32精度算力达到2.2 TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下,INT8算力更提升至35.2Tops,是一颗低功耗、高性能的SoC芯片。

据介绍,BM1684内置张量计算模块TPU,包含64个NPU运算单元、每个NPU包括16个EU单元,总共有1024个EU运算单元。该款芯片为视频处理做了特别优化,单芯片最高支持32路H264/H265的解码能力,每秒480帧JPEG/PNG图片编解码,960 fps@1080p视频解码能力,内置视频图像前后处理硬件加速模块。

BM1684还支持16个PCIE3.0 lane、2个千兆以太口,具备多芯片级联等特点。值得一提的是,BM1684内置Trustzone(可信区域)、secureboot(安全启动)以及多种加解密算法,可保护客户的数据、模型安全可靠,创建安全可信的计算环境。

此外,BM1684提供强大的深度学习模型编译器和软件SDK开发包,支持主流的深度学习框架,包括Caffe、Tensorflow、Mxnet,、Pytorch等,开发者可轻松把训练完备的神经网络模型移植到BM1684平台上,支持视频结构化分析,可应用于人脸检测与识别、车牌识别等场景。

(注:蓝色柱子为BM1684)

发布会现场,詹克团将BM1684与业界两款优秀新品进行了比较,分别是在Restnet50、MobileNet、Vggnet16下处理能力和能效比的对比,从图片中可看出BM1684在性能上比另外两款产品均有所优势。詹克团表示,相比上一代芯片,BM1684整体性能大约提升了6倍。

福州城市大脑专用芯片 将实现规模化落地

“AI芯片已过了讲故事的时候,真刀真枪在市场上落地是现在的主旋律。”詹克团在接受采访时表示。对于AI芯片厂商来说,实现AI芯片的最终应用落地无疑是最大挑战之一,不过这次比特大陆已为其新推出的BM1684芯片找到了重要的合作应用落地载体。
发布会上,詹克团表示BM1684为福州城市大脑专用芯片,是全球唯一一款城市大脑专用芯片,作为整个系统的基础设施,将位福州城市大脑提供算力。

何为“城市大脑”?据介绍,福州城市大脑可形象地概括为“一云一湖一生态”,即一个自主可控的AI算力云、一个融合共享的数据湖和一个开放创新的生态体系。一个生态体系又包含了开放算法生态、场景应用生态和协同创新生态三个层面的含义。

福州城市大脑具备五大特点:一.国产芯片,自主可控;二.开放生态,赋能创新;三.机制创新、应用牵引;四.统筹协调,复用共享;五.迭代演进,持续发展。其中,“国产芯片,自主可控”即指福州城市大脑依托AI专用TPU处理器构筑基础设施,为城市各类算法与应用提供强大算力支持,自主可控的特性为福州城市大脑数据和应用安全提供了可靠保障。

詹克团在发布会上指出,对于一款AI芯片,为它寻找场景推广落地是非常重要的工作,智慧城市、安防监控等是非常重要的应用场景。比特大陆欲为其AI芯片产品寻求落地、福州想要拥抱人工智能和数字经济,双方需求契合、达成市场开放、产业落地的共识。

“中国有300多个人口过百万的城市,每一个百万人口量级的城市都可能是千亿级的经济体,大体量的现代经济体产生了非常有价值的数据,发掘这些数据的价值需要强大算力,城市大脑是城市信息化发展到高级阶段的必然产物,算力中枢是城市大脑的核心部件。”詹克团如是说。

据了解,比特大陆自去年开始在福州陆续进行投资,今年1月福州市政府与比特大陆正式签署福州城市大脑合作备忘录。中关村智慧城市研究院、福州城市大脑研究院院长柳进军在接受采访时透露,在过去8个月时间里,福州市城市大脑研究院及比特大陆研判了很多能够率先使用智能化的场景和项目,并在为这些项目做前期准备。

柳进军表示,城市大脑将为比特大陆AI芯片带来巨大的产业空间,也只有当产业空间很大、应用场景很多的时候,这款芯片以及整个AI芯片产业才能发展起来。作为福州城市大脑专用芯片,比特大陆BM1684有望随着福州城市大脑启动建设实现规模化落地应用,詹克团表示该款芯片会在明年上半年推向市场。

终端AI芯片业务分拆独立  谋求发展提速

随着BM1684的推出及与福州城市大脑的合作,比特大陆在AI芯片领域的战略布局亦越来越清晰,相较于业界强调的AI软硬一体化发展,詹克团表示比特大陆经过长时间思考,确定在产业链上的定位为提供算力芯片和算力硬件,与更多的算法厂商合作打造生态。

回顾这三年间,比特大陆在AI芯片领域上的产品布局已涵盖了云端和终端,其中云端AI芯片已发布三代产品,终端AI芯片BM1880于2018年10月发布。相比云端AI芯片的更新迭代速度,终端AI芯片相对要慢。

詹克团解释道,终端AI芯片和云端AI芯片在商业模式上有所不同,云端芯片注重高性能,终端芯片则强调成本,两者面向的下游市场亦有所不同。对于云端和终端芯片发展步伐不一,比特大陆已有所考量。

据詹克团透露,比特大陆计划将终端AI芯片业务分拆出来单独成立公司,使终端AI芯片业务运作得更快。消息显示,脱胎于比特大陆的北京晶视智能科技有限公司(以下简称“晶视科技”)已于5月正式注册成立,专注于边缘端AI SoC芯片的设计研发,拥有自研边缘端AI加速芯片知识产权算丰TPU。

据介绍,晶视科技从比特大陆分拆后,将建制完整吸纳比特大陆旗下边缘端芯片研发团队,该团队基于算丰TPU所设计的新一代边缘端AI SoC芯片将于2019年底正式发布。

这次在福建福州城市大脑暨闽东北信息化战略合作发布会上,北京易华录和力鼎资本发起的北京智慧云城投资基金与晶视科技签订了投资协议,智慧云城基金和比特大陆共同参与。

随着终端AI芯片业务分独立发展,比特大陆在AI芯片领域将有望真正实现云端与终端“两条腿”并行。对于自家AI芯片的未来,詹克团报以乐观态度,他坦言目前比特大陆AI芯片的出货量仍较小,但三五年后将会达到数十亿美元的量级。

集成1024颗昇腾910 华为发布全球最快AI训练集群Atlas 900

集成1024颗昇腾910 华为发布全球最快AI训练集群Atlas 900

9月18日,华为全连接大会开幕,AI产品Atlas900正式发布。华为轮值董事长胡厚崑称其为“全球最快的AI训练集群”。

集成数千颗算力最强AI芯片

Altas 900由数千颗昇腾910组成,算力能达256~1024 PFLOPS@FP16。训练ResNet-50只用了59.8秒的集群规模,用到了1024颗昇腾910。

胡厚崑表示,当前条件下,天文学家要从20万颗星星中找出某种特征的星体,相当困难,需要169天的工作量。现在用上Atlas 900,只用10秒,就从20万颗星星中检索出了相应特征的星体。

昇腾910芯片亮相于去年的全联接大会,今年8月正式商用,是全球第三款、中国首款AI训练芯片。

昇腾910采用华为自研的达芬奇架构,号称“算力最强的AI处理器”,7nm工艺制程,最大功耗为350W,实测310W。

据华为介绍,目前Atlas 900的已经部署到了华为云上,并以极优惠的价格向全球科研机构和大学开放。

华为计算机产业战略

胡厚崑在上述大会演讲时表示,未来10年将是计算产业的大蓝海,每年将达到2万亿美元的市场规模,计算和联接是未来智能时代的核心。

华为在现场发布了新的计算产业战略,主要涵盖了四点,包括对架构创新的突破、对全场景处理器族的投资,坚持有所为有所不为的商业策略,以及不遗余力地构建开放生态。

第一点,达芬奇架构。华为认为,在计算无处不在的时候,算力将会成为关键瓶颈,而现在从行业来看,算力已经成为了高度稀缺资源。摩尔定律走到极限的情况下,整个行业需要找到新的架构释放新的算力。这是产业的需求。

从华为的业务布局来看,也需要一种新的架构覆盖全场景的智能计算需要。这种情况下,达芬奇架构诞生。

第二点是投资全场景处理器家族。胡厚崑说,处理器是整个计算产业最基础的部分,目前华为已经发布了多个系列的处理器。具体包括支持通用计算的鲲鹏系列,支持AI的昇腾系列,支持智能终端的麒麟系列,以及支持智慧屏的鸿鹄系列。

胡厚崑表示,未来华为将持续不断地对处理器进行投资,将来还将推出一系列处理器,面向更多的场景。

第三点是商业策略。胡厚崑表示,华为不直接对外销售处理器,以云服务面向客户,以部件为主面向合作伙伴,优先支持合作伙伴发展整机。具体来说,有三个方面的考虑:

硬件开放:我们把服务器主板、AI模组和板卡等硬件开放给伙伴,帮助伙伴做好整机和解决方案。

软件开源:我们把服务器操作系统、数据库、AI开发框架等软件开源,帮助伙伴做好商用版本,让软件开发更简单。

使能应用开发和迁移:我们不做应用,但我们提供工具和团队,帮助伙伴更高效地做好应用开发和迁移。

第四点是华为依赖于构建开放生态。胡厚崑表示,四年前,华为发布了第一个版本的沃土计算,在过去的四年以来,华为已经发展了130多万开发者。华为将升级沃土计划,继续投入15亿美元,使开发者的规模扩大到500万人。

此外,华为称未来还在持续不断地对板卡、服务器、操作系统、数据库、编译器等关键技术和产品进行投资,希望通过强力投资,打通生态全链条,坚定地参与打造鲲鹏产业。

商务合作请加微信:izziezeng

加入集邦半导体交流群,请加微信:DRAMeXchange2019

华为发布AI处理器昇腾910及AI计算框架MindSpore

华为发布AI处理器昇腾910及AI计算框架MindSpore

近日,华为在深圳正式发布算力最强的AI处理器Ascend910(昇腾910),同时推出全场景AI计算框架MindSpore。

华为公司轮值董事长徐直军在发布会上表示:华为自2018年10月发布AI战略以来,稳步而有序地推进战略执行、产品研发及商用进程。昇腾910、MindSpore的推出,标志着华为已完成全栈全场景AI解决方案(Portfolio)的构建,也标志着华为AI战略的执行进入了新的阶段。

昇腾910,算力最强AI处理器

徐直军此次正式发布的AI芯片是昇腾910,属于Ascend-max系列。在HC2018上已经发布了其技术规格。实际测试结果表明,在算力方面,昇腾910完全达到了设计规格,即:半精度 (FP16)算力达到256 Tera-FLOPS,整数精度 (INT8) 算力达到512 Tera-OPS,重要的是,达到规格算力所需功耗仅310W,明显低于设计规格的350W。

徐直军表示:昇腾910总体技术表现超出预期,作为算力最强AI处理器,当之无愧。我们已经把昇腾910用于实际AI训练任务。比如,在典型的ResNet50 网络的训练中,昇腾910与MindSpore配合,与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。面向未来,针对不同的场景,包括边缘计算、自动驾驶车载计算、训练等场景,华为将持续投资,推出更多的AI处理器,面向全场景持续提供更充裕、更经济、更适配的AI算力。

MindSpore,全场景AI计算框架

徐直军还发布了全场景AI计算框架 MindSpore。能否大大降低AI应用开发的门槛,能否实现AI无处不在,能否在任何场景下确保用户隐私得到尊重和保护,这些都与AI计算框架息息相关。为此,去年华为全联接大会上,华为提出,AI框架应该是开发态友好(例如显著减少训练时间和成本)和运行态高效(例如最少资源和最高能效比),更重要的是,要能适应每个场景包括端、边缘和云。经过近一年的努力,全场景AI计算框架MindSpore在这三个方面都取得了显著进展。

全场景支持,是在隐私保护日渐重要的背景下,实现AI无所不在越来越基础的需求,也是MindSpore的重要特色。针对不同的运行环境,MindSpore框架架构上支持可大可小,适应全场景独立部署。MindSpore框架通过协同经过处理后的、不带有隐私信息的梯度、模型信息,而不是数据本身,以此实现在保证用户隐私数据保护的前提下跨场景协同。除了隐私保护,MindSpore还将模型保护Built-in到AI框架中,实现模型的安全可信。 在原生适应每个场景包括端,边缘和云,并能够按需协同的基础上,通过实现AI算法即代码,使开发态变得更加友好,显著减少模型开发时间。以一个NLP(自然语言处理)典型网络为例,相比其他框架,用MindSpore可降低核心代码量20%,开发门槛大大降低,效率整体提升50%以上。通过MindSpore框架自身的技术创新及其与昇腾处理器协同优化,有效克服AI计算的复杂性和算力的多样性挑战,实现了运行态的高效,大大提高了计算性能。除了昇腾处理器,MindSpore同时也支持GPU、CPU等其它处理器。

为了更好促进AI的应用,徐直军宣布“MindSpore将在2020年Q1开源”,助力每一位开发者,促进AI产业生态发展。

全栈全场景AI解决方案,让AI无处不在

徐直军在发布以上两款产品之前,首先重申了华为公司的AI战略:投资AI基础研究,在计算视觉、自然语言处理、决策推理等领域构筑数据高效(更少的数据需求) 、能耗高效(更低的算力和能耗) ,安全可信、自动自治的机器学习基础能力;打造全栈全场景解决方案,提供充裕的、经济的算力资源,简单易用、高效率、全流程的AI平台;投资开放生态和人才培养,面向全球,持续与学术界、产业界和行业伙伴广泛合作;把AI思维和技术引入现有产品和服务,实现更大价值、更强竞争力;应用AI优化内部管理,对准海量作业场景,大幅度提升内部运营效率和质量。

华为AI解决方案(portfolio)的全场景,是指包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等部署环境。而全栈是技术功能视角,是指包括Ascend昇腾系列IP和芯片、芯片使能CANN、训练和推理框架MindSpore和应用使能ModelArts在内的全堆栈方案。

徐直军也回顾了制定以上AI战略的初衷。华为定位AI是一种新的通用目的技术(GPT),如同19世纪的铁路和电力,以及20世纪的汽车、电脑、互联网一样,将应用到经济的几乎所有地方。同时华为也认为AI的应用总体还处于发展初期,AI技术和能力相比于长远期望还有很大差距。减小甚至消除这些差距,加速AI的应用,正是华为AI战略的初衷和目标。具体包括致力于促成以下10个方面的改变。

通过提供更强的算力,使复杂模型训练能在几分钟、甚至几秒钟内完成,而不是今天的数天甚至数周;提供更经济、更充裕的算力,让算力不再稀缺、不再昂贵,从而不再是AI发展的制约因素;通过全场景方案,适应企业不同需要,确保用户隐私得到尊重和保护,让AI能够部署在任何场景,而不仅仅是公有云。投资基础AI算法研究,实现更少的数据需求,即数据高效。也要能够基于更低的算力和能耗,即能耗高效。通过AI框架MindSpore和应用使能ModelArts,大大提升AI自身的自动化水平,减少对人工的依赖。持续提升模型算法,实现工业生产环境的“工作”优秀,而不仅仅是各种比拼环境的“考试”优秀。实现模型的闭环、实时更新,保证企业AI应用始终处于最佳状态。将AI技术与5G、云、物联网、边缘计算、区块链、大数据、数据库…等技术充分协同,发挥更大价值。通过全栈方案一站式平台,使AI成为所有应用开发者甚至所有ICT技术从业人员的一项基本技能,而不是一项只有具备高级技能的专家才能完成的工作。通过全栈全场景技术手段,结合投资开放的生态和人才培养,让AI人才不再短缺。

昇腾310和ModelArts获得广泛应用

在华为全联接大会2018上,与华为AI战略一起, 作为全栈全场景解决方案的首批组件,华为同时对外发布并正式推出了昇腾310 AI芯片 和全流程模型生产服务ModelArts。昇腾310属于Ascend-mini系列第一颗华为商用AI SoC芯片,在最大功耗仅8W的情况下,其整数精度(INT8)算力达到16Tops,半精度(FP16)算力达 到8Tops,同时,该芯片中还集成了16通道 全高清 视频解码器,是面向边缘计算场景最强算力的AI SoC。

自发布以来,基于昇腾310芯片的产品和云服务获得广泛应用。其中,基于昇腾310的MDC和很多国内外主流车企在园区巴士、新能源车、自动驾驶等场景已经深入合作。基于昇腾310的Atlas系列板卡、服务器,与数十家伙伴在智慧交通、智慧电力等数十个行业落地行业解决方案。基于昇腾310,华为云提供了图像分析类服务、OCR服务、视频智能分析服务等云服务。对外提供API达50多个,日均调用量超过1亿次,而且在快速增长,预计年底日均调用量 超过3亿次。另有超过100多个客户使用昇腾310开发定制AI算法。

ModelArts全流程模型生产服务打通了从数据获取-模型开发-模型训练-模型部署的全链条,可将生产所需的所有服务一站式提供。截止目前,ModelArts已经拥有开发者超过3万,日均训练作业任务超过4000个,32000小时,其中:视觉类作业占85%,语音类作业占 10%, 机器学习5%。

华为发布AI处理器昇腾910  号称世界算力最强

华为发布AI处理器昇腾910 号称世界算力最强

去年10月,华为对外公布AI处理器Ascend 910(昇腾910)的技术规格,如今这款芯片真正到来。8月23日,华为正式发布昇腾910,同时推出全场景AI计算框架MindSpore。

据了解,昇腾910采用7nm+EUV工艺、32核自研达芬奇架构。徐直军表示,测试结果显示,昇腾910完全达到了设计规格,即半精度达到256 TFLOPS,整数精度达到512 TOPS。并且,达到规格算力所需功耗仅310W,明显低于设计的350W。

徐直军表示,昇腾910总体技术表现超出预期,作为世界算力最强AI处理器,当之无愧。据其透露,华为已经把昇腾910用于实际AI训练任务,昇腾910与MindSpore配合与现有主流训练单卡配合TensorFlow相比,显示出接近2倍的性能提升。

此外,华为还发布了新一代AI开源计算框架MindSpore。徐直军表示,MindSpore框架已与昇腾处理器协同优化,克服了AI计算的复杂性和算力的多样性挑战,实现了运行态的高效,大大提高了计算性能。

据了解,MindSpore将在2020年一季度开源,除了昇腾处理器,MindSpore同时也支持GPU、CPU等其它处理器。

去年10月华为发布其AI战略,华为公司轮值董事长徐直军表示,昇腾910、MindSpore的推出,标志着华为已完成全栈全场景AI解决方案的构建,也标志着华为AI战略的执行进入了新阶段。

深度解读达芬奇架构:华为AI芯片的“秘密武器”

深度解读达芬奇架构:华为AI芯片的“秘密武器”

2019年6月,华为发布全新8系列手机SoC芯片麒麟810,首次采用华为自研达芬奇架构NPU,实现业界领先端侧AI算力,在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中,搭载麒麟810的手机霸榜TOP3,堪称华为AI芯片的“秘密武器”,这其中华为自研的达芬奇架构举足轻重。

那么,达芬奇架构AI实力究竟怎么样?一起来深入了解下。

源起:为什么要做达芬奇架构?

华为预测,到2025年全球的智能终端数量将会达到400亿台,智能助理的普及率将达到90%,企业数据的使用率将达到86%。可以预见,在不久的将来,AI将作为一项通用技术极大地提高生产力,改变每个组织和每个行业。

基于这样的愿景,华为在2018全联接大会上提出全栈全场景AI战略。作为重要的技术基础,AI芯片在其中发挥着重要作用,而华为也基于AI芯片提供了完整的解决方案,加速使能AI产业化。

为了实现AI在多平台多场景之间的协同,华为创新设计达芬奇计算架构,在不同体积和功耗条件下提供强劲的AI算力。

初见:达芬奇架构的核心优势

达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。

具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。

同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。

深耕:达芬奇架构的AI硬实力

科普1:常见的AI运算类型有哪些?

在了解达芬奇架构的技术之前,我们先来弄清楚一下几种AI运算数据对象:

· 标量(Scalar):由单独一个数组成

· 向量(Vector):由一组一维有序数组成,每个数由一个索引(index)标识

· 矩阵(Matrix):由一组二维有序数组成,每个数由两个索引(index)标识

· 张量(Tensor):由一组n维有序数组成,每个数由n个索引(index)标识

其中,AI计算的核心是矩阵乘法运算,计算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到结果矩阵。

在此计算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度依次增加,对硬件的AI运算能力不断提出更高要求。

典型的神经网络模型计算量都非常大,这其中99%的计算都需要用到矩阵乘,也就是说,如果提高矩阵乘的运算效率,就能最大程度上提升AI算力——这也是达芬奇架构设计的核心:以最小的计算代价增加矩阵乘的算力,实现更高的AI能效。

科普2:各单元角色分工揭秘,Da Vinci Core是如何实现高效AI计算的?

在2018年全联接大会上,华为推出AI芯片Ascend 310(昇腾310),这是达芬奇架构的首次亮相。

其中,Da Vinci Core只是NPU的一个部分,Da Vinci Core内部还细分成很多单元,包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障AI计算的高效处理。

· 3D Cube矩阵乘法单元:算力担当

刚才已经提到,矩阵乘是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。

· Vector向量计算单元:灵活的多面手

虽然Cube的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。

· Scalar标量计算单元:流程控制的管家

Scalar标量运算单元主要负责AI Core的标量运算,功能上可以看作一个小CPU,完成整个程序的循环控制,分支判断,Cube、Vector等指令的地址和参数计算以及基本的算术运算等。

科普3:3D Cube计算方式的独特优势是什么?

不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。

以两个N*N的矩阵A*B乘法为例:如果是N个1D 的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。

图中计算单元的数量只是示意,实际可灵活设计

华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。

这是什么意思呢?举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。

达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲的AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先,搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市,为广大消费者提供多种精彩的AI应用体验。

同时,麒麟810再度赋能HiAI生态,支持自研中间算子格式IR开放,算子数量多达240+,处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型,极大地增强了华为HiAI移动计算平台的兼容性、易用性,提高开发者的效率,节约时间成本,加速更多AI应用的落地。

预见:达芬奇架构解锁AI无限可能

基于灵活可扩展的特性,达芬奇架构能够满足端侧、边缘侧及云端的应用场景,可用于小到几十毫瓦,大到几百瓦的训练场景,横跨全场景提供最优算力。

以Ascend芯片为例,Ascend-Nano可以用于耳机电话等IoT设备的使用场景;Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理;在笔记本电脑等算力需求更高的便携设备上,由Ascend-Mini提供算力支持;而边缘侧服务器上则需要由Multi-Ascend 310完成AI计算;至于超复杂的云端数据运算处理,则交由算力最高可达256 TFLOPS@FP16的Ascend-Max来完成。

正是由于达芬奇架构灵活可裁剪、高能效的特性,才能实现对上述多种复杂场景的AI运算处理。

同时,选择开发统一架构也是一个非常关键的决策。统一架构优势很明显,那就是对广大开发者非常利好。基于达芬奇架构的统一性,开发者在面对云端、边缘侧、端侧等全场景应用开发时,只需要进行一次算子开发和调试,就可以应用于不同平台,大幅降低了迁移成本。

不仅开发平台语言统一,训练和推理框架也是统一的,开发者可以将大量训练模型放在本地和云端服务器,再将轻量级的推理工作放在移动端设备上,获得一致的开发体验。

在算力和技术得到突破性提升后,AI将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算AI服务等场景。华为轮值董事长徐直军在2018华为全联接大会上表示,“全场景意味着可以实现智能无所不及,全栈意味着华为有能力为AI应用开发者提供强大的算力和应用开发平台;有能力提供大家用得起、用得好、用得放心的AI,实现普惠AI”。

未来,AI将应用更加广泛的领域,并逐渐覆盖至生活的方方面面。达芬奇架构作为AI运算的重要技术基础,将持续赋能AI应用探索,为各行各业的AI应用场景提供澎湃算力。

8月23日,采用达芬奇架构的又一款“巨无霸”——AI芯片Ascend 910,将正式商用发布,与之配套的新一代AI开源计算框架MindSpore也将同时亮相。

英特尔发布最新AI芯片 把谷歌、台积电技术都用上了!

英特尔发布最新AI芯片 把谷歌、台积电技术都用上了!

近几年AI芯片火热,不让Nvidia专美于前,英特尔在确定进入10纳米时代后更是积极追赶,美国时间20日,英特尔公布首款神经网络处理器Nervana(代号Springhill)相关细节,包含训练芯片NNP-T与推论芯片NNP-I,加上原有的Xeon在AI芯片阵容越发坚强,技术也开始兼容了起来。

美国时间20日,英特尔在今年Hot Chips大会上公布首款神经网络处理器Nervana细节,如其名,这是2016年英特尔收购包含Nervana几家新创公司的成果。Nervana处理器分为训练芯片NNP-T与推论芯片NNP-I。

训练用的Nervana NNP-T,主打可编程与灵活性,并强调可从头建构大规模深度学习模型,且尽可能训练电脑在给定的能耗预算内快速完成任务,也无需传统技术的庞大开销。

NNP-T支援了Google TPU Tensorflow架构特有的运算格式“bfloat16”,bfloat16截断既有的32位元float32的前16位,仅留下后16位所组成,在许多机器学习模型可以容忍较低精确度计算、不需降低收敛准确率的情况下,许多模型使用bfloat16达到的收敛准确率结果与一般使用的32位元浮点(FP32)计算数值的结果一样,降低精度其实能让存储器效率取得较佳的平衡,从而训练与部署更多的网络、降低训练所需的时间,有较好的效率与灵活性,而这是英特尔首次将bfloat16内建于处理器。

▲bfloat16浮点格式(Source:Google)

另外有趣的是NNP-T其实采用的是台积电16纳米CLN FF+制程,这与一般我们对英特尔自行生产芯片的认知有所差异,而在Nervana被英特尔收购前,第一代Lake Crest就是由台积电所代工。NNP-T采用台积电最新的CoWoS(Chip on Wafer on Substrate)封装技术,将NNP-T的晶粒与四个8GB HBM2存储器异质整合堆叠2.5D,让其封装体积缩小成一个60X60 mm的芯片。

▲Nervana NNP-T采用台积电16nm CLN FF+制程(Source:Intel)

英特尔同时发表了推论芯片Nervana NNP-I,主要针对大型资料中心市场高效能深度学习推论而生,NNP-I主要基于英特尔10nm Ice Lake处理器,官方强调透过此芯片,可提高每瓦效能,让企业以更低的成本执行推论运算工作,降低推论大量部署的成本。英特尔指出,NNP-I在功率10瓦下每秒能处理3600张影像,而处理器本身亦拥有高度可编程性,且同时不影响性能与功效。

▲Nervana NNP-I架构(Source:Intel)

NNP-I已与Facebook合作并实际运用在其相关业务上,而NNP-T将于今年底以前针对尤其云端服务商相关的高端客户送样,并在2020年之前拓展市场。

从芯片大厂到云端龙头,边缘运算AI芯片成必争之地

从芯片大厂到云端龙头,边缘运算AI芯片成必争之地

联发科于2019年7月中推出可快速影像辨识的AIoT平台i700,在边缘装置端提供高性能的同时,仍能达到最低功耗,预计将广泛应用在智慧城市、智慧建筑及智慧制造等领域,协助联发科AIoT物联网产业链加速发展。

从芯片大厂到云端龙头,跨足边缘AI芯片成重要策略

随物联网应用越趋广泛,装置连结数的增加与海量数据的产生使智慧装置对高速AI边缘算力和物联网能力提出更高要求,边缘运算与AI的结合遂成显学。

观察近期厂商于此领域之布局,边缘运算AI芯片堪称兵家必争之地,在芯片大厂部分,包括NVIDIA推出供物联网闸道器及边缘运算使用的Jetson Nano开发板与EGX平台;Intel推出由64个Loihi神经拟态芯片组成的Pohoiki Beach系统,并规划将其应用在自动驾驶等边缘端涉及深度学习的场景;高通也推出专为Edge AI设计的Cloud AI 100,挟其于物联网、自驾车、计算机视觉等人工边缘运算重点发展领域丰富经验一较高下。

除传统芯片厂外,云端平台大厂也有别于过往专注于解决方案的推出,纷纷加入战局,例如AWS发布第一款专门用于机器学习的AI芯片Inferentia;Google则推出用来执行机器学习模型推论预测的边缘运算芯片Edge TPU,可在边缘端设备上以超低功率、高度省电方式执行已训练好的TensorFLow Lite机器学习模型。

有鉴于物联网设备是AI芯片目前应用最广泛的场景之一,云端大厂握有AI芯片将能让其从云端跨向边缘,使传感器及相关设备有更高效的管理数据、提供更好的用户体验,并加速云端厂商物联网商品的商业化与生态圈建置。

芯片亦为台厂面对边缘运算AI趋势之主要切入点

2019年亦有不少台系厂商进行边缘运算结合人工智能的布局,例如联发科于年中推出具高速AI边缘运算能力的i700解决方案,其单晶片设计整合CPU、GPU、ISP和专属AI处理器APU(AI Processor Unit),强大的AI辨识能力可应用于无人商店的辨物刷脸、智慧建筑的门禁系统,以及智慧工厂辨别障碍物等场景。

耐能则推出具备可重组式人工智能神经网络技术的AI芯片KL520,将神经网络处理器的功耗降至数百mW等级,适用于结构光、双目视觉,而ToF特性也使该芯片将广泛运用于网络摄影机、安防监控系统、空拍机等领域。同样看准边缘视觉AI的商机,华晶科、讯连、和硕等也相继推出计算机视觉及图像辨识的相关产品。

综观台湾地区产业优势,以半导体产业中的晶圆代工及封测总产值为全球第一,IC设计亦位居前茅。于2019年7月由产官学研组成的台湾人工智能芯片联盟(AI in Chip Taiwan Alliance,AITA)4个主要聚焦议题中,异质整合旨在将不同芯片透过技术提升效能同时缩小体积、减少功耗与降低成本,半通用型AI芯片着重在发展特定应用的推论及深度学习芯片,皆是边缘运算与AI结合的重要发展目标,倘由产业动态及政府资源挹注来看,台厂若要切入边缘运算AI市场,芯片仍是最好发挥的着力点。

我国首款超低功耗存算一体AI芯片在合肥问世

我国首款超低功耗存算一体AI芯片在合肥问世

合肥恒烁半导体科技公司与中国科大团队历时两年共同研发的基于NOR闪存架构的存算一体(ComputingInMemory)AI芯片系统演示顺利完成。

据了解,该芯片是一款具有边缘计算和推理的人工智能芯片,能实时检测通过摄像头拍摄的人脸头像并给出计算概率,准确且稳定,可广泛应用于森林防火中的人脸识别与救援、心电图的实时监测、人工智能在人脸识别上的硬件解决方案等。

据合肥日报报道,这标志着具有我国自主知识产权,国内首创、国际领先的超低功耗存算一体的人工智能芯片在肥问世。

研发团队成员之一、中国科大博士陶临风介绍,存算一体就是把存储和计算结合在一起。在传统计算过程中,计算单元需要将数据从存储单元中提取出来,处理完成后再写回存储单元。而存算一体则省去数据搬运过程,有效提升计算性能。相较于传统芯片,存算一体人工智能芯片具有能耗低、运算效率高、速度快和成本低的特点。

据官网介绍,合肥恒烁半导体科技公司于2015年2月在合肥市注册,在上海浦东高科技园区设有研发中心,并且在中科大先研院设有3DNAND联合开发实验室和测试中心。此外,公司已和多家晶圆生产和封装厂建立了战略合作伙伴关系,共同开发NAND、NOR闪存、EEPROM和其它新型存储器产品。

华米科技自研芯片“黄山1号”量产应用

华米科技自研芯片“黄山1号”量产应用

6月11日下午,华米科技在北京举行夏季新品发布会,发布其AMAZFIT米动健康手表和AMAZFIT智能手表2两款新品。在发布会上,华米科技创始人兼CEO黄汪宣布,其自研芯片黄山1号正式量产应用。

黄汪现场介绍称,华米科技自研芯片黄山1号是全球首款智能穿戴领域的第一颗人工智能芯片,同时是全球首颗RISC-V开源指令集可穿戴处理器。该款芯片集成了RealBeats AI生物数据引擎,可进行心律不齐含房颤本地实时甄别,具有高能效、AI前移、可扩展等特性。

在性能方面,相比ARM Cortex-M4,黄山1号运算效率高出38%,相比纯软件算法,黄山1号AI硬件引擎的房颤判断效率高出200%,此外,黄山1号既可作为独立处理器应用,也可作为协处理器。黄汪表示,黄山1号可赋能其它普通可穿戴设备,与搭载高通骁龙移动平台的可穿戴设备协同发挥作用。

2018年 9 月,华米科技正式推出黄山1号,这次发布会上,黄汪表示黄山1号不仅在今年上半年实现量产,同时还在产品上得到应用。这次发布的新品AMAZFIT米动健康手表采用黄山1号芯片作为主芯片,AMAZFIT智能手表2则在高通Wear 2500的基础上,增加黄山1号芯片。