看点:峰值性能256TOPS,功耗低至75W,或将突破低精度训练瓶颈。
智东西5月6日消息,近日,知乎上出现一则问题“如何看待寒武纪新一代人工智能芯片(疑似思元/MLU270)规格?”
MLU系列是寒武纪云端AI芯片系列产品。去年5月,寒武纪发布其首款云端AI芯片MLU100芯片,但此前未曾宣布过中文命名,官方也从未提到过MLU270这个型号。
本次PPT泄漏事件不仅曝光了新一代云端芯片的中文名“思元270”,还展示了该芯片的制程工艺、峰值性能、功耗等部分技术参数,性能数据直逼英伟达Tesla T4。
不过去年MLU 100芯片发布现场,另一款名为“MLU 200”也被一并公布,据介绍支持推理和训练,并偏重训练,目前尚不清楚是否和如今发布的思元270为同一款产品。
知乎提问者称其在某互联网大厂工作的朋友说已经看到实物,并附上相关PPT照片。截至到智东西截图,这条提问的浏览量已达到18129。
▲知乎问题中附上寒武纪思元270系列板卡实物照片
智东西第一时间向寒武纪一位主要负责人求证了曝光的思元MLU270芯片信息,对方表示,这(MLU270芯片相关信息被曝光)是一次意外,相关图片可能是从合作伙伴处流出,不过寒武纪确实已经注册了“思元”这个商标,该款芯片的正式发布还未敲定。届时智东西将进行进一步报道。
另据一位安防行业主要厂商的高层透露,寒武纪芯片(应指该新款)在安防领域的应用,将要落地,正在评估。
延续寒武纪云端芯片MLU(Machine Learning Unit)系列,其二代云端AI芯片代号为“MLU270”。如今距离其在第一代云端推理AI芯片MLU100的推出刚满1年。
另外在今年初,寒武纪已为旗下芯片注册两大中文商标名,分别是“思元”、“玄思”。现在云端芯片基本可以确定中文名是“思元”了,说不定“玄思”会是给终端系列产品取得名字。
昨日,某一匿名用户又补上了一张更加直观的产品规格照片。
根据泄露的照片显示,寒武纪新一代AI芯片名为MLU270,中文名为思元270,于2019年年初研制成功,主要规格参数如下:
工艺:TSMC 16nm
峰值性能:256 TOPS [int4],128 TOPS [int8],64 TOPS [int16]
系统接口:x 16 PCIe Gen3
形状因素:Low-Profile PCIe
散热设计功耗(TDP):75W
从曝光参数可见,寒武纪在制程上的打法相对稳健,延续上一代选用台积电16nm工艺,并没有像美国的赛灵思、AMD、Wave Computing等企业的新一代云端AI芯片那样采用7nm工艺。
在芯片架构上,新一代芯片从上一代MLUv01架构升级为MLUv02架构。
另外,思元270中内建视频解码单元,应该是为海量的视频处理市场而专门配置。
从性能方面来看,思元270似有向NVIDIA Tesla T4看齐的趋势。两者对比如下:
根据图表,思元270的功耗为75W,与Tesla T4刚发布时的功耗持平,不过现在NVIDIA的官网显示Tesla T4的功耗已经低至70W。
在峰值性能方面,思元270显示的数据非常接近Tesla T4。
有知乎匿名用户称,Tesla T4的实测性能表现并不如预期,而且溢价较高,认为新的竞争者加入是好事。
另有用户称,业内传闻说,寒武纪新一代芯片可以同时做训练和推理。
还有一位自称来自海康研究院员工匿名表示,其院长也比较喜欢这款芯片产品。
随着深度学习的快速发展,数据科学工作者发现如果芯片能使用低精度计算的方法获得近似答案,其在速度和能耗比上将有很大优势,这对于移动设备及其他功率受限的设备相当适用。
虽然低精度计算听起来很好,但该方法目前主要应用于推理,而非训练。
这是因为,当使用较少的位进行训练时,舍弃的位会增加误差,致使训练的准确度被限制,通常训练至少需要FP32及更高精度的浮点运算。
尽管许多研究人员在探索使用低精度训练且不会限制准确度的算法,目前市场上尚未出现有效且普遍适用的相关应用。
根据思元270目前曝光的信息,不过只公布了低精度整数性能,并未公布浮点数据。部分业内人士猜测,或许寒武纪在低精度训练领域实现了关键性突破。
如果这一猜测成真,这意味着寒武纪将为现有云端AI训练芯片做出重要的贡献。
寒武纪,全名中科寒武纪科技有限公司,是中科院计算所孵化的企业。
寒武纪的两位联合创始人陈天石和陈云霁是两兄弟,两人都是少年天才,从小考进中科大少年班,二十出头就博士毕业,在中科院计算所当研究员。2016年创业之初,寒武纪不仅在天使轮获得了中科院计算所的1000万元研究经费,还在各种项目资源中获得了中科院的支持。
作为国家队AI芯片的“扛把子”,出身中科院的寒武纪可以说是战功赫赫,自2016年3月成立以来,每年均发布多款芯片产品,而且客户的名字也都是相当响亮,其AI芯片IP帮助华为海思麒麟970芯片一举拿下国内首发手机AI芯片的桂冠。
从2016年起,寒武纪已经连续三年每年推出一代终端处理器产品,继去年发布云端AI芯片MLU 100后,第二代云端AI芯片也将在近期浮出水面。按照寒武纪在技术上贯彻“端云协作”的理念,思元270在大概率上能与寒武纪1A/1H/1M系列终端处理器完美适配。
此前在媒体采访中,寒武纪执行董事罗韬曾经介绍,寒武纪设立了三条产品线:
1、智能终端处理器IP授权,可以集成到手机、安防、汽车、可穿戴等终端芯片中。
2、智能云服务器芯片,比如昨天发布的MLU100和即将发布的思元270,作为PCIE加速卡插在云服务器上。另外去年发布会上提到的支持训练和推理的MLU200云端芯片,不确定是否就是今日泄露的思元270芯片。
3、家用智能服务机器人芯片,这条产品线暂时没有产品发布,就寒武纪研发产品的高效性来看,该产品线也相当值得期待。
云端训练战场正在狼烟四起。过去几年,英伟达凭借GPU的超强算力以及cuDNN、TensorRT等一系列AI软件,在深度学习云端领域构建起强大而稳固的生态,尤其是在云端训练方面基本上一家独大、所向披靡。
而随着寒武纪等一批实力芯片玩家加入赛道,云端训练的板块未必会一如既往地稳定不变。对于AI芯片创企而言,建立强大的生态系统是长久发展的关键,这需要持续的研发投入、过硬的技术、围绕芯片衍生的全套软硬件开发维护。
假使寒武纪云端芯片的落地应用经过了时间和市场的检验,无论是在安防还是在其它领域,将成为这些领域取代英伟等进口芯片的选择,前景很大,这对亟待芯片国产化的我国产业而言无疑将是好消息。
本账号系网易新闻·网易号“各有态度”签约帐号
智东西公开课直播预告
5月16日晚7点,GTI北京中心技术总监梁进将主讲AI芯片应用系列课第十讲,主题为《存算一体AI芯片如何加速图像处理》。扫码进入直播间,开启「开课提醒」,以防错过!
1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“智东西”微信公众号,文章版权归智东西公众号所有。