大家好!今天让小编来大家介绍下关于grphcore(微软、阿里云和Grphcore合作向GPU推广IPU云端AI如何破局eimkt)的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。

文章目录列表:

grphcore(微软、阿里云和Grphcore合作向GPU推广IPU云端AI如何破局eimkt) 第1张

本文目录

微软、阿里云和Graphcore合作向GPU推广IPU云端AI如何破局eimkt

Graphcore IPU的独特之处在于将整个机器学习知识模型保留在处理器内部。一个服务器内有16个与IPU-Link技术连接在一起的IPU处理器,这样的IPU系统将拥有超过100,000个完全独立的程序,所有程序都在机器智能知识模型上并行工作。
11月14日机器之心消息,微软与Graphcore达成合作,正式发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。这是公有云领导供应商首次提供GrapchoreIPU,这些IPU从构建之初便旨在支持下一代机器学习,同时还包括Poplar软件栈。
据介绍,微软和Graphcore已经紧密合作了两年多。在此期间,由杰出工程师MarcTremblay领导的微软团队一直在开发针对Azure的系统,并在IPU上提升高级机器视觉和自然语言处理(NLP)模型。 Azure上的Graphcore IPU预览版现已开放供用户注册,专注于突破NLP界限并在机器智能方面取得新突破的开发者可获得优先访问权限。
Graphcore从零开始设计智能处理单元(IPU),旨在驱动机器智能领域的新突破。IPU和产品就绪的Poplar软件栈为开发人员提供了功能强大、高效、可扩展和高性能的解决方案,从而助力实现AI创新。通过加速更复杂的模型并开发全新的技术,客户得以解决最困难的AI工作负载。
目前模型中最先进的性能
微软和Graphcore的开发人员使用BERT语言模型实现了最先进的性能和准确性,仅用一个IPU服务器系统和8个C2 IPU处理器PCIe卡就可以在56个小时内训练BERTBase。对于BERT推理,Graphcore的客户发现吞吐量提高了3倍,延迟改善了20%以上,从而可以更快地交付结果。
该水平的语言理解性能对于搜索引擎提供更有用的查询响应以及对于文本和对话式AI应用程序(如情感分析和需要人类水平理解能力的智能个人助手)至关重要。自然语言处理是人工智能的重要战略领域,预计到2025年,仅针对自然语言处理的人工智能硬件市场规模就将达到150亿美元(来源:Tractica Q42018)。
“自然语言处理模型对于微软来说非常重要——在Microsoft Azure上运行我们的内部AI工作负载,以及服务我们的AI客户,” 微软公司Azure计算事业部副总裁Girish Bablani说:“与Graphcore在处理器方面的新合作能够为我们的客户带来诸多裨益,这一潜力令我们感到非常兴奋。Graphcore的产品扩展了Azure的能力,我们在此领域内所做的努力是我们确保Azure仍然是AI最佳云的战略的一部分。”


IPU使新的AI创新成为可能
除了为当今的复杂AI模型(如BERT)提供最先进的性能外,IPU还擅长加速新技术。 IPU将开辟新的研究领域,并帮助公司探索新技术,建立可以用更少的数据进行训练的更高效的机器学习系统。
欧洲搜索引擎Qwant是Graphcore IPU早期的客户之一,Qwant凭借运行搭载下一代图像识别模型 ResNext的IPU,获得了高性能,同时降低了延迟。 Qwant首席执行官埃里克·莱安德里(EricLeandri)解释说:
“Qwant的研究团队致力于AI的前沿技术,以便在用户搜索查询中快速提供最佳结果,同时确保结果是中立、公正和准确的。这是一个很高的要求。我们每天仅图像搜索就达到数百万次。我们正在实施的最新AI创新之一是称为ResNext的新型图像识别模型,可以提高提供图像搜索结果的准确性和速度。我们一直与微软和Graphcore紧密合作,在Azure中使用IPU处理器技术,并且在使用IPU上使用ResNext的图像搜索功能中看到了显着改,即性能提高了3.5倍。 Graphcore IPU在新的机器智能模型上具有巨大的创新潜力,我们正在研究这些方法来完善搜索,以便我们能够准确地提供客户所需的结果。”

扶持智能处理器及软件宝马iVentures投资Graphcore

电侦探今天获悉,宝马iVentures对Graphcore进行了战略投资,该公司正在开发一款用于计算机处理器和机器智能的专用软件。Graphcore计划本轮融资2亿美元,宝马iVentures的投资也占据一定份额。目前,Graphcore估值超过3亿美元,已募集资金超过3亿美元。据了解,Graphcore成立仅两年,但它已经帮助许多RD机构创建了新一代机器智能解决方案。该公司的IntelligenceProcessingUnit是第一个专门用于机器智能的处理器,它比传统的硬件设备更快。IPU已经被公司优化,可以在极其复杂的多维建模中高效工作,足以应对机器智能的工作量。公司强调并行低精度浮点运算功能,相比其他方案可以提供更高的运算密度。据宝马iVentures表示,此次投资只是公司打造全球科技公司的第一步,未来将持续关注这一新兴且发展迅速的机器智能市场。

华为出新招解决芯片问题,具体有何办法能解决

华为出新招解决芯片问题,具体有何办法能解决?下面就我们来针对这个问题进行一番探讨,希望这些内容能够帮到有需要的朋友们。

大家都知道,自2020年9月15日后,华为的麟麟芯片就变成了绝响,只能依靠库存量撑着,用一片少一片。这针对华为来讲,危害是特别大的,2021年华为手机上业务流程下降82%,跌到全世界第9名了。而从华为的营业收入看来,2021年顾客业务部下降49.6%,等同于腰折了,而其占有率也仅有38.2%了,要明白在2020年但是奉献了54%。

由此可见,“缺芯”的惨忍实际,让这些以前奉献了54%营业收入的顾客业务流程,在2021年深陷“有市没货”的难堪处境。针对华为来讲,如何解决芯片问题,可能是头等大事,而依照余承东观点,2023年华为手机上可能王者归来。很多人猜想很有可能华为会建造晶圆厂,进而处理圆晶问题。

而在昨日华为2021年销售业绩推介会上,轮换制老总郭平讲了处理芯片问题的两种方法。他是那样的说的:“华为将来将推动三个构建,用堆叠、面积换性能,用不那麼优秀的技术还可以让华为的设备有竞争能力。”

大家认真看,在其中谈及的重要二点是用堆叠、面积换性能。这就是将来华为处理芯片问题的两种方法。堆叠很有可能我们不陌生,iPhone的M1Ultra是用二颗M1Max接起来,也算得上堆叠的一种。而tsmc以前与英国的AI芯片公司Graphcore协作,公布了一款IPU商品Bow,选用的便是两层堆叠技术性,将二块Die左右重合在一起,随后经过3D封装形式技术性封装形式成一颗芯片。

堆叠在加工工艺不会改变的条件下,可以大幅的提高性能,这一M1Ultra或是Bow全是证实了的。而用面积换性能,含意便是将芯片做大。我们知道芯片全是由晶体管构成,晶体管越多,性就越强,这也是呈正比例关联的。一样面积下,加工工艺越优秀,晶体管的硬度就越大,晶体管就大量,那样性能就越强。

假如加工工艺没法改善,要想提高性能话,那麼就务必扩大面积,进而塞入大量的晶体管,因此华为说的用面积换性能,实际上便是将芯片做大。但是,大伙儿要留意的是,无论是堆叠、或是用面积换性能,都的确可以用不那麼优秀的技术还可以让华为的设备有竞争能力。

但不足之处是面积或容积会扩大,功能损耗会提升,发烫也有可能会提升,使用不太在意功能损耗、室内空间、发烫尺寸的设备中,是有效的,但用在手机,那样的追求完美功能损耗,容积、面积、排热的商品上,很有可能或是有点儿艰难的。

ai监考技术怎么监考眼球识别

通过深度学习行为预测技术来监考眼球。

开发了能从影片人物姿势、骨骼、视线来自动检测考生是否有偷看手机、给隔壁考生传送答案等可能的作弊行为,通过在设备而不是云端中使用深度学习,系统可以遮盖无嫌疑者的考生脸部,顾及考生隐私的同时也协助检测作弊情况。

由于系统不需要安装大型设备,只需要在现场使用电脑类的终端器材和摄影镜头,便可自动监测广阔的范围来协助考官,作弊侦测AI能顾及隐私并更好地协助目视监考的考官,同时为所有考生提供一个更公平的考试环境。

深度学习硬件加速已经减缓,脉动阵列在2017年给全世界带来了巨大的加速增长。我们不能指望2019年计算能力的大幅提升。

NVidia的图灵核心只比Volta核心快一点。谷歌的TPUv3系统现在采用液冷,与之前的产品相比,密度更高。我不认为2019年会有任何重大的架构改进,因此不要像往年那样大幅增加。

总结如下:

但是,我们将看到GraphCore和Gyrfalcon的新架构规避了内存传输的功率成本并支持稀疏操作,但是需要更改深度学习格式来适应这些新架构,以及需要进行新的硬件研究,这个灵感来自生物学的纳米意向性。


2018年全球最值得关注的AI芯片初创公司

Wave Computing

Wave Computing在2018取得了不少进展,推出其第一个DataFlow处理单元,收购MIPS,创建MIPS Open,并将首批系统交付给少数客户。虽然Wave架构有一些非常有趣的功能,但我们更期待用户的大规模真实体验反馈。

Wave不是插入到服务器的加速器,它是用于图形计算的独立处理器。这种方法有利有弊。从积极的方面看,Wave不会受到GPU等加速器面临的内存瓶颈影响。从消极方面来说,安装Wave设备将是新的升级,需要完全替换传统的X86服务器,也让其成为所有服务器制造商的竞争对手。

我不认为Wave能从某个点击败NVIDIA,但该架构的设计的非常好,该公司已经表示它很快就会有客户的反馈。

图1:Wave是从上面显示的4节点“DPU”构建的系统。Wave Computing

Graphcore

Graphcore是一家资金雄厚(融资3.1亿美元,目前估值为17亿美元)的英国独角兽创业公司,拥有全球化的团队。它正在构建一种新型的图形处理器架构,其内存与其逻辑单元位于同一芯片上,这应该能够实现更高的性能。该团队产品的发布时间暂不明确,不过他们去年四月表示“几乎准备好发布”了,12月的最新信息表明它将很快开始生产。

Graphcore的投资者名单令人印象深刻,包括红杉资本、宝马、微软、博世和戴尔 科技 。

我了解了该公司的架构,它非常令人印象深刻。从边缘设备扩展到用于数据中心的训练和推理的“Colossus”双芯片封装。在最近的NeurIPS活动中,Graphcore展示了其RackScale IPU Pod,它在一个32台服务器的机架中提供超过16 petaflops的算力。虽然该公司经常声称它将提供比同类最好GPU强100倍的性能。

Graphcore表示,4“Colossus”GC2(8芯片)服务器可提供500 TFlops(每秒数万亿次操作)的混合精度性能。单个NVIDIA V100可提供125 TFlops,因此理论上4 个V100就可提供与其相同的性能。

与往常一样,细节更能发现差别,V100峰值性能仅在重构代码执行TensorCore的4x4矩阵乘法时才可用,这是Graphcore架构巧妙避免的限制。更不用说V100消耗了300瓦的电能和大量现金这一事实。

此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,可以得到超出TFlops基准所认可的优秀性能。在一些神经网络中,如Generative Adversarial Networks,内存是瓶颈。

再次强调,我们将不得不等待真实的用户用实际应用程序来评估此体系结构。尽管如此,Graphcore的投资者名单、专家名单和台天价估值告诉我,这可能是一件好事。

图2:GraphCore展示了ImageNet数据集处理的照片。 可视化可帮助开发人员了解其训练处理占用处理周期的位置。

Habana Labs

Habana Labs是一家以色列创业公司,去年9月在第一次AI硬件峰会上宣布它已经准备好推出其首款用于推理的芯片,其创纪录的性能用于卷积神经网络图像处理。结果显示在Resnet50图像分类数据库中该处理器每秒分类15,000张图像,比NVIDIA的T4高出约50%,功耗仅为100瓦。

在2018年12月,Habana Labs的最新一轮融资由英特尔风险投资(Intel Venture Capital)领投,WRV Capital,Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。

据悉,Habana Labs新的融资将部分用于流片其名为“Gaudi“的第二款芯片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。

其它创业公司

我知道世界上有超过40家公司在为人工智能设计训练和推理芯片。我发现大多数公司都在进行简单的FMA(浮点乘法累加)和混合精度数学(整型8位和浮点16位和32位)。对此我不会感到惊讶,因为这种方法相对容易实现并且会获得一些成果,但它不会为像NVIDIA,英特尔以及少数初创公司做出不一样的架构提供持久的架构优势。

以下是一些引起我注意的公司:

中国AI芯片初创公司

中国一直试图找到一条摆脱美国半导体的方式,人工智能加速器可能会提供它一直在寻求的机会。中国设定了2030年要建立一个价值数万亿美元的人工智能产业的目标,自2012年以来,投资者已经向创业公司投入了超过40亿美元的资金。

寒武纪 科技 估值为25亿美元,是已经发布了第三代AI芯片的中国独角兽公司。寒武纪称它可以用更低的功耗提供比NVIDIA V100更好的AI性能,他们还销售其AI IP,搭载在华为麒麟970和麒麟980的处理器当中,作为AI加速硬件。

商汤 科技 也许是估值最高的AI创业公司,以在中国推广智能监控摄像头而闻名。这些安防摄像头数量超过1.75亿,包括其他公司生产的摄像头。商汤 科技 在香港成立,最近一轮融资数额达6亿美元,由阿里巴巴领投。据报道,这家初创公司的价值目前为45亿美元。

商汤 科技 与阿里巴巴、高通、本田甚至NVIDIA等主要公司建立了战略合作伙伴关系。该公司今天拥有一台超级计算机,运行大约8000块(可能是NVIDIA提供?)GPU,并计划再建造5台超级计算机来处理数百万个摄像头采集的面部识别数据。

雷锋网编译,via forbes

36氪首发|瀚博半导体获16亿B1、B2轮融资,主攻高端算力芯片

近日,36氪获悉,芯片设计独角兽企业「瀚博半导体」获16亿人民币的B-1和B-2轮融资,由阿里巴巴集团、人保资本、经纬创投和五源资本联合领投,国寿科创基金、Mirae Asset (未来资产)、基石资本、慕华科创基金(清华产业背景),以及老股东红点中国、耀途资本和元木资本跟投。

在这轮融资中,瀚博半导体引入了继快手之后的第二家互联网战略投资人——阿里巴巴。此次融资后,公司将持续完善产品矩阵,包括SV100系列产品线(云边AI推理和视频产品线)在国内外市场的大规模落地,加大图形GPU产品线的研发投入,并开始布局其他智能产品线。

瀚博半导体成立于2018年12月,公司位于上海,瀚博半导体创始人&CEO钱军提到,瀚博要做的是为像素世界提供算力的高端芯片。

根据Gartner的预测数据,全球人工智能芯片市场规模将在未来五年内呈现飙升, 从2018年的42.7亿美元成长至343亿美元,增长超过7倍。

AI芯片在2021年掀起融资热潮,国外市场有SambaNova Systems、Cerebras Systems、英国AI芯片独角兽Graphcore、Groq、以色列的AI芯片独角兽Hailo Technologies等AI芯片独角兽,国内也有着寒武纪、地平线等企业。

五源资本合伙人刘凯表示:“作为AI技术的底层驱动,全球的AI芯片领域都在经历爆发性的增长。我们观察到,在美国,自2016年前后诞生了几十家AI芯片的初创公司,经历了近5年的发展,这一领域在美国已经成长出众多独角兽级别的创业企业。在业务进展层面,不同的AI芯片企业围绕DSA架构,纷纷快速迭代产品、形成差异化竞争能力,且大部分企业已经进入行业落地阶段,未来数年将进入大规模量产出货阶段。”

瀚博半导体的产品矩阵共有三块,一是AI推理+视频加速卡,2021年7月,瀚博半导体世界人工智能大会上发布了公司首款服务器级别AI推理芯片SV102及通用加速卡VA1,该芯片即将量产上市;二是图形GPU,主要用于云 游戏 、云桌面、云渲染相关的一些图形产品;三是其它智能产品。

据悉,瀚博半导体的首款云端推理AI芯片SV102已在和战略合作伙伴合作,即将量产上市。

瀚博在团队优势上,一是,创始团队主要出自AMD第一颗7nm GPU团队,有着丰富的芯片设计、量产经验,整个团队曾有上百颗GPU流片的经验;

二是,瀚博首先选择了AI+视频的赛道。钱军总曾在发布会上表示,计算机视觉任务占据了AI市场的大部分,视频流占据数据流的 70%,而且比例持续攀升,市场空间大,且有落地应用场景。

瀚博半导体创始人&CEO钱军表示:“在即将过去的2021年,我们亲眼见证了芯片核心技术在各类新兴应用领域焕发的勃勃生机,这是半导体从业者最好的时代。伴随着互联网视频直播、短视频、计算机视觉、自然语言处理、云 游戏 、云桌面、云渲染、元宇宙等现象级应用的极速发展,数据中心算力需求的不断增加,下游客户对芯片、硬件、软件等各个方面都有了更高的期待。瀚博将继续延展各条产品线,进一步扩大行业领先优势。”

在创始团队上,公司创始人兼CEO钱军有25年以上高端芯片设计经验,离职前在AMD任高级总监,全面负责GPU(图像处理器)和AI服务器芯片设计和生产,现在市场上绝大多数的AMD Radeon图像处理器和AI服务器芯片都是由其带队开发。

创始人兼CTO张磊是前AMD Fellow,有23年以上芯片和IP架构设计的丰富经验,负责AI、深度学习,视频编解码和视频处理领域。

公司目前拥有超300名研发工程师,分布于上海、北京、深圳、西安、成都和加拿大多伦多。

人保股权公司投资部负责人舒琬婷表示:“瀚博首款芯片聚焦AI加速和视频处理,可大幅降低互联网公司数据中心TCO,能有效解决互联网在线视频厂商的痛点,具有广阔的市场空间。公司创始人及核心团队具备世界顶级的算法、芯片设计及量产能力,在芯片设计、AI和视频处理领域积累深厚。异构计算加速卡将在互联网视频直播、短视频、云 游戏 、云桌面、云渲染等场景中发挥关键作用,公司的产品发展潜力巨大。”

经纬创投合伙人王华东表示:“视频类产品已经成为现在用户端使用的第一大应用类别,行业需要更高实时性、更强算力的视频处理技术及对应的集成电路产品。瀚博具有稀缺的高性能AI+视频集成电路研发能力,同时在核心IP沉淀的积累也能扩展新的集成电路类别。”

独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!

「初创公司要贸然打入云端市场,简直就是自寻死路」。

长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。

但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。

作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。

2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。

与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。

一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。

机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们采访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。

这回有了中文名

据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。

在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。

在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到视频数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建视频解码单元,瞄准海量的视频处理市场专门配置。

据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。

对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 采用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 采用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。

「让英伟达难受」

在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。

据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。

对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。

功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。

但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」

据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」

与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」

核心技术解密

这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。

它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。

整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。

基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的资源去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。

但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。

而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。

此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。

综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。

那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。

参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多采用集成大量整数运算器或低精度浮点运算器。

面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。

李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。

谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。

王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。

他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」

综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能采用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。

实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。

当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS’14 最佳论文(亚洲第一次),DaDiannao(大电脑)是 MICRO’14 最佳论文(美国以外国家的第一次)……

而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,采用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)

此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。

据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。

「云芯」之争一触即发

尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。

整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。

而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速采用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。

据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。

可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多强劲玩家。

(应采访者需求,文中李立、王一均为化名。)

2019年全球前100位汽车供应商分析

最近automobil-industrie网站上的2019年全球前100位汽车供应商名单出来了,同时在该网站上看到了这篇文章,里头分析了汽车供应商的变化趋势,在此翻译出来。(原文地址见文末)

(图片来自Automobile-industrie报告)

情况还是一团糟:特朗普去年继续呼吁反对德国,中国和日本的不公平贸易做法;英国脱欧对英国和欧洲汽车业的影响仍未消除;连汽车销量增长总是两位数的中国在去年也出现了停顿;有关排放问题的讨论——颗粒,氮氧化物,可持续性,柴油丑闻——继续令消费者不安。总之,汽车行业的问题依旧存在。

尽管面临种种困难,但排名前100位的供应商在2019年的销售额增长了4.3%(上一年为+ 6.4%)。与上一年相比,有64家公司的销售增长。但是2019年的销售增长主要归功于大型公司的收购和兼并:

2019年的这个名单中,最后一名公司的营业额达到27亿欧,这下降到了2017年的水平;2018年为29亿欧元。2019年全球前100位汽车供应商的总产值为9180亿欧元。

前100位中日本的27家供应商小幅增长了2.8%,总营业额为2460亿欧元。德国在前100位中占了18位,总营业额为2050亿欧元,与2018年相比下降了0.5%。排在第三的是美国,美国占19家,总营业额是1340亿欧元,增长了 2.6%这19家美国公司的增长率为+ 2.6%,总销售额为1,340亿欧元,名列第三。紧随其后的是这六个国家的供应商,分别为法国(758亿欧元,增长4.9%),韩国(541亿欧元,增长19.4%)和中国(476亿欧元,增长12.5%)。收购和结构重组是这三个国家供应商占比强劲增长的主要原因。

汽车行业的转型在2019年显著加快,并且开始显露如何从根本上改变行业。CASE(联网汽车,自动驾驶,共享出行,电动出行)已经出现在众多供应商及其战略部门的高层管理人员的脑海中。围绕未来核心技术,公司拆分和旧技术清算的斗争不会停止,现在显然有很多不再被需要的技术仍在全速发展。大陆集团(Continental)将动力总成拆分为Vitesco公司,蒂森克虏伯(Thyssen Krupp)汽车业务的重组,Borg Warner计划收购Delphi Technologies,Tenneco收购Federal Mogul,ZF Friedrichshafen和Knorr-Bremse在Wabco进行的长期收购战,分拆由江森自控(Johnson Controls)负责并随后解散-所有这些都表明了接下来几年的变化。

在过去的三年中,仅德国的五家主要汽车供应商博世,大陆集团,采埃孚,马勒和舍弗勒就已经收购了40多家初创和高科技公司或为其提供了风险投资:Aimotive,Here Technologies,Fair.com,Splitting Fares,Digi Lens,E.Go Moove,Paravan Technologie,Deep Map,Ceres Power,Haptronik,Inspekto,Graphcore,Auto AI Technology,Ubitricity,“ 2getthere”,Xtronic,Teralytics,Cartica,Nikola,Power Cell等。以收购和投资高科技公司这种方式就像配齐烹饪配方的成分一样,确保汽车工业的未来的技术:自动控制的运动控制系统和执行器组件,闪光激光雷达技术,ITS解决方案,电动化微动性,电动车的充电网络,无人驾驶电动穿梭车,大数据分析师,GNSS定位服务,停车位应用,为电动汽车充电的电子漫游平台,汽车的IT安全,用于增强现实和虚拟现实的全息投影技术,固体氧化物燃料电池技术,自主机器图像处理,用于对象识别的机器学习,3-D超声波传感器,基于激光的3-D传感器等。

一个事实 :大型供应商和中型公司之间的差距正在扩大。如今中型公司不再有机会在关键的创新领域迎头赶上。高净值的技术,软件研发能力,遍布全球的研发中心,以及和大型高科技公司三星,苹果,微软等合作的能力,只有前100名靠前的公司才拥有。

企业收益这块在2019年经济放缓时就有迹可循。供应商能感受到行业的变化,一方面是来自OEM的价格压力,另一方面是是CASE技术成本的上升。在前100位供应商中,宣布盈利的供应商有73家。在这73家供应商中,有56家利润大不如前。与2018年相比,收入下降的公司数量进一步增加(71家中的48家,即68%)。2019年,整体盈利能力平均下降了1.5个百分点。2019年的销售利润率为6.0%,而2018年为7.5%。在前几年的顶峰时期,前100名能达到8.7%。有的个别供应商的利润急剧下降。与2018年相比,大陆,松下或American Axle的利润损失了5至10个百分点。

在德国排名前三的供应商公司里,特别对于大陆集团而言,这是真正的“灾年”,该集团以销售停滞和亏损结束。博世集团能够大致维持其整体销售以及汽车行业的销售,但在集团损失了43%的收入,但是没有透露在主要造成亏损的汽车行业的具体亏损数目。前100位里的两家最大供应商是行业急剧变化的例子,因为两家公司2018年的息税前利润超过70亿美元。采埃孚(ZF Friedrichshafen)还必须应对汽车部门销售额下降-1.1%的问题。

排名前100位的供应商汇总,韩国的供应商(主要是Hanon Systems和LG Electronics),由于汇率的影响,总销售额也增长了19%以上:Hanon Systems通过从Magna和手中收购了Fluid Pressure&Controls部门。LG Electronics通过信息娱乐系统和其他电动汽车零部件的强劲销售。来自中国的供应商,尤其是CATL,仍然实现了12%以上的平均销售额增长。在2018年之后,CATL能够再创辉煌(+ 55%的销售额,+ 25位,现在排名第43位)。在2019年底,CATL创造了新的记录,占中国电池总容量的50%。更多的中国汽车供应商已经准备好了,准备在2020年跻身前100名。十年前,排名前100位的中国供应商只有潍柴动力。

美国的亮点是,天纳克(Tenneco )通过2018年收购的辉门公司(Federal-Mogul)和2019年收购的Öhlins收购,现在排名第14位。(+ 52%销售额,+ 10位,现在排名14)。而来自日本的日立汽车系统公司(Hitachi Automotive Systems)通过从KPS Capital Partners收购了Chassis Brakes Internationa​

首颗“3D封装”芯片诞生,集成600亿晶体管,突破7nm工艺极限

台积电作为晶圆代工龙头企业,是全球最早量产7nm工艺的厂商,早在2018年4月就开始通过7nm工艺生产芯片,此后台积电7nm工艺为全球数十家客户服务,生产芯片超过10亿颗。

在这个过程中,台积电7nm工艺也让客户们获利颇多,比如AMD就依靠台积电的7nm工艺翻身了,还有联发科这两年推出的处理器稳定性也强了许多,甚至Intel都在找台积电代工。

尽管现在台积电5nm工艺已经实现大规模生产,但7nm工艺依然占据着不可忽视的地位,现在台积电更是一举突破7nm工艺的极限,做出了一款集成度超过600亿颗晶体管的芯片。

日前,总部位于英国的AI芯片公司Graphcore发布了一款IPU产品Bow,据官方介绍, 这颗Bow IPU与上代相比,性能提升40% ,能耗比提升了16%,电源效率也提升16%。

而台积电就是Bow IPU的代工厂,但这颗IPU性能的全面提升,并非采用了更先进的制程,而是采用了和上一代IPU相同的台积电7nm工艺。

能够有如此大的提升,则是因为这颗IPU 采用了3D WoW硅晶圆堆叠技术,从而实现了性能和能耗比的全面提升。

作为全球首款采用台积电3D WoW技术的芯片,Bow IPU通过这次的变化,证明了 芯片性能的提升并不一定要提升工艺,也可以升级封装技术,向先进封装转移。

得益于台积电3D WoW技术的加持, Bow IPU单个封装中的晶体管数量也达到了前所未有的新高度,拥有超过600亿个晶体管, 这是非常惊人的提升。

官方介绍称,Bow IPU的变化是这颗芯片采用3D封装,晶体管的规模有所增加,算力和吞吐量均得到提升,其具有350 TeraFLOPS的人工智能计算的性能,是上代的1.4倍,吞吐量从47.5TB提高到了65TB。

从这颗Bow IPU芯片的升级可以看出,过去我们理论认为芯片性能的提升很大程度上取决于工艺制程的进步,现在看来,其实也有新方向可以选择。

随着工艺制程的不断升级,现在的技术已经越来越逼近物理极限了, 摩尔定律逐渐失效,业界不得不通过寻找新的技术方向去延续摩尔定律,而3D封装正是被业界广泛看好的方向。

其实对于中国本土的晶圆工艺来说,3D封装也是正确的方向, 由于中国大陆在先进光刻机采购问题上存在短板,导致芯片性能存在一定程度不足。

中芯国际虽然有能力攻克7nm工艺,但没有先进光刻机一切都是零,在这样的背景下, 如果将3D封装技术用在28nm和14nm工艺上,或许能够有效提升性能和能耗比。

以上就是小编对于grphcore(微软、阿里云和Grphcore合作向GPU推广IPU云端AI如何破局eimkt)问题和相关问题的解答了,grphcore(微软、阿里云和Grphcore合作向GPU推广IPU云端AI如何破局eimkt)的问题希望对你有用!

收藏(0)