当前位置:首页 > 品牌营销

功率密度成深度学习设计难题,数据中心市场展现新机遇

发布时间:2019-06-24 08:41:20   编辑:移动互联网   阅读次数:

摘要:新棋院原文出处:datacenterknowledge作者:YevgeniySverdlik译者:[笑熊新智苑审查设计计算机系统进行深度学习算法,并建立数据中心基础设施的电力和冷却这些系统是一个日益突出的问题。在深入学习的功率密度和互联网可能是两个数据中心的系统设计挑战。为了应对这一挑战,以满足相应的市场需求,一些企业已经涌现出。优秀的高密度数据中心空间供应商并不担心客户。很少有人在这个星球上更好地理解如何人工智能比RobOber计算机制造服务。作为NVIDIA加速

智元全新原装

来源:datacenterknowledge

作者:叶夫根尼·Sverdlik

译者:熊笑

  [导读]继荣获设计进行深度学习算法,并建立数据为这些系统电源和制冷中心的基础设施新的计算机系统,是一个日益突出的问题。在深入学习的功率密度和互联网可能是两个数据中心的系统设计挑战。为了应对这一挑战,以满足相应的市场需求,一些企业已经涌现出。优秀的高密度数据中心空间供应商并不担心客户。

  很少有人在这个星球上更好地理解如何人工智能比罗布奥伯计算机制造服务。作为NVIDIA加速计算球队的顶尖技术人员,特斯拉的首席平台架构师,特斯拉学习机是目前市场上最强大的GPU。

\

  GPU,即图形处理单元,它的名字来源于它最初的设计目的茎,但今天它已经超出了广泛的图形处理中的应用。

   GPU的超级计算机设计师发现系统CPU卸载工作量巨大,从建筑物阻挡他们的理想工具; GPU也被证明是在超高效处理器此机器学习方法的深入研究。这是谷歌的目标广告,亚马逊的Alexa即时应答语音查询的那种AI的 。

   创建一个计算机通过观察和迭代算法学习无疑是复杂的; 相同的设计是极其复杂的计算机系统执行这些指令,以及数据中心基础设施建立这些系统用于电源和冷却。奥伯已经敏锐地捕捉到这一需求,我们开始帮助客户做Nvidia的超级深入研究其庞大的数据中心系统。

  他在数据中心知识接受采访时表示说:“我们一直在处理的超大规模的数据中心有大量的超大规模的问题,真的都非常大规模数据问题。“”建立深学习和培训GPU的系统是非常困难的工程问题。真的非常,非常困难。即使是大家伙,如Facebook和微软也在努力。“

  AI巨大的能源培训

  培训是涉及到计算工作深度研究(更像是一种计算工作,因为这个区域是不断地发展,而且训练方法也不止一个)。它的目的是教深层神经网络 - 基于现有数据的新功能 - 的计算节点包括网络,旨在模拟神经元相互作用的方式,人类的大脑。例如,神经网络能够“看到”通过它被标记为“狗”要学会识别狗的照片不同的狗重复图像。

  推理另一类是神经网络的新数据的知识(例如,图像不会在犬见过先前确定的)。

  Nvidia的GPU来制造的两个类别,但是训练是数据中心特别困难,因为所需要的训练硬件的一部分是非常密集的GPU集群互连或服务器,每个需要多达八个GPU 。这样一个机柜需要的功率至少为30千瓦,但超级计算机之外的大多数数据中心不能支持这样的功率密度。即使在最低功率需求计算,20个这样的动力柜虽然这相当于范围的低端,功率20这样的橱柜大约相当于达拉斯牛仔AT&T公园的大屏幕,这是世界上最大的1080p视频显示包括30000000个灯泡。

  奥伯在谈到GPU Nvidia称:“我们的数据中心基础设施的高度重视。“。“培训学习的深度,需要电脑的极密丛,动力也会因此变得非常密集,这是一个真正的挑战。“另一个问题是这些簇的控制电压。GPU计算本身的品质可能会导致大量的电力瞬变(突然电压升高)。奥伯说:“这是可怕的。“

  另一个主要问题是相互连接点。“来自不同来源的数据中心网络的数据会带来令人难以置信的工作压力。“奥伯说,”它可能会创建一个超高热点。“以奥伯视图,功率密度和因特网可以处于深度学习两个数据中心系统设计挑战。

  冷却人造大脑

  奥伯表示,超大规模的数据中心运营商 - 比如Facebook和微软 - 主要是通过扩大架在深入学习集群的数量来解决功率密度的问题,但也有一些用少量液体冷却或液体冷却援助。液体冷却装置的冷却水直接输送到主板芯片(其是用于冷却超级计算机的常用方法); 液体辅助冷却装置的冷却水被认为是连接到IT机架的热交换器,在空气中冷却到服务器。

  不是每个人都需要支持高密度硬件深入研究可以具有几十万平方英尺的数据中心空间,而那些没有这样的条件,例如聚焦于少数高密度数据中心提供商的,已选择的实施例的补充冷却液。近日,这些供应商对服务需求的增加,这是在机器学习兴趣越来越大,主要是由于。

  初创公司和大型企业都在寻求创新的驾驶技术的力量下一波已被广泛预期,但大多数公司并不支持必要的基础设施建设。高密度的数据中心供应商ScaleMatrix的克里斯·奥兰多的联合创始人在接受采访时说:“目前,GPU负载的核心显著上升,这绝对是从企业经营。企业数据中心不具备这样的设备。“

  线性增长

  线性增长是最近才出现的。奥兰多说,他的公司业务出现线性增长,去年。其他应用驱动的增长已经计算生命科学和基因组学方面位于圣地亚哥的外部(ScaleMatrix旗舰数据中心这样的研究中心。它的一个最大的客户,基因组学中心J。克雷格·文特尔研究所),除了研究和大量的地理数据分析。在休斯顿的第二个数据中心,大部分来自石油和天然气行业的需求,它的勘探需要一些高辛烷值的计算能力。圣地亚哥是另一个主要ScaleMatrix客户Cirrascale,专注于硬件厂商深入学习基础架构和云服务供应商。

  通过与中央设备的冷却水在空气外壳完全封闭的,每个外壳可以支持ScaleMatrix功率为52kW。自定义在机柜顶部冷水循环系统,从服务器排出的热空气上升,推背主板和冷却。随着企业对高密度计算日益增长的需求,该公司最近开始感兴趣部署在室内,该公司销售技术。

  硅谷的数据中心供应商Colovore还专注于高密度的托管业务。它是使用更典型的后门热交换器,以达到每机架功率20千瓦在当前第一阶段,在第二阶段中达到35KW即将。至少有一个有兴趣的客户超过35KW,因此该公司正在探索冷却水直接进入超级计算机系统的主板的可能性。

  今天,大多数部队Colovore计数支持GPU集群机器学习的数据中心,肖恩Holzknecht联合创始人兼总裁的公司,在接受采访时表示,和ScaleMatrix一样,现在的良好局面Colovore。硅谷是一个学习机,自动驾驶汽车和生物信息学公司温床,优良的高密度数据中心空间供应商并不担心客户。

  AI处理硬件的激增

  对于Colovore和ScaleMatrix提供基础设施的需求很可能会继续增长。机器学习是仍处于早期阶段,但大的云平台(谷歌,Facebook,微软和阿里巴巴等之外。),很少有公司使用该技术在生产过程中。目前,大多数的R&d领域的活动,但工作仍然需要大量GPU供电的。

  Nvidia称,对于AI硬件需求正在激增,其中有许多是由像AmazonWeb服务,谷歌云平台和云MicrosoftAzure等巨头企业的带动下,为他们提供机器学习增强的云服务和GPU租赁的原始动力。目前可用的最强大的云GPU实例市场需求强劲。“必须有云供应商的GPU实例看到消费和令人难以置信的牵引。“Nvidia的奥伯说,”人们真正需要的最大的例子可以在有利于发现。“

  HTTP:// WWW。datacenterknowledge。COM /存档/ 2017年3月27日/深学习驾驶式数据中心的功率密度/

  

  3月27日,志元新开源生态峰会和新的AI技术的智苑2017年商业计划大赛颁奖典礼隆重举行,包括“BAT”主流AI,包括中国企业,600多家行业精英齐聚一堂,共同为人工智能的2017年中国的发展描绘了一幅浓墨重彩的一笔。

\

  点击阅读原文,大会审查文本版本记录

  请访问以下链接,回顾其盛况:

腾讯科技:HTTP:// v。QQ。COM /现场/ P /主题/ 26417 /预览。HTML

阿里云起社区:HTTP:// YQ。阿里云。COM /研讨会/播放/ 199

\

爱奇艺:HTTP:// WWW。爱奇艺。COM / l_19rrfgal1z。HTML

本文链接:功率密度成深度学习设计难题,数据中心市场展现新机遇

友情链接: 经文 大悲咒注音 心经唱诵
网站地图
移动互联网版权所有   苏ICP备18043316号