如果你希望在数据中心部署AI,请仔细考虑首先要投资的硬件和基础设施。
AI涵盖一系列技术,例如机器学习和深度学习。并且AI包括广泛的业务应用,从可预测未来表现的分析,到推荐系统和图像识别。
随着越来越多的大型企业采用人工智能作为数字化转型工作的一部分,AI正在不断扩展和发展。请了解你的企业为何需要AI,这可以帮助你决定采用哪种基础架构来支持它。
配备GPU的服务器
为服务器配备GPU已成为AI最常见的基础架构方法之一。你可以使用GPU芯片的大规模并行架构来加速处理AI模型所涉及的批量浮点运算。
GPU也往往拥有广泛而成熟的软件生态系统。例如,Nvidia开发了CUDA工具包,让开发人员可以将GPU用于各种目的,包括深度学习和分析。然而,尽管GPU支持某些深度学习任务,但它们并不一定支持所有AI工作负载。
IDC公司分析师Jack Vernon说:“在AI和机器学习的背景下,有些模型不属于深度学习的类别,并且未被充分探索,因为GPU非常擅长神经网络类型的东西,但它不一定擅长某些有趣算法,以帮助人们做有趣的事情。”
在数据中心部署 AI 之前,你应该首先考虑为什么你要采用该技术,以确定GPU是否符合你的要求。然后,寻求专家建议以确定最适合你企业要求的模型类型,以了解你需要哪些其他基础架构。
其他硬件加速器
现场可编程门阵列 (FPGA) 本质上是塞满逻辑块的芯片,你可以根据需要对其进行配置和重新配置,以执行不同的功能。而ASIC在制造过程中将逻辑功能内置到芯片中。两者都可以加速硬件性能。对于拥有大量明确定义的工作负载的企业,ASIC更有意义,而FPGA需要更复杂的编程。
谷歌通过其Google Cloud Platform向客户提供其TPU,这是一种专为深度学习设计的ASIC。另外,Graphcore专门为AI工作负载设计了IPU,而Cambricon则提供围绕针对深度学习优化的指令集而设计的处理器芯片。英特尔收购的Habana Labs将可编程加速器作为单独的芯片,用于深度学习的训练和推理部分,分别称为Gaudi和Goya。
尽管GPU和类似类型的硬件加速器在AI方面备受关注,但CPU仍然与AI和机器学习的很多领域相关。例如,英特尔为其服务器CPU添加了功能,以帮助加速AI工作负载。最新的Xeon Scalable系列采用Intel Deep Learning Boost,它具有新的指令来加速推理中涉及的计算类型。这意味着这些CPU可以在不需要额外硬件的情况下加速某些AI工作负载。
针对AI的存储
在支持AI的基础设施方面,企业不应忽视存储。训练机器学习模型需要大量的样本数据,并且系统必须尽可能快地接收数据以保持性能。
Vernon称:“存储是非常大的事情,训练过程本身通常涉及反馈循环。因此,你需要在一个阶段中保存模型,在此之上运行一些处理,更新它,然后不断地调用它。大多数正在构建培训和推理基础设施的企业通常很快就会需要大量额外的存储。”
对于具有HPC基础设施的企业,通常已经拥有快速闪存存储层–以更大容量层为后端。对于大多数企业而言,这意味着以尽可能低的延迟部署NVMe SSD,并以成本较低的存储为后盾来提供容量。
专用AI系统
有些专门系统为AI工作负载提供更高的性能。Nvidia的DGX服务器是基于其GPU,其架构经过优化以保持这些GPU获取数据。存储供应商还与Nvidia合作,提供经过验证的参考架构,将高性能存储阵列与Nvidia DGX系统配对。例如,DDN优化其Accelerated, Any-Scale AI产品组合,针对用于训练AI模型的所有类型的访问模式和数据布局,并且,NetAp和Pure Storage等供应商提供类似的存储架构。
英特尔提供其OpenVINO工具包作为推理引擎,旨在优化和运行预训练模型。它具有插件架构,使其能够在一系列硬件(例如 CPU、GPU、FPGA 或三者的混合)上执行模型,从而为企业提供更大的部署灵活性。
你还可以选择在云端构建和训练你的AI模型,使用按需资源,当训练完成,就可以停止使用。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
2025年4个超融合基础设施趋势
自十多年前出现以来,超融合基础设施技术(HCI)已经取得显著进步,现在该技术在数据中心找到自己的位置,以缓解采 […]
-
VMware by Broadcom变革在2025年继续
在收购一年后,通过其母公司的举措,VMware by Broadcom在其虚拟化平台上留下了持久的印记。 芯片 […]
-
了解数据中心噪音污染的影响
数据中心是数字世界的重要枢纽,数据中心可提供各种支持,从云存储到在线服务等。然而,数据中心的运营往往伴随着代价 […]
-
了解电力使用效率指标
电力使用效率(PUE)是评估全球数据中心能耗效率的指标。然而,对比测量值很困难,因为数据中心的位置和服务器工作 […]