机器学习、AI要求、示例的基础设施

日期: 2024-04-21 作者:Kurt MarkoBrien Posey翻译:邹铮 来源:TechTarget中国 英文

对于寻求利用数据获得竞争优势的公司来说,IT是作为一种专业学科的存在。现在,企业充斥着数据,但处理和分析数据的技术往往难以跟上大量实时数据。事实证明,挑战不仅仅在于纯粹的数据量,还在于多种多样的数据类型。

例如,事实证明,对于传统上基于结构化数据库的信息系统来说,非结构化数据的爆炸性增长尤其具有挑战性。这引发了基于机器学习(ML)和深度学习的新算法的开发。反过来,这导致企业需要为机器学习、深度学习和人工智能工作负载购买或构建系统和基础设施。

人们对机器学习和深度学习的兴趣已经持续多年,而ChatGPTMicrosoft Copilot等新技术更是激发人们对企业人工智能应用程序的兴趣。IDC预测,到2025年,全球前2000强企业40%IT预算将用于与人工智能相关的举措,因为人工智能将成为创新的动力。

毫无疑问,企业已经通过使用高级ML和深度学习服务(例如Amazon ComprehendAzure OpenAI Service)在云中构建很多基于AIML的应用程序。但是,训练和提供人工智能算法所需的大量数据,将数据移动到云并将其存储在云端的高昂成本,以及对实时(或近实时)结果的需求,意味着很多企业人工智能系统被部署在私有专用系统上。

很多AI系统都位于企业数据中心。然而,人工智能系统应该部署在边缘,以靠近生成企业必须分析的数据。

在为人工智能增强的未来做准备时,IT必须考虑很多架构和部署选择。其中最主要的是人工智能加速硬件集群的设计和技术规格。由于其密度、可扩展性和灵活性,有前景的选择是超融合基础设施(HCI)系统。虽然人工智能优化硬件的很多元素高度专业化,但整体设计与更普通的超融合硬件非常相似。事实上,有些HCI参考架构是为与MLAI一起使用而创建。

人工智能要求和核心硬件元素

机器和深度学习算法都是基于数据。数据选择、收集和预处理(例如过滤、分类和特征提取)是影响模型准确性和预测价值的主要因素。因此,数据聚合(整合来自多个来源的数据)和存储是影响硬件设计的人工智能应用程序的重要元素。

数据存储和人工智能计算所需的资源通常不会统一扩展。因此,大多数系统设计将两者解耦,AI计算节点中本地存储被设计为足够大和足够快,以满足算法要求。

MLAI的主要用例

大多数AI系统在Linux虚拟机或Docker容器上运行。事实上,最流行的人工智能开发框架和很多示例应用程序都作为预封装容器映像提供(来自Nvidia等供应商)。主要应用包括以下:

  • 计算机视觉,例如图像分类、对象检测(在图像或视频中)、图像分割和图像恢复。
  • 语音和自然语言处理、语音识别和语言翻译。
  • 文本到语音合成。
  • 推荐系统,根据之前的用户活动和参考资料提供评级和建议的个性化内容或产品。
  • 内容分析、过滤和审核。
  • 模式识别和异常检测。

这些在各种行业都有应用,包括以下示例:

  • 金融服务公司的欺诈分析和自动交易系统。
  • 在线零售个性化和产品推荐。
  • 实体安全公司的监控系统。
  • 石油的地质分析,天然气和矿业公司的资源开采。

机器和深度学习算法需要大量的矩阵乘法和累积浮点运算。这些算法可以并行执行矩阵计算,这使得ML和深度学习类似于图形计算,例如像素着色和光线跟踪等(由GPU显著提速)。

然而,与CGI图形和图像不同,ML和深度学习计算通常不需要双精度(64位)甚至单精度(32位)精度。这通过减少计算中使用的浮点位数来进一步提高性能。早期的深度学习研究在过去十年中使用了现成的GPU加速器卡。现在,像英伟达这样的公司拥有针对科学和人工智能工作负载的单独数据中心GPU产品线。

最近,Nvidia宣布推出新的GPU系列,专为提高台式机和笔记本电脑上的生成性人工智能性能而设计。该公司还推出了一系列专门建造的AI超级计算机。

系统要求和组件

对人工智能性能最关键的系统组件如下:

  • CPU负责操作虚拟机或容器子系统,将代码发送到GPU并处理I/O。当前产品使用流行的第五代 Scalable Platinum Gold处理器,尽管使用第四代(RomeAMD Epyc CPU的系统越来越受欢迎。当前一代CPU增加了显著加快ML和深度学习推理操作的功能,使其适合利用以前使用GPU训练的模型的生产AI工作负载。
  • GPU处理ML或深度学习培训和推理基于学习以自动分类数据的能力。Nvidia通过其EGX系列提供专门构建的加速服务器。该公司的Grace CPU在设计时也考虑到了人工智能,并优化了CPUGPU之间的通信。
  • 内存。AI操作从GPU内存运行,因此系统内存通常不是瓶颈,服务器通常有512 GB或更多的DRAMGPU使用嵌入式高带宽内存模块。Nvidia将这些模块称为流式多处理器或SM。根据Nvidia的说法,“Nvidia A100 GPU包含108SM40 MB L2缓存,以及80 GBHBM2内存中高达2039 GB/s的带宽。
  • 网络。由于人工智能系统通常聚集在一起以扩展性能,因此系统往往配备多个10 GbE40 GbE端口。
  • 存储IOPS在存储和计算子系统之间移动数据是AI工作负载的另一个性能瓶颈。因此,大多数系统使用本地NVMe驱动器而不是SATA SSD

GPU一直是大多数AI工作负载的主要组件,Nvidia通过Tensor Core和多实例GPU(以并行和NVLink GPU互连运行多个进程)等功能显著提高了其深度学习性能。

通过选择正确的配置和系统组件,企业可以使用针对AI的任何HCI或高密度系统。然而,很多供应商提供针对机器学习和深度学习工作负载的产品。以下是主要供应商的主要机器学习和深度学习系统参数:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐