高性能的 Linux 集群基础(下)

　　Linux 和集群如何改变了 HPC

　　在基于集群的计算技术出现之前，典型的超级计算机都是向量处理器，由于它们全部采用专用的硬件和软件，因此成本通常会超过一百万美元。

　　随着 Linux 和其他免费的集群开放源码软件组件的出现和常用硬件处理能力的提高，这种情况现在已经发生了很大的变化。您可以利用少量的成本来构建功能强大的集群，并能够根据需要来添加其他节点。

　　GNU/Linux 操作系统（Linux）已经在集群中得到了大量的采用。Linux 可以在很多硬件上运行，并且具有高质量的编译器和其他软件，例如并行文件系统和 MPI 实现在 Linux 上都是免费的。采用 Linux，用户还可以针对自己的任务负载对内核进行定制。Linux 是构建 HPC 集群的一个非常好的平台。

　　理解硬件：向量机与集群

　　要理解 HPC 硬件，对向量计算和集群计算进行一下比较是非常有用的。二者是互相竞争的技术（地球模拟器是一台向量超级计算机，目前仍然是最快的 10 台机器之一）。

　　从根本上来讲，向量处理器和标量处理器都是基于时钟周期来执行指令的；使它们产生区别的是向量处理器并行处理与向量有关的计算的能力（例如矩阵乘法），这在高性能计算中是非常常见的。为了展示这一点，假设您有两个双精度的数组 a 和 b，并且要创建第三个数组 x，比如 x[i]=a[i]+b[i]。

　　任何浮点操作，例如加法和乘法，都可以通过几个步骤来实现：

进行指数调整
添加符号
对结果进行取整检查等

　　向量处理器通过使用流水线（pipeline）技术在内部对这些步骤进行并行处理。假设在一个浮点加法运算中有六个步骤（与 IEEE 算术硬件一样），如图 2 所示：

　　图 2. IEEE 算术硬件中的六级流水线

　　向量处理器可以并行处理这六个步骤 —— 如果第 i 个数组元素是在第 4 个步骤中被添加的，那么向量处理器就会为第 (i+1) 个元素执行第 3 个步骤，为第 (i+2) 个元素执行第 2 个步骤，依此类推。正如您可以看到的一样，对于一个 6 级的浮点加运算来说，加速比非常接近于 6（在开始和结束时，这六个步骤并不是都处于活动状态的），因为在任何给定的时刻（图 2 所示的红色），这些步骤都是活动的。这样做的一大优点是并行处理都是在幕后进行的，您并不需要在程序中显式地进行编码。

　　对于大部分情况来说，这六个步骤都可以并行执行，这样就可以获得几乎 6 倍的性能提高。箭头表示了对第 i 个数组元素所进行的操作。

　　与向量处理相比，基于集群的计算采用的是完全不同的一种方法。它不使用专门优化过的向量硬件，而是使用标准的标量处理器，但是它采用了大量的处理器来并行处理多个计算任务。

　　集群的特性如下：

集群都是使用常见的硬件进行构建的，其成本只是向量处理器的很小一部分。在很多情况中，价格会低一个数量级以上。
集群使用消息传递系统进行通信，程序必须显式地进行编码来使用分布式硬件。
采用集群，您可以根据需要向集群中添加节点。
开放源码软件组件和 Linux 降低了软件的成本。
集群的维护成本很低（它们占用的空间较小，耗费的电力较少，对于制冷条件的需求较低）。

　　并行编程和 Amdahl 法则

　　当在集群上实现高性能环境时，软件和硬件就需要联合起来工作。程序在编写时必须要显式地利用底层硬件的优点，如果现有的非并行程序不能很好地在集群上运行，那么这些程序必须重新进行编写。

　　并行程序一次要执行很多操作。其数量取决于目前正在解决的问题。假设一个程序所花费的时间中有 1/N 是不能并行处理的，那么剩余的 (1-1/N) 就是可以并行处理的部分（请参看图 3）。

　　图 3. Amdahl 法则

　　从理论上来说，您可以采用无数的硬件来处理并行执行的部分，甚至在接近 0 的时间内完成这些任务，但是对于串行部分来说，这样做不会有任何提高。结果是，可以实现的最佳结果是使用原来的 1/N 的时间来执行整个程序，但是不可能再快了。在并行编程中，这个事实通常就称为 Amdahl 法则。

　　Amdahl 法则揭示了使用并行处理器来解决问题与只使用一个串行处理器来解决问题的加速比。加速比（speedup）的定义如下：（使用多个处理器）并行执行程序所需要的时间除以（使用一个处理器）串行执行程序所需要的时间：

　　T(1)
　　S = ——
　　T(j)
　
　　其中 T(j) 是在使用 j 个处理器来执行程序时所需要的时间。

　　在图 3 中，如果采用足够多的节点来进行并行处理，那么 T’par 就可以非常接近于 0，但是 Tseq 却不会变化。在最好的情况中，并行程序也不可能快到原来的 1+Tpar/Tseq。

　　在编写并行程序时真正困难的事情是使 N 尽量大。但是这件事情却有两面性。通常都是要试图在更为强大的计算机上来解决更大的问题，通常随着所解决问题的规模的增大（例如试图修改程序并提高可并行的部分来优化地利用可用资源），所花费在串行部分上的时间就会减少。因此，N 值就会自动变大了。

　　并行编程的方法

　　现在让我们介绍两种并行编程的方法：分布式内存方法和共享式内存方法。

　　分布式内存方法

　　此处我们考虑一种主从模式非常有用：

主节点负责将任务划分到多个从节点上。
从节点负责处理自己所接收到的任务。
如果需要，从节点之间会相互进行通信。

　　从节点将结果返回给主节点。

　　主节点收集结果，并继续分发任务，依此类推。

　　显然，这种方法的问题就产生于分布式内存的组织。由于每个节点都只能访问自己的内存，如果其他节点需要访问这些内存中的数据，就必须对这些数据结构进行复制并通过网络进行传送，这会导致大量的网络负载。要编写有效的分布式内存的程序，就必须牢记这个缺点和主从模型。

　　共享式内存方法

　　在共享式内存方法中，内存对于所有的处理器（例如 SMP）来说都是通用的。这种方法并没有分布式内存方法中所提到的那些问题。而且对于这种系统进行编程要简单很多，因为所有的数据对于所有的处理器来说都是可以使用的，这与串行程序并没有太多区别。这些系统的一个大问题是可伸缩能力：不容易添加其他处理器。

　　并行编程（与所有的编程技术一样）与其他科学一样，都是一门艺术，总会留下一定的空间来进行设计的改进和性能的提高。并行编程在计算中有自己特殊的地位：本系列文章的第 2 部分将介绍并行编程平台，并给出几个例子。

　　当文件 I/O 成为瓶颈时怎么办？

　　有些应用程序通常会需要从磁盘中读写大量的数据，这通常是整个计算过程中速度最慢的一个步骤。更快的硬盘驱动器能够帮助解决一些问题，但是有时这是不够的。

　　如果一个物理磁盘分区是在所有节点之间共享的（例如使用 NFS），就像是在 Linux 集群中经常采用的方法一样，那么这个问题就会变得更加明显了。此时就是并行文件系统的用武之地了。

　　并行文件系统（Parallel filesystem）将数据存放在分布在多个磁盘上的文件中，这些磁盘连接到集群中的多个节点上，这些节点称为 I/O 节点。当一个程序试图读取某个文件时，可以并行地从多块磁盘上分别读取这个文件的某些部分。这可以降低某个磁盘控制器上的负载，并能够处理更多请求。（PVFS 就是一个很好的开放源码并行文件系统；目前已经在 Linux 集群上使用标准的 IDE 硬盘实现了超过 1 GB/s 的磁盘性能。）

　　PVFS 可以作为一个 Linux 内核模块使用，也可以编译到 Linux 内核中。底层的概念非常简单（请参看图 4）：

元数据服务器负责存储文件的哪些部分存储在什么地方的信息。
多个 I/O 节点上存储了文件的各个部分（PVFS 底层可以使用任何常见的文件系统，例如 ext3 ）。

　　图 4. PVFS 是如何工作的

PVFS

　　当集群中的计算节点想要访问并行文件系统中的一个文件时，它需要执行以下步骤：

　　像平常一样请求文件，请求被传送到底层的 PVFS 文件系统中。

　　PVFS 向元数据服务器发送一个请求（图 4 中的步骤 1、2），这会通知请求节点有关文件在各个 I/O 节点上的位置的信息。

　　使用这些信息，计算节点直接与所有相关的 I/O 节点进行通信，获得整个文件（步骤 3）。
　
　　这些步骤对于调用应用程序来说都是透明的；底层对所有 I/O 节点发出请求的复杂性、获取文件的内容等等，都是由 PVFS 处理的。

　　有关 PVFS 有一件好的事情：不需做任何修改就可以在其上运行普通文件系统的二进制形式 —— 这在并行编程领域多少是个例外。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

作者

: Aditya Narayan

取消回复

作者

Aditya Narayan

相关推荐

Nvidia收购Mellanox以应对日益激烈的人工智能、数据竞争

数据中心GPU市场将增长，用于AI工作流程

托管OpenStack私有云能够获得支持or单打独斗？

聚焦超算发展 Intel助力人才培育