不管是通用微处理器还是专用微处理器乃至异构微处理器,都已经进入多核时代,通过多核技术提高处理能力,同时降低电能消耗已成为微处理器的必然选择。
随着半导体细微化进程,提高芯片性能和减少电能消耗成为一对矛盾。之前的单核处理器主要通过提高指令的并行运算速度来提高器件性能,具体方法包括使用超标量、超级流水线和乱序执行等技术同时进行处理以及通过超长指令字的指令集结构来提高并行运算性能。这些复杂的计算处理耗用大量晶体管资源,使得微处理器在电能的消耗上一直无法降低,而多核结构的设计思路是通过减少并行处理,适当地降低每个核的工作强度来降低整个处理器的耗电。
一年来,多个厂商已经或计划推出一批多核处理器。在通用多核处理器上,有IBM的Power X Cell 8i、Sun公司的Rock处理器、富士通的 SPARC64 VII、英特尔i7、Tukwila和AMD的 Shanghai四核处理器和我国的龙芯-3 等。它们有4至9个核。此外,在专用多核处理器上,有美国思科公司推出的40核的数据包处理器。美国NVIDI公司市售的240个核的GTX200线程处理器,处理能力到达同时执行300个线程。英特尔公司去年4月公布了多核图像处理器Larrabee。还有美国Tilera公司的拥有64个内核的嵌入式微处理器等。以上专用式多核处理器都有几十个核到上百个核。
消费市场,情形类似,目前市场上销售的个人电脑或服务器其处理器大多集成有2个内核,4核架构的也已经上市。近来,多核微处理器已开始进入通信和家用电器领域,可以说,多核微处理器将成为今后的潮流。
通用多核处理器:众厂商各展其长
IBM的PowerXCell8i处理器是新一代的Cell多核处理器。值得一提的是,目前世界上运算速度最快的超级计算机Roadrunner就采用了这款处理器。
PowerXCell8i采用了Cell Broadband Engine(Cell宽带引擎)结构,包括1个Power处理器PPE和8个优化的增强双精度(eDP)SIMD引擎,即协处理器SPE,PPE核旨在运行操作系统和协同计算,8个SPE核及其SIMD执行单元可提高固定点算法的性能。每个IBM PowerXCell8i处理器的二级缓存为 512KB,每个eDPSPE的本地存储器容量为256KB。IBM的PowerXCell8i多核处理器的双精度性能是上一代Cell宽带引擎处理器的5倍。它的多核架构和超高速通信功能大幅度地提高了实时响应速度。结合先进的多处理技术,该处理器特别适合于高性能工作负载。PowerXCell8i处理器采用了非对称多核结构,非常适合于并行处理和流处理应用程序。与无法高效处理流处理应用程序的基于缓存的对称多核结构不同,PowerXCell8i处理器是专为提供较高的性能和快速响应而设计的。
由于PowerXCell8i提供了一种经济型的超级计算能力,因此可用于高性能服务器和大型计算机之中。当前世界上运算速度最快的计算机的运算速度是每秒可进行1105万亿(petaflop)次的浮点运算,其异构集群结构中就大量采用了这款处理器。
Sun公司16核的Rock处理器拥有尖兵线程(Scout Thread)和事务型内存。前者是用于收集数据而先执行的线程。Rock处理器采用的是一种指令型的并行处理,是由软件来实现的。它可节约收集数据的时间。处理器在进行计算时会遇到一些迟延时问较长的运算,例如缓存的Miss hit(没有命中,脱靶)和除法运算。这时尖兵线程就可以先进行数据收集等处理过程。当完成了这些延时较长的计算时,尖兵线程就可将结果反映给寄存器,随后继续进行下一个处理。事务型内存将一连串的存取操作作为“事务”进行管理,避免了资源竞争并且易于进行并行处理。其设计理念是采用了锁相控制模式,阻止软件的多线程同时访问共享数据区(即一个线程正在使用某数据时,其他线程不得更改该数据),从而使一个单线程将仅找到唯一的数据堆栈,保障了多线程处理的一致性,因而利于进行高速连续处理。由于上述原因,这款Sun处理器加强了乱序执行能力,提高了单线程的功能。
英特尔发布的Dunnington6核Xeon7400处理器, 使用1.07GHz前端总线,单核1级缓存为96KB,每一对核的2级缓存为3MB。在单芯片上的3级缓存为16MB,由19亿个晶体管组成,工作频率 2.66GHz时功耗为130瓦;工作频率2.13GHz时,拥有12MB的3级缓存的Xeon7400处理器功耗为65瓦。
日本富士通公司推出了4核通用微处理器SPARC64 VII。每个核的一级缓存64KB、二级缓存6MB。该芯片的速度最高为40GFlops,采用65纳米工艺生产。
2008年11月,AMD推出使用SOI衬底的45纳米工艺的4核处理器Shanghai。Shanghai内部3级缓存容量达6MB,二次缓存为2MB,工作频率达到3.0GHz,并且支持新的HyperTransport 3.0高速互连技术,各核之间带宽可达17.6GB/s。采用液浸光刻制造,内存支持DDR2-800规格,通过与以前的“Barcelona”内核产品实现引脚兼容,因此可以继续使用原来的设计资源,性能与原产品相比提高了约10%。
我国中科院计算所等单位开发的龙芯-3(Godson-3)的4核版本在2008年底完成了流片,八核版本计划在2009年进行流片。4核与8核版本的Godson-3都采用65纳米工艺,4核的时钟速度为1 GHz。设计采用分布式可扩展的架构,具有可重构的CPU核及2级缓存。该器件主要针对低功耗类电子产品。4核的功耗为10w,而8核为30w。采用 MIPS64核,还有200多个额外指令用于X86二进制翻译和多媒体加速。我国正在研发的1000万亿次高性能计算机“曙光6000”的计算部分已决定采用8核龙芯处理器。
专用处理器:思科、英特尔、Tilera角力
思科多核处理器ASR1000有40个核,由3.7亿个晶体管组成,集成有接收消息的协处理器、密码处理电路和数据包检测电路等。由于数据包的管理和防火墙处理都通过硬件来实现,从而提高了其工作的可靠性。ASR1000每个核有16KB的8路一次指令缓存和4KB的8路一次数据缓存,还有二级指令缓存。
美国Tilera公司推出了两款拥有64个内核的嵌入式微处理器,工作频率分别为700MHz和866MHz。其中866MHz的产品处理能力为每秒 221b次运算(1b为1万亿,即10的12次方),为前一代产品的两倍。其性能是美国Intel公司3GHz的“Xeon处理器7350”的35倍,可用于网络安全、数字视频、网络基础设施及无线通信基站和无线网络基础设施。
英特尔双核凌动处理器芯片Atom 330主频为1.6GHz,前端总线频率FSB 533MHz,处理器拥有1MB缓存,每个核各512K,处理器外表与单核Atom相同。Atom 330支持四个线程,与之前的单核Atom 230功耗4W相比,其设计功率为8W,支持64位计算; 可支持英特尔的945GC Express芯片集(其中包括内置显卡)或者Little Falls2芯片集。该处理器已大量用于手机和上网笔记本中,是2008年英特尔销售最好的处理器之一。
日本瑞萨科技开发出了有两个32位CPU内核“SH-4A”的双核处理器SH7786 Group。时钟频率最高533MHz,指令执行速度达到1920MIPS。两个内核配备有可在最大时钟频率533MHz下工作的浮点运算器。浮点运算性能最大为7.46GFLOPS,主要用于需要高级多媒体处理的车载信息设备等。
多核异构处理器:集成图像处理器成新方向
同构多核处理器具有局限性。根据Amdahl定律,由于受到必须逐次执行软件的限制,即使通过增加同种CPU内核数量,多核微处理器并不能相应地提高数据处理量。例如,按照Amdahl定律,如果将微处理器数目增加16倍,假设软件中必须依次执行的比例占20%时,处理量最多只能提高至4倍。这还是简化了计算所得到的结果,并没有考虑为确保缓存一致性而保持的同步动作,以及多个内核集中访问主存时所需的等待时间等因素。因而处理量不一定能提高4倍,特别是服务器经常同时面对多个处理要求,如果各个处理所涉及的数据相互独立,其逐次执行的部分会很少。正是在这种情况下,多核异构处理器异军突起。
此外,动态和静态图像分析以及信号处理等新的应用,推动了多核异构处理器的发展。这方面的典型就是AMD公司。AMD公司率先提出 Fusion方案,将多个同类型的CPU内核和图像处理器GPU或其他各种内核集成于一块芯片中,形成多核异构结构,由此大幅度提高了多核处理器的图像处理功能和其他功能。Fusion方案要求,由第三方提供的各种加速器电路必须支持AMD公司的HyperTransport标准,这样就能实现多核结构之间的存储器共享。多核异构处理器除了GPU还可同时集成信号处理等其他专用系统的内核。
另一个发展方向是,利用图像处理器GPU擅长浮点运算的特点,将其用于并行处理,即把它作为矢量处理器。这一被称做GPGPU的理念的实质就是将图像处理器用于通用计算(General Purpose Computing on GPU),美国NVIDIA公司是这方面的先驱。究其原因是近年GPU理论上的浮点运算性能已经大大超越了通用处理器。NVIDIA公司的GeForce 8800 GPU浮点运算性能的最大值已达500GFLOPS。该公司取消了集成多个专用电路的方案,而转向使用集成多个通用运算单元,来执行图形处理流水线中的各级处理,于是,除了图形处理以外,这种具有新架构的GPU也能方便地应用于其他领域。也就是说,可将GPU作为优化了浮点运算的矢量处理器。目前,这种集成了图像处理器的异构多核微处理器已成为通用多核处理器的一个新的发展方向。美国苹果公司、英特尔公司和前面提到的AMD、NVIDIA等公司正在联手打造标准化的平台“OpcnCL”,计划于2009年6月推出首个产品。
日本把开发用于家电和汽车的多核处理器作为国家项目,纳入其“半导体应用芯片计划”。从 2005年至2007年该项目获得4000万美元的投资,其15个子课题有9个己完成,核心项目是由早稻田大学牵头的低功耗多核处理器通用并行处理技术标准API。早稻田大学笠原教授率领日立、瑞萨、富士通、东芝和松下等公司科研人员,确定了上述技术标准“OSCAR API”,并且成功利用大型计算机的并行处理技术,开发家电专用低功耗多核微处理器。经早稻田大学研究,采用家电专用多核微处理器进行视频压缩,双核处理能力为单核的1.9倍,4核为单核的3.6倍,8核为单核的6.0倍。
此外,日立和瑞萨开发出用于MPEG2图像处理的8核处理器,其功耗比同等的单核处理器降低73%。富士通和NEC也开发出了可降低某核工作电压或将其关断的多核处理器。目前,日本的多核微处理器大多采用了多核异构结构。另外,上述各公司还配合通用API,开发出适于自己产品的专用编译程序。
最后应指出的是,芯片上配备更多内核后,总线很可能成为提高系统性能的瓶颈,因此连接多个内核的接口自然地成为关注点。AMD的HyperTransport 3.0和英特尔的Quick Path技术都是用于解决这一问题的。可以说,总线已成为提高多核处理器计算性能的关键。
链接:ARM与英特尔争夺手持设备市场
根据市场研究机构预测,在2008年的11月、12月和今年的1月,微软在上网本市场占有明显优势,占据了80%~90%的份额,这个数字的背后是微软的家用基础版XP加上英特尔的低功耗Atom处理器。但是,一股新的势力正在酝酿,这就是Linux加ARM的微处理器架构,ARM已经明确表示要进入上网本市场。
ARM是一家总部位于英国、出售芯片技术授权的公司,它从事芯片的设计、授权、销售,其产品主要用于智能手机等手持设备,亚马逊著名的电子阅读器Kindle 2中用的就是ARM的处理器。ARM处理器以功耗低、电池使用周期长以及成本低而受到广泛赞誉。
正是基于上述原因,ARM正在设法与Qualcomm、NVIDIA、TI 甚至Apple合作,争取将它的CPU打入新兴的上网本市场。ARM市场副总裁Ian Drew表示,今年下半年就会有采用ARM处理器的上网本上市,不过,他没有透露到底是哪个电脑生产商提供。
而英特尔显然不满足于目前它的Atom在上网本市场取得的成绩,正在设法抢占属于ARM的手持设备以及移动互联网设备市场。到目前为止,Atom芯片已经进入低成本的笔记本市场(如上网本)和其他移动互联网设备(即MID市场),另外还有智能手机。英特尔表示,它准备在Atom芯片上集成更多的功能,以将它打入一些新兴市场。
日前,英特尔公司公布了四款Atom芯片,将分别用于汽车、视频会议、机器人以及交互信息台。英特尔说,这些芯片都具有低功耗的特点,而且具有非常好的多媒体功能和高带宽的互联网连接能力。其中,Z500系列Atom处理器只有一枚硬币大小,无需风扇,工作在1.1GHz~1.6GHz的频率上,功率消耗不到2.5瓦,还集成了2D和3D图像处理功能,而且就采用现有的45纳米制程工艺生产。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
英特尔副总裁:微处理器将阅读人情感并做出反应
英特尔公司高管Eden在2014年消费者电子展上表示,按照当前计算机行业技术创新水平判断,在接下来的10年间,微处理器中晶体管的数量将超过人大脑中神经元的数量。
-
2014年AMD求变 微处理器或成未来发展方向
英特尔和AMD可以说是一对宿敌,二者从消费领域到服务器领域都有产品竞争。然而,如今二者的地位受到了ARM这个后起之秀的挑战,处理器市场的竞争也进入了白热化。
-
e2v发布首款适用于太空应用的GHz级微处理器
e2v推出世界上首款适用于太空应用的GHz级Power Architecture PC7448版本微处理器,该处理器可集成到适用于太空应用的设备上。
-
iSuppli:2013年微处理器正值发展佳期
iSuppli调查报告显示,今年的微型服务器的出货量可达29.1万台,比2012年的8.8万增长了230个百分点。