多节点服务器具备诸多优势,尤其是单位空间内集成了更多的处理器及I/O设备,极大降低了用户的空间使用成本并显著提高了整体计算能力,但高度集成化的负面结果就是内部结构更加复杂,系统稳定性受到严重挑战,内部散热问题也趋于严重化,维护和管理也更加复杂。如果没有相关的技术革新,每个服务器故障都需要用户关闭系统、断电解决,该是多么可怕的事情?
我们知道,在服务器里可实现热插拔的部件主要有硬盘、CPU、内存、电源、风扇、PCI适配器、网卡等。购买服务器时一定要注意哪些部件能够实现热插拔,这对以后的工作至关重要,最重要的就是支持24*365不间断运行,以便保证商业网站、电信系统、银行系统等的持续运转。
首先,RAID技术、UPS、风扇冗余等都是为了在相关部件出现故障时,保证用户能够在系统正常运行的同时,进行在线维护。而热插拔是指在系统到店的工作状态下,将模组、卡或连接器查到系统上,而不影响系统的操作。
实现热插拔需要有以下几个方面支持:总线电气特性、主板BIOS、操作系统和设备驱动。那么我们只要确定环境符合以上特定的环境,就可以实现热插拔。通常来说,一个完整的热插拔系统包括热插拔系统的硬件,支持热插拔的软件和操作系统,支持热插拔的设备驱动程序和支持热插拔的用户接口。
热插拔的目的是将高的瞬间电流控制在一个比较低而且合理的水平。其实现方法有几种,其中使用PTC(正温度系数的热敏电阻),是最简单的方法。PTC依靠本身的电流发热改变阻抗,从而降低瞬间电流的幅度,其缺点是反应速度慢,而且长时间使用会影响使用寿命。MOS管电流检测电阻加上一些简单的电阻电容延迟线路的方法成本低,比较适于低端用途。最好的方法是采用热插拔芯片,通常该芯片包含一个驱动MOS设计和电流检测电阻,它除了做基本热插拔之外,还可以提供特殊功能,如控制电流上升速率、做断电器、电源管理以及状态报告等,能够提升系统的工作状态。
但是内存要实现热插拔,就远不止这么简单。于是那些不安分的巨头服务器商就开始了自己的内存热插拔技术的研究,相继出台了这样和那样的技术,不过比起比起传统的ECC技术来说,性能是提高了不少。
总之,在机箱中使用热插拔,可以在开机的情况下做更新或扩容而不影响系统操作;并且,由于热插拔零件的可靠度提升,还可以将它们用做段电时的处理,使硬盘等部件不至于断电或损坏而机器整机关闭,以便系统做故障分析,减少成本。
,