您的位置:奥门新浦京网址 > 奥门新浦新京官方网站 > 数据中心技术措施,数据中心运营计划

数据中心技术措施,数据中心运营计划

发布时间:2019-10-14 18:27编辑:奥门新浦新京官方网站浏览(131)

    选购DCIM的四项“基本原则”

    如果是购买几台x86服务器或其他常用的IT设备,大多数企业用户想来不会犯怵,因为用得多、见得多,所以都大致知道该去参考哪几项关键配置或参数。然而,换做我们今天谈的DICM,情况就可能没那么乐观了。

    那么,有没有一些关键指标可供人们评估和选择DCIM解决方案?答案是有的。本文就试图为用户准备一张神奇的清单,用户可以带着它去“拷问”自己的DCIM供应商。

    需要特别说明的是,本文核心内容节选自施耐德电气第170号白皮书——《避免评估与实施DCIM解决方案过程中的常见误区》,在此向该白皮书作者、施耐德电气数据中心科研中心高级研究员Patrick Donovan表示感谢。

    四项基本原则

    对于IT解决方案而言,通常来说“没有最好,只有最适合”,因此不同的用户基于需求和预算的不同会做出不同选择。尽管如此,施耐德电气认为,无论是何种规模的用户,还是要确保所采用的DCIM解决方案最好能够符合DCIM技术发长期展趋势,能够无缝扩展并继续应用于下一代数据中心,同时无需大幅更改数据中心的现有运行方法和流程。

    基于上述思路,施耐德电气提出以下四个评估DCIM的关键指标

    可扩展的、模块化的和灵活的系统

    开放式通信架构

    标准化、预制化设计

    积极的供应商支持结构

    1.可扩展的、模块化的和灵活的系统

    模块化和可扩展性的优势不难理解,即要支持“边成长边支付”的扩容模式、具有更强大的容错能力以及更短的平均故障恢复时间等。

    灵活性的重要性在于,即使数据中心在未来发生演进和变化,软件套件仍能继续保持其效用。如果软件的扩展或升级非常困难且/或成本高昂,那么随着兼容问题的出现或功能的丧失,软件极有可能被淘汰。

    以下列出了一些可用于询问供应商的推荐问题,这些问题可帮助您确定他们提供的产品是否具备以及在多大程度上具备可扩展性、模块化特性和灵活性。

    1.进行产品升级和增加许可证的成本和流程是怎样的?

    2.进行升级时是否必须由厂商提供升级服务?还是我自己安装一个补丁或更新即可?

    3.我是否可以只选择目前需要的工具,以后再增加其他工具?还是我必须现在就购置并安装全套产品?

    4.产品扩展对我现在的运行流程会产生怎样的干扰?

    5.是否可以对报告工具和结果进行定制,以满足我公司利益相关者的需求?

    6.在系统中增加/删除IT 系统和基础设施组件的难度有多大?

    2.开放式通信架构

    这一特性指的是系统能够通过各种不同的标准通信协议与第三方设备和软件进行交互。性能出色的DCIM 系统要求获得全面而且准确的电力、制冷、空间和IT 资源使用状况视图,同时还需要(最好是实时)了解它们之间的相互依存关系。这些先进的现代化系统能够主动搜集所有必要数据,为用户进行规划和做出运行相关决策提供良好的依据。举例来说,如果DCIM 软件无法与某个特定的制冷单元或UPS 通信,它将无法准确判断其容量水平或当前的状态。从而使用户很难或根本不可能实时做出理想的规划决策。如果通信能力有限,则将难以准确回答所有的重要问题,包括应将下一个服务器放置在什么位置,供电/制冷容量将在何时耗尽,或某个更改将对系统产生什么影响等。

    以下对供应商的调查问卷,可帮助您确定某个特定解决方案在多大程度上能够提供IT系统和设施系统的完整视图。

    1.要求供应商提供他们支持的所有协议的清单。

    2.将此清单与需要管理的设备和系统所支持的协议进行比较。

    3.说明可使用的API(应用编程接口)的分类或列出所有现在使用的API 以及典型用途举例。

    4.要求供应商说明DCIM 服务器和其他在用管理系统(如BMS 或 VM Manager)之间分享和/或接收数据必须遵循的流程。

    3.标准化和预制化设计

    标准化设计意味着系统的构建是基于以前的实践经验和经过实地检验和认可的最佳实践。预制化设计则意味着大部分旨在支持软件与电力、制冷和IT 系统通信并解读这些系统的输出数据的复杂编程工作已经全部完成。

    简言之,我们应当避免使用基于“一次性专用”设计的高度定制化管理系统和软件。但是,标准化和预制化并不意味着系统不可以定制。事实上,一个设计精良的模块化系统应当能够在不影响整体系统完整性的前提下通过改造工具包来适应特定的需求。

    以下列出了为判断系统的标准化水平而需要向供应商询问的问题。

    1.解决方案是否采用了一个开放的通信架构?

    2.解决方案是否采用了一个可扩展的模块化架构?

    3.安装解决方案之后需要完成多少配置或编程工作?请说明安装和运行解决方案时必须具备哪些资源(知识、技能、时间等)。

    4.DCIM 服务器能否自动发现包括第三方设备在内的网络设备并对其进行分类?

    5.我能否轻松地将我的DCIM 系统复制到其他地点?

    6.软件的默认设置是否基于最佳实践和实际使用经验?

    4.积极的供应商支持结构

    如同评估任何一种企业级软件一样(+本站微信networkworldweixin),我们也应对DCIM 供应商的总体能力和支持结构进行评估和比较。

    解决方案安装完毕之后,这些特质会直接影响其长期有效性。供应商在DCIM 市场的投入力度、在行业组织中的活跃程度和协作以及设施与IT 系统之间的交互范围都能显示出用户将获得的长期支持服务的质量和数量。用户应当确信供应商能够在数据中心的整个生命周期之内始终为其提供支持,而且管理系统也将不断更新并在确保干扰最小化的前提下适应不断变化的技术趋势或商业条件。许多供应商都提供这些系统的安装、配置、培训、甚至运行服务。这些服务的范围和成本是在评估阶段需要额外考虑的一个问题。特别是对于那些工艺流程不够成熟、缺乏资源或缺乏必要的知识来自行完成管理的企业组织,这些软件服务可能是确保充分发挥DCIM 系统功能和价值的正确方法。

    1.以下列出了一些可帮助您判断供应商支持服务的级别和质量的问题。

    2.供应商是否支持广泛使用的开放通信协议,以确保解决方案能满足未来需求?

    3.供应商是否建立了面向DCIM 市场的长期战略,或他们仅仅是一个拥有短期市场侧重点和市场退出战略的初创企业?

    4.供应商是否以当地语言提供本地支持,以实现对问题的快速有效响应?

    5.供应商的支持问题上报流程是怎样的?DCIM 安装和运行服务代表是否接受过良好培训?

    6.供应商是否提供DCIM 系统安装、配置、培训和运行服务?

    此外,有效的DCIM 解决方案确实能够将其简化和理顺,并提供一个清晰的数据中心系统视图,但是,这一功能的实现还取决于操作人员能否做好他们自己的工作,即遵循正确的流程来安装、运行和维护DCIM 系统。即使是最优秀的解决方案也需要采用完善的管理流程。流程不完善是导致无法获得DCIM 预期效能的一个常见原因。

    关于如何建立建立、实施和长期维持关键流程,有以下六个基本建议:

    1. 向供应商了解安装和运行某个解决方案需要具备哪些流程和资源;

    2. 将此要求与自身现有的能力和资源进行比较,确定需要新建或增加哪些流程或资源;

    3. 如果无法开发新的流程或增加更多资源(参见误区3),则应选择一个与当前能力相匹配的解决方案;

    1. 正式定义新的流程(何人、何事、何时、何地), 请管理团队分配资源并指定流程负责人;

    2. 重点关注资产管理、系统配置、利益相关者报告和报警集成流程;

    6. 从“小规模部署”开始,在开始时只为数据中心的一个小区域(如一个机柜行、区域部署或机房)部署某几个DCIM 功能,然后在此基础上逐步扩展。


    图片 1


    如果是购买几台x86服务器或其他常用的IT设备,大多数企业用户想来不会犯怵,因为用得多、见得多,所以都大...

    数据中心运营计划的基本原则,数据中心运营计划

    企业需要为数据中心成功的运营制定一个有效且适应性强的计划,需要采取具体的原则来指导IT人员全面考虑其运营目标以及如何实现这些目标。但很多企业的数据中心运营的规划与努力绝大多数是放在结构设计和开发方面,而在初始目标完成后,往往却忘记其最终目标是什么。

    如今,人们越来越关注数据中心运行的重要性。为了提高数据中心运营规划水平,人们需要记住以下五个基本原则:

    图片 2

    原则一:经验是最好的老师

    就像生活中许多重要的事情一样,工作人员需要回想一下自己在职业生涯中犯了哪些运营错误,将如何避免,并让这些经验教训为今后的运营工作奠定基础。在某些情况下,这可能意味着企业的工作人员没有有效地运行设备,或者供应商的服务没有到企业的要求。无论如何,以往支持关键任务环境的经验使人们认识到,数据中心的卓越运营是一个全面和持续的过程,它反映在以下几方面:

    • 高效的设施设计。
    • 有效的移交后和正在进行的培训。
    • 采用合适的工具。

    原则二:从运营人员的角度出发进行设计

    有效的运营计划始于操作人员的头脑开始,或者更简单地说,"需要的成功是什么?"虽然这个问题似乎可以给出一个简单的答案,但是通常会发现这通常是一些配套查询答案的汇编。

    显然,数据中心设施本身需要进行优化,以加强有效的维护和故障排除。换句话说,Tier III级数据中心的并发可维护性必不可少,这是至关重要的。其程序本身应该简单明了,这是出于运营工作人员的角度出发,而不是工程师。日本质量管理专家推出的一个术语Poka Yoke(防误防错)更好地描述了制定流程和程序的最终目标。这是一个在工作过程中采用自动作用、报警、提醒等手段防止运营人员疏忽或误操作而出现失误的方法,它意味着可以最大程度地减少人为错误。而对于这样的情况,当超过70%的中断仍然可以追溯到是运营人员失误的时候,那么在整个简化过程中还有很长的路要走。

    行动的持续性应该被接受和适应。如果没有其他原因,平均数据中心每3-5年进行一次硬件更新,那么数据中心就是一个动态的环境,"一直这样做"并不能完全达到持续改进的目标。反馈环路证明了消除不必要步骤的有效机制,并确定了执行操作的更有效的方法。

    原则三:灵活性和控制

    灵活性和控制虽然看起来很宽泛,但这个概念真的很简单。特别是供应商的人员活动安排必须与企业工作节奏保持一致。运营要求必须围绕企业的具体需求来执行。同样的原则也适用于运营人员和安全的人员配备水平。

    原则四:培训和认证

    培养人才是一个持续改进的目标。不断提高专业知识水平不仅可以激励工作人员,还提高了工作人员的整体技能水平,确保运营的可靠性。

    培养一个更加自信、更有能力、更有效的运营维护人员的方法需要一个基于角色的培训计划,其中包括:

    • 正式的课程。
    • 客观的衡量理解。
    • 不断更新和完善的持续流程。

    这一方案的客观目标应该是建立在不断提高的认证水平的"主题专家"基础上:

    • 过程上的困难
    • 重要性
    • 性能

    原则五:专注于消除错误

    在以往,技术人员一手拿着手电筒,另一手拿着技术手册试图诊断和修复设备问题,这样的维护方法不利于快速有效的解决问题,但这代表了许多现有的数据中心标准的运营和维护模式。显然,在这种情况下,带来人为错误的机会是无数的。

    有许多方法可以实现这个目标。一种方法是使用将所有的程序转换成数字清单这样的技术解决方案。通过平板电脑和手机进行访问,其中包括有关危险步骤的警报、访问视频、图像和文档以供现场参考,技术人员在执行操作每个步骤之后,并且在进行到下一步之前必须确认完成,这种操作大大减少了人为错误的可能性。

    结语

    对数据中心的运营进行规划是数据中心流程的一个关键且经常被忽视的因素。有效的业务流程和程序并不是严格遵守过去的运营模式的结果。要为数据中心的成功运营制定一个有效且适应性强的计划,需要采取具体的原则进行指导,需要IT部门全面考虑其运营目标,以及需要实现这些目标进行努力。

    企业需要为数据中心成功的运营制定一个有效且适应性强的计划,需要采取具体的原则来...

    消除数据中心热点的各种技术措施,数据中心技术措施

    Uptime Institute的一项调查研究显示,高达十分之一的机柜运行在温度高于设备可靠性指导原则所推荐的允许范围。目前数据中心的机柜功率密度不断攀升,平均每台机柜的功率密度达到5kW甚至更高,因此,预计受热点困扰的机柜数量将与日俱增,很快超过上述比例。

    如果热点迟迟无法消除,时间一久便可能带来严重的威胁,不仅危及IT设备的可靠性与性能,还会影响硬件制造商的保修或维护协议。因此,数据中心运维人员需尽早采取有效措施,避免出现此类风险。

    图片 3

    1. 什么是热点

    许多IT专业人员经常查看热通道的温度,或在冷通道的错误位置查看温度,一旦发现温度过高,便自认为发现了热点。然后,他们会采取各种应对措施,但结果可能令人失望,非但未能消除热点,反而引发更多的热点。搞清究竟什么是热点、热点的根本起因以及如何识别热点对于根除热点至关重要。

    (1) 热点的定义

    不能将数据中心内随机测得的任何高温点都视作热点。我们将热点定义为:当IT设备进风口的温度高于ASHRAETC9.9所推荐的期望值,即视作热点。一般机柜顶部的位置最容易产生热点。美国供热、制冷与空调工程师学会(ASHRAE)的热指南给出了服务器进风口处温度的推荐值及允许值范围。

    (2) 热点产生的根源

    数据中心所安装制冷装置的制冷量经常供大于求,特别是当制冷量完全由IT设备“铭牌”上的额定值所决定。倘若如此,那么为何还会出现热点?究其原因,热点的产生并非是制冷量不足或热负荷过大,而是制冷量未能得到充分的使用,换句话说,制冷量是充足的,但未能在需要制冷的区域提供充分的制冷量,这是由于缺乏气流管理所造成的。

    图1是一个制冷量未被充分利用的例子,这是来自施耐德电气对一个真实案例的研究。图中显示了一个采用房间级制冷的传统典型数据中心,它的高架地板和吊顶用作送风和回风通道。机房空调先是以一定的压力和速度将冷风送入地板通道。然后,冷风通过高架地板中的穿孔地板(占机房空调气流的54%)和地板上线缆切口(占机房空调气流的46%)从地板通道进入IT空间(即泄漏气流)。

    地板上线缆切口的泄漏气流会导致制冷量的损失,因为气流无法到达IT设备的前方,而是绕过了设备。事实上,这些气流并未带走任何热量,而是又绕回到制冷单元。

    通过穿孔地板的大部分气流(占穿孔地板风量的96.29%)都流经IT机柜中的设备,但由于缺乏气流管理,并非全部气流都通过设备。一小部分冷风(占穿孔地板风量的3.71%)绕过IT设备又返回到制冷单元。与泄漏气流相同,这些旁通气流也会造成制冷量损失。同时,某些“亟需冷却”的IT设备无法获得足够的冷量,而不得不从机柜后部吸入设备排出的热风(占IT气流量的7.15%),这经常在“亟需冷却”的IT设备的前方造成热点。简而言之,用于减少气流泄漏、旁通与再循环的措施将有助于热点的消除。

    (3) 如何识别热点

    尽早发现热点对于防止IT设备过热和故障至关重要。我们可以通过以下三种方法发现热点:

    • 最简单、最经济的热点检测方法就是在数据中心内来回巡视,将手放于机柜前部,感觉温度。如果温度较高,则说明存在热点。这种方法的准确性最差,但对于极为明显的热点颇为有效。
    • 手动测量法较为准确,因为仪表可以更准确地测出温度值。此类仪表包括塑料温度贴条、枪式测温计和FLIR红外热像仪。手动测量被认为是一种经济且颇为有效的热点检测方法。尽管如今的红外热像仪售价高达300美元。数据中心运维人员可以利用这些仪表在服务器进风口和机柜的前门位置测量温度值以及测量服务器进风口和排风口间的温差(即服务器的ΔT),以便发现热点。
    • 自动监测被誉为热点识别的最佳方法,可以显示实时数据,说明服务器或数据中心的制冷状态。数据中心物理基础设施管理(DCIM)解决方案的自动监测装置可在系统达到某个阈值时,通过电子邮件或短消息向相关人员发出实时警报。借助DCIM软件,您可以按照自己的具体要求查看每台设备进风口和排风口的实际温度。施耐德电气的StruxureWareTM就是一款典型的数据中心基础设施管理软件,它可以利用从已安装的传感器网络收集到的实时数据来提供详实的三维热分布图。这种方法的精确度最高,但成本也最高。此外,IT设备一般配有内置热传感器,可以监控其热状态并利用IPMI协议报告热点。

    其他有助于识别或预防潜在热点的建议包括利用计量型机柜式PDU识别并检查高密度(功率密度在5kW以上的)机柜——因为这些机柜出现热点的可能性更高。在决定进行移动、添加和更改机柜操作后或在数据中心设计阶段,利用CFD软件预测热点。CFD模拟技术可以提供机柜前部温度与压力云图以及机柜周围气流分布的详细三维分析,从而发现潜在热点。该工具的强大之处在于可以发现哪些区域的制冷量被浪费,哪些区域存在冷热气流混合,导致制冷量未被充分利用。

    2. 评估所采取的传统措施

    当发现热点,数据中心运维人员会采取各种应对措施。不过,并非所有的措施都会奏效。下文将介绍一些传统的应对措施,并阐述这些措施奏效/无效的原由。请注意大部分措施对于减少气流旁通或再循环根本无济于事。

    (1) 调低制冷单元的温度设定值

    调低送风温度有助于减少热点的说法貌似合乎逻辑,但在处理热点时实为不得已而为之的下下之策,因为这会降低整个制冷系统的效率和制冷量。这种方法的效果取决于机房空调的工作状态。如果制冷系统尚有多余容量(即工作负载不足100%,未达到制冷极限),那么调低温度设定值的做法具有积极的效果。对于靠近机房空调位置的热点,调低温度设定值可以降低热点处的温度。但倘若机房空调正以最大容量(100%满负载)运行,由于系统已达到制冷极限,调低温度设定值是没有效果的,所以无法消除热点。每个制冷系统在给定环境条件下都有固定的最大制冷容量。温度设定值调低后,“最大”制冷容量也随之降低。

    (2) 在热通道中放置穿孔地板

    有人认为这方法很好,这是因为他们不了解冷通道/热通道布局设计的优势,而将所有高温现象都视作热点。事实上,这种方法非但不能消除冷通道中的热点,还有可能引发更多热点。此外,在热通道中放置穿孔地板(即造成气流旁通)还会减少可用的制冷量。冷通道/热通道布局设计是最为行之有效的方法,因此热通道中根本不存在热点。由于冷通道是IT设备获取制冷量的“冷量容器”,对于IT设备而言,在冷通道内保持低温至关重要。在风冷型大型设备盛行初期,往往通过高架地板提供冷量,制冷单元根据回风温度进行控制。这种方法之所以奏效是因为室内空气温度均一,冷热气流充分混合。而如今,冷通道/热通道的布局设计中特意分别建立冷热两个温度区,形成回风温度的不均一。习惯于均一室内温度设计的人员可能会在热通道中放置穿孔地板,认为这样做就可以解决热点问题。

    (3) 将机柜和穿孔地板紧靠制冷单元

    有人会觉得将机柜和穿孔地板尽量紧靠制冷单元的做法不错,这是因为他们假定放置在距离制冷单元几英尺范围的机柜和穿孔地板能获得较多的制冷量。但事实上,效果恰恰相反。它可能导致IT设备出现供冷不足的现象,且无法持续消除热点。虽然这一做法可以帮助收集大部分排热,但不具有可预测性,并不是解决热点的高效做法。而这种做法导致IT设备出现供冷不足现象的原因在于,从制冷单元送出的气流具有很高的速度,导致该片区域内的静压很低。这也就是说,该片区域内安装的穿孔地板的供冷量很小,甚至可能会将房间内的气流吸入地板通道内。

    确定高架地板下的气流是否存在问题有一个很简单的做法,那就是在穿孔地板上方放置一小纸片。如果纸片被吸向穿孔地板内,则应将穿孔地板更换为实心地板,以平衡高架地板下的通道压力。

    (4) 将落地扇置于热点机柜前

    有人认为此举可将气流直接集中在某个热点的前方,因此是一种消除热点的好方法。但是,这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。这种做法可以降低设备的运行温度从而消除热点,但成本极高。落地扇的作用基本相当于一个气流混合器,将设备排出的热风与冷风混合,使气流的温度介于低送风温度和高排风温度之间。这还会增加通过设备的气流量。冷热风的混合还会降低制冷系统效率,造成增加除湿/加湿负担,制冷系统容量利用不充分,并可能因制冷冗余造成损失。此外,落地扇还会成为数据中心内的附加热源。

    (5) 将气流吹过冰并送入冷通道

    有人认为用冰降温是一种简单易行的好方法。虽然此方法有助于缓解热点问题,但冰融化后会变成水,可能溢出容器,造成严重后果。即便使用包装好的冰袋,这种方法也并非上策,因为还有很多更简单有效的方法。我们将在下文中详细讨论这些方法。

    (6) 推入便携式制冷单元

    有人认为这是一种解决问题的好方法,因为此举可将冷风直接集中在某个热点的前方。但这种方法只能在紧急状况下临时使用,如IT设备即将发生制冷中断时。遗憾的是,人们经常将这种方法用作永久性解决方案。便携式制冷单元一般是在失去制冷的情况下应急使用,因为数据中心工作人员可以很方便地将其推入到位。然而,对于如何妥善解决遍布数据中心的热点问题,下面所讨论的最佳方法才是首选的永久性解决方案,不但成本低廉而且非常奏效。

    (7) 增加更多制冷单元

    有人很自然地将热点问题与制冷量不足关联起来,因此认为增加制冷单元不失为一种理想方法。然而,在多数情况下,制冷量非常充足,只是由于缺乏气流管理,导致到达制冷需求点的制冷量未达到要求的水平。此外,这种方法并非万能,而且在解决热点问题的同时还会产生大量费用支出。Uptime Institute的一项调查研究显示,虽然某些IT机房的制冷量已高达需求量的15倍,但机房中仍有7%到20%的机柜存在热点。究其原因,竟是送入的冷风绕过了IT设备的进风口。正确的解决方案是采用下面所讨论的最佳方法,然后再核定是否需要增加制冷单元。

    3. 消除热点的新方法

    以上方法司空见惯,但我们大都不推荐使用,因为这些方法对于造成热点的两个主要起因(即气流旁通与再循环)无能为力。如要杜绝气流旁通与再循环现象,必须将冷热气流完全分离,这样热点就根本不会存在。下面的前四种最佳实践之所以有效,正是因为这些实践解决了气流旁通或再循环问题,或同时解决了这两个问题。最后一个新方法只有在气流管理完全落实到位之后方可采用。

    (1) 管理机柜气流

    许多热点的出现是因为设备排出的热风在机柜内部或机柜周围发生再循环。因此,改善机柜气流管理对于解决热点至关重要。开放的机柜U空间和进出线口是造成热风再循环的主要原因,直接导致热点产生。改善机柜气流状况最简单、最经济有效的方法之一是利用盲板封堵未使用的机柜U空间,并在机柜的进出线口位置安装毛刷。企业应更新数据中心运行流程,规定凡有移动、添加和更改操作,便要安装盲板和毛刷。

    某些类型的交换机和路由器采用侧向气流。如果在安装这些设备的数据中心内,机柜气流采用从前向后的传统模式,则交换机/路由器的排出的热风可能返回进风口并造成热点。

    我们可以利用机柜侧向气流分配单元以可预测方式直接向侧向气流设备送入冷风,而不会造成热点。如果平均制冷总量充足,但在功率密度高于均值的机柜中产生热点,此时可以增加风机辅助型设备,通过改进气流状况和增加制冷量来改善制冷效果。风机辅助型设备设备可有效地从功率密度为3kW以下负载的相邻机柜“借用”气流以支持机柜负载。此方法可最大限度地降低机柜顶部和底部间的温差,并防止设备排出的热风再循环至机柜的进风口。所有排风设备在部署时必须十分小心,以确保来自相邻空间的气流不会造成相邻机柜温度过高。这些设备应使用UPS供电,避免设备在断电期间发生制冷中断。在高密度环境中,启动备用发动机期间也可能发生过热现象。

    (2) 管理机房气流

    在改善机柜气流管理后,下一个重要步骤是改善机房内的气流管理。首先,是密封高架地板中所有的开口。使用毛刷密封机柜后部和PDU下面的进线口。导致意外气流泄漏大都由这些开口造成。还可利用空气阻尼泡沫或软垫密封制冷单元周围的缝隙和其他地板空隙,在地板缺损的部位铺上实心地板,找出造成气流旁通的穿孔地板并改用实心地板。例如,如果一个空机柜前铺了穿孔地板,则应将其换为实心地板。此外,还可遵照侧栏中的操作程序对地板下的气流进行重新平衡。正确铺设地板并密封高架地板中的缝隙有助于回收利用损失的制冷量。

    另一个导致热点问题的因素是机柜顶部上方和机柜行末端周围发生的冷热气流混合。解决这一问题的一个最佳实践是通过遏制通道和/或机柜气流将冷热气流分开。通道气流遏制不仅有助于消除热点,与传统的非气流遏制数据中心设计相比还更加节能。

    可以用一个送风设备替换机柜的后门,从而将其变为一个主动式风管机柜。需注意这些设备将使机柜的总深度增加大约250mm,这可能会增大每两行相邻机柜之间的间距。通常情况下排入热通道的热风会被收集起来并向上推送,然后沿管道进入回风通道。此举可防止气流在机柜进行再循环并提升制冷系统的效率和制冷量。主动式独立垂直风管系统中的风扇可支持高达12kW的机柜功率密度,并能克服不佳通道压力或因服务器排风口线缆过度密集而导致的压降。但主动式垂直风管系统很容易为数据中心的其他区域带来意想不到的问题,因此在部署安装时应格外小心。在这些设备中必须使用盲板和机柜侧面板。主动式风管系统是耗电设备,因此需要监控和维护。

    (3) 转移问题负载

    如上所述,转移问题负载的方法是在发现“问题”负载之后将其转移到低密度机柜,从而消除热点。为机房配备制冷设备,让机房冷却到低于机柜潜在峰值的一个平均值,并将负载分摊到几个机柜,从而将任何负载超过设计平均值的机柜负载分流。请注意,将设备负载分摊到多个机柜会使机柜内出现大量未使用的垂直空间。必须用盲板将这些空间密封,防止制冷性能降低。如果可以拆除一台服务器或其它关键性设备,此举几乎毫无成本却可解决热点问题。

    (4) 改变温湿度传感器的位置

    在多数陈旧的数据中心,都是在机房空调回风气流中安装温度探测器,使得气流具有不可预测性。此举还会导致机房空调负载不均衡,从而使服务器进风口的温度发生波动。将温度探测器转移到送风气流中(这里的送风可控制而且可预测)可使IT设备进风口的温度更加平稳。如果与气流遏制方法结合使用,改变温度探测器的位置还能提高送风温度,从而减少制冷系统的能耗,同时无需担心送风温度是否会有大幅波动。

    (5) 利用数据中心基础设施管理软件控制制冷单元的气流

    有些系统可以根据IT机柜前方的温度控制单个机房的制冷单元。这些系统可使用模糊算法动态预测和调整制冷单元的风扇转速,并测算哪些制冷单元可关闭。通过控制进入数据中心的风量可以限制旁通气流量。Vigilent制冷系统就是这种系统的一个典型。

    4. 结束语

    热点会严重影响服务器的可靠性和性能,甚至会造成服务器的损坏。热点通常出现在IT设备的进风口位置,原因包括低效的气流管理,如冷气流泄漏(即气流旁通)和设备排出的热风再循环等问题。巡视感知温度、手动测量温度或自动监测是三种识别热点的主要方法。

    数据中心运维人员为消除热点,采用了许多应对措施,但大都不尽人意,有的仅能作为应急情况使用,而有的却无济于事,有的甚至会使问题雪上加霜。消除热点的最佳实践包括机柜和机房的气流管理、气流遏制、问题设备转移、改变温度传感器位置以及通过数据中心物理基础设施管理软件控制制冷单元的气流。用这些方法解决热点问题不仅简单易行,而且成本低廉,行之有效。

    Uptime Institute的一项调查研究显示,高达十分之一的机柜运行在温度高于设备可靠性...

    本文由奥门新浦京网址发布于奥门新浦新京官方网站,转载请注明出处:数据中心技术措施,数据中心运营计划

    关键词: