Durante años, la historia decentro de datosEl consumo de energía siguió un arco predecible. La digitalización estaba creciendo, por supuesto, pero las ganancias en eficiencia gracias a mejores servidores, la virtualización y la consolidación de la nube mantuvieron el uso total de electricidad sorprendentemente estable. La demanda mundial de energía de los centros de datos osciló alrededor del 1 por ciento del consumo total de electricidad (aproximadamente 200 teravatios-hora al año) durante la mayor parte de una década.
Esa era está terminando.
La convergencia de la IA generativa, la minería de criptomonedas, la informática de punta y el crecimiento exponencial de los dispositivos conectados ha roto la antigua curva de eficiencia. Las estimaciones de la industria ahora muestran que la demanda de energía de los centros de datos crece a tasas anuales no vistas desde principios de la década de 2000. En algunas regiones (Irlanda, Virginia del Norte, Singapur) los centros de datos ya representan entre el 15 y el 25 por ciento del consumo total de electricidad, lo que obliga a los reguladores a imponer moratorias a las nuevas construcciones.
En este contexto, las opciones de infraestructura que antes parecían detalles técnicos (arquitectura de refrigeración, topología de distribución de energía, planificación de la densidad de racks) se han convertido en decisiones de sala de juntas. El costo de la energía ya no es una partida individual. Es una limitación al crecimiento.
La eficacia del uso de energía, o PUE, ha sido la métrica de eficiencia estándar de la industria de los centros de datos durante casi dos décadas. Es una relación simple: la potencia total de las instalaciones dividida por la potencia de los equipos de TI.
Un PUE de 2.0 significa que por cada vatio que alimenta servidores y almacenamiento, otro vatio se destina a refrigeración, iluminación, pérdidas de conversión de energía y otros gastos generales. Un PUE de 1,2 significa que los gastos generales consumen solo 0,2 vatios por vatio de TI.
La industria tiene niveles ampliamente aceptados basados en PUE:
| Nivel | PUE | DCiE | lo que significa |
|---|---|---|---|
| Platino | <1,25 | >0,80 | Eficiencia de clase mundial, normalmente requiere refrigeración gratuita o refrigeración líquida. |
| Oro | 1,25 – 1,43 | 0,70 – 0,80 | Muy eficiente, alcanzable con diseños modernos en climas moderados. |
| Plata | 1,43 – 1,67 | 0,60 – 0,70 | Aceptable para instalaciones más antiguas o climas más cálidos. |
| Bronce | 1,67 – 2,00 | 0,50 – 0,60 | Típico de centros de datos heredados sin modificaciones importantes |
| Justo | 2.00 – 2.50 | 0,40 – 0,50 | Poca eficiencia, alto costo operativo |
| Pobre | >2.50 | <0,40 | Ineficiencia crítica, probablemente requiera atención inmediata |
El problema es que muchas organizaciones no conocen realmente su PUE. Ellos estiman. Ellos adivinan. O miden sólo en el medidor principal de servicios públicos y asumen el resto.
Una encuesta de la industria realizada en 2023 encontró que casi el 40 por ciento de los operadores de centros de datos nunca habían medido el PUE a nivel de rack. Entre los que lo hicieron, la diferencia entre el PUE informado y el real promedió 0,3 puntos, suficiente para pasar una instalación de Gold a Silver sin que nadie se diera cuenta.
Comprender por qué el PUE varía tanto comienza con observar dónde sale la energía de un centro de datos.
En una instalación típica refrigerada por aire con un PUE de alrededor de 1,8, el desglose se parece más o menos a esto:
La carga de refrigeración es la variable más importante. Una instalación en un clima templado que utiliza aire exterior para refrigeración gratuita podría gastar sólo el 15 por ciento de su energía no informática en refrigeración. La misma instalación en un clima tropical con refrigeración mecánica durante todo el año podría gastar el 40 por ciento.
Esta es la razón por la que los proveedores de colocación anuncian el PUE a nivel de las instalaciones, pero entregan el PUE en el medidor del cliente: diferentes números, diferentes implicaciones. El cliente paga por todo.
La gestión tradicional del centro de datos suponía un entorno relativamente estático. Los estantes se llenaron durante meses o años. El enfriamiento se puede ajustar lentamente. La distribución de energía estuvo sobredimensionada desde el primer día.
La era de la nube cambió las suposiciones. Los estantes ahora se llenan de días. Las cargas de trabajo cambian automáticamente entre servidores. Los clústeres de IA de alta densidad podrían consumir tres veces la potencia de los racks informáticos de uso general adyacentes.
Estos cambios han obligado a repensar la gestión de la infraestructura. Destacan tres tendencias.
Primero, la densidad está aumentando de manera desigual.Un rack de servidores estándar hace una década consumía entre 5 y 8 kilovatios. Hoy en día, los racks de uso general consumen entre 10 y 15 kilovatios. Los racks de entrenamiento de IA y computación de alto rendimiento superan habitualmente los 30 kilovatios por rack. Algunos superan los 50 kilovatios.
Esto crea desafíos de gestión térmica que el enfriamiento por aire lucha por resolver. Con 20 kilovatios por rack, el enfriamiento por aire sigue siendo efectivo con una contención adecuada. Con 30 kilovatios, se vuelve marginal. A partir de 40 kilovatios, la refrigeración líquida pasa de ser opcional a necesaria.
En segundo lugar, la planificación de la capacidad se ha vuelto predictiva.El antiguo método (comprar más capacidad de la necesaria y dejarla inactiva) ya no funciona a escala. La capacidad ociosa tiene tanto un costo de capital como un costo de mantenimiento continuo.
Los sistemas modernos de gestión de infraestructura utilizan datos históricos y pronósticos de carga de trabajo para predecir cuándo se acabará la energía, la refrigeración o el espacio en rack. Los mejores sistemas pueden recomendar si se debe reconfigurar la capacidad existente o solicitar hardware nuevo, días o semanas antes de que una restricción se vuelva crítica.
En tercer lugar, los requisitos de visibilidad tienen exPandeó.Un centro de datos tradicional podría realizar un seguimiento de la energía a nivel de PDU. Una instalación moderna necesita visibilidad a nivel de rack, a veces a nivel de servidor y cada vez más a nivel de carga de trabajo, sabiendo qué máquina virtual o contenedor controla qué consumo de energía.
Infraestructura del centro de datosEl software de gestión (DCIM) existe desde hace más de una década, pero su adopción sigue siendo desigual. Menos de la mitad de los centros de datos empresariales han implementado un sistema DCIM completo. Muchos de los que sí utilizaron sólo una fracción de sus capacidades.
Un sistema DCIM implementado correctamente hace cuatro cosas:
Gestión de activos.Cada servidor, conmutador, PDU y unidad de refrigeración se rastrea en una base de datos de gestión de configuración (CMDB). Ubicación, potencia nominal, conexiones de red, historial de mantenimiento, todo. Esto suena básico, pero muchas organizaciones todavía realizan un seguimiento de los activos en hojas de cálculo que pasan meses entre actualizaciones.
Monitoreo en tiempo real.Consumo de energía a nivel de PDU o rack, temperatura y humedad en los puntos de suministro y retorno, estado del sistema de enfriamiento, estado de la batería del UPS. Las alarmas se disparan cuando los parámetros se desvían de los puntos de ajuste. El objetivo es detectar problemas antes de que provoquen un tiempo de inactividad.
Planificación de capacidad.El sistema sabe cuánta energía y capacidad de refrigeración hay disponible, cuánta está en uso y cuánta está reservada para una implementación futura. Puede modelar el impacto de agregar un nuevo rack de alta densidad o retirar un conjunto de servidores más antiguos.
Visualización.Un gemelo digital del centro de datos (rack por rack, mosaico por mosaico) muestra las condiciones actuales y permite a los operadores simular cambios. Agregar 10 kilovatios de carga a la fila tres, columna cuatro: ¿eso excede la capacidad de enfriamiento? El sistema responde antes de que alguien mueva el equipo.
Reducir el consumo de energía de los centros de datos no es un misterio. Los métodos se entienden bien. El desafío es la disciplina de implementación.
Eleve la temperatura del aire de suministro.La mayoría de los centros de datos funcionan en frío (de 18 a 20 grados Celsius en el retorno de la unidad de enfriamiento) porque eso es lo que los operadores siempre han hecho. Las pautas de ASHRAE ahora recomiendan entre 24 y 27 grados. Cada aumento de grado reduce la energía de refrigeración en aproximadamente un 4 por ciento. Funcionar a 26 grados en lugar de 20 grados ahorra entre un 20 y un 25 por ciento de potencia de refrigeración.
Elimina la mezcla de aire frío y caliente.La contención de pasillo caliente, la contención de pasillo frío o los conductos de escape verticales obligan al aire de refrigeración a ir a donde se necesita en lugar de realizar ciclos cortos a través del frente de los racks. La contención por sí sola normalmente reduce la energía de enfriamiento entre un 15 y un 25 por ciento.
Utilice variadores de velocidad.Los ventiladores y bombas de velocidad constante desperdician energía con carga parcial. Los variadores de velocidad adaptan el flujo de aire y el flujo de agua a la demanda real. Los períodos de recuperación de la inversión suelen ser de 1 a 3 años.
Optimice el funcionamiento del UPS.La mayoría de los sistemas UPS funcionan continuamente en modo de doble conversión: convirtiendo CA en CC y nuevamente en CA incluso cuando la energía de la red pública está limpia. Los sistemas UPS modernos pueden cambiar al modo ecológico cuando la calidad de la energía lo permite, logrando una eficiencia del 99 por ciento en lugar del 94-96 por ciento. La compensación es un breve tiempo de transferencia a la batería si falla la energía eléctrica. Para cargas de TI con fuentes de alimentación diseñadas para dichas transferencias, el riesgo es mínimo.
Adoptar distribución de mayor voltaje.Distribuir energía a 415 V en lugar de 208 V reduce las pérdidas de distribución en aproximadamente un 25 por ciento. Esto requiere PDU y fuentes de alimentación de servidor compatibles, pero muchos dispositivos modernos lo admiten.
Compañía Shangyu CPSY, una empresa de alta tecnología centrada en la infraestructura de centros de datos, informa un PUE de 1,3 para sus soluciones de centros de datos modulares. Esto coloca a la empresa en el nivel Gold, avanzando hacia Platinum.
El supuesto ahorro de energía del 25 por ciento en comparación con los diseños convencionales proviene de múltiples factores. Los sistemas UPS modulares con una eficiencia del 97,4 por ciento a nivel del sistema reducen las pérdidas de distribución que de otro modo serían del 15 al 20 por ciento. Los acondicionadores de aire de precisión con compresores de velocidad variable y ventiladores EC ajustan la salida de enfriamiento para igualar la carga de calor real en lugar de funcionar a una capacidad fija. Y el diseño físico (contención del pasillo caliente, espacio óptimo entre estantes, piso elevado con baldosas perforadas del tamaño adecuado) aborda la gestión del flujo de aire que socava muchas instalaciones que de otro modo serían eficientes.
La cartera de certificaciones de la empresa incluye ISO 9001 (gestión de calidad) e ISO 27001 (gestión de seguridad de la información). Sus implementaciones de clientes incluyen asociaciones con Huawei, ZTE e Inspur, con instalaciones de exportación en Estados Unidos, Reino Unido, Alemania, Francia y Australia.
Durante años, la refrigeración líquida fue una tecnología de nicho para los centros de supercomputación. Eso está cambiando rápidamente.
Los grupos de entrenamiento de IA que utilizan NVIDIA H100 o las próximas GPU B200 generan entre 30 y 50 kilovatios por rack en configuraciones puramente refrigeradas por aire. A estas densidades, la refrigeración por aire requiere altos índices de flujo de aire: ventiladores ruidosos, bastidores profundos y un control térmico aún marginal.
La refrigeración líquida directa al chip elimina entre el 60 y el 80 por ciento del calor en la fuente. Las patatas fritas funcionan más frías. Los fanáticos corren más lento. El aire acondicionado de la habitación maneja solo el calor restante de las fuentes de alimentación, la memoria y otros componentes.
La ganancia de eficiencia es sustancial. Las instalaciones con refrigeración directa al chip informan valores de PUE de 1,1 a 1,2. Las compensaciones son un mayor costo de capital, una gestión de fugas más compleja y la necesidad de un tratamiento de agua de calidad para las instalaciones.
El enfriamiento por inmersión total (sumergir servidores enteros en fluido dieléctrico) empuja el PUE por debajo de 1,1, pero sigue siendo especializado. La mayoría de los centros de datos comerciales adoptarán primero la refrigeración directa al chip y luego la inmersión para zonas específicas de alta densidad.
La plataforma del centro de datos SHANGYU incluye disposiciones para arquitecturas de refrigeración líquida y por aire, reconociendo que las futuras implementaciones de alta densidad requerirán una gestión térmica basada en fluidos, independientemente del diseño de las instalaciones.
La mayoría de los equipos de operaciones de los centros de datos todavía trabajan de forma reactiva. Suena una alarma. Alguien investiga. Se aplica una solución. El ciclo se repite.
La transición a la gestión predictiva requiere tres capacidades de las que muchas organizaciones carecen.
Datos completos de configuración.Saber qué hay en el centro de datos (cada servidor, cada conmutador, cada PDU, cada unidad de refrigeración) es la base. Sin datos CMDB precisos, la planificación de la capacidad es una conjetura.
Telemetría granular.La medición de potencia a nivel de rack es la mínima. La medición de energía por servidor es mejor. La atribución de poder a nivel de carga de trabajo es la mejor, pero la más difícil de lograr.
Analíticas que distinguen señal del ruido.Un aumento de temperatura en un estante podría significar una falla en el ventilador. Un aumento de temperatura en la mitad del centro de datos podría significar una falla en el enfriador. El sistema necesita diferenciar y recomendar respuestas en consecuencia.
La plataforma DCIM de SHANGYU proporciona compatibilidad con dispositivos SNMP y Modbus, interfaces de aplicaciones Windows y basadas en web e integración con cámaras de red para imágenes activadas por eventos. Los objetivos declarados son sencillos: reducir el costoso tiempo de inactividad, reducir los costos operativos diarios mediante un control ambiental completo y mejorar la visibilidad y la trazabilidad de la gestión.
El consumo de energía de los centros de datos representa aproximadamente el 1 por ciento de la demanda mundial de electricidad. Ese número parece pequeño hasta que se pone en contexto. Es aproximadamente equivalente al consumo total de electricidad del Reino Unido.
Más importante aún, la tasa de crecimiento se está acelerando. Las proyecciones de la industria muestran que la demanda de energía de los centros de datos aumentará entre un 10 y un 15 por ciento anual hasta 2030, impulsada por la inteligencia artificial, la adopción de la nube y la expansión continua de los dispositivos conectados. A ese ritmo, los centros de datos consumirían entre el 3 y el 4 por ciento de la electricidad mundial para finales de la década.
Las ganancias de eficiencia que mantuvieron estable el consumo de energía durante la década anterior provinieron de la virtualización de servidores (reduciendo el número de servidores físicos), la mejora de la eficiencia de las unidades (pasando de discos giratorios a SSD) y la amplia implementación de refrigeración gratuita (utilizando aire exterior en lugar de refrigeración mecánica). Esas frutas maduras ya se han recogido en gran medida.
La próxima ola de eficiencia vendrá de la refrigeración líquida, la distribución de mayor voltaje, los controles de refrigeración optimizados por IA y, quizás lo más importante, una mejor alineación entre la capacidad de la infraestructura y la carga de TI real. Esta última pieza requiere el tipo de visibilidad en tiempo real y análisis predictivo que los sistemas DCIM brindan pero que pocas instalaciones utilizan en su totalidad.
¿Conoce su PUE real, no el número que figura en la hoja de especificaciones?Si no ha medido en la salida del SAI y en la entrada del equipo informático, no lo sabe. La diferencia son tus gastos generales reales.
¿Sus sistemas de refrigeración luchan entre sí?En muchos centros de datos, las unidades CRAC están configuradas con bandas de temperatura y humedad superpuestas. Una unidad deshumidifica mientras otra humidifica. Uno enfría mientras otro recalienta. Esto no es inusual. Tampoco es eficiente.
¿Cuál es el consumo de energía inactivo de sus servidores?Los datos de la industria muestran que los servidores empresariales típicos consumen entre el 30 y el 40 por ciento de su potencia máxima cuando no hacen nada. Apagar o poner en suspensión los servidores no utilizados es la medida de eficiencia disponible para lograr el mayor retorno de la inversión. También es el que más se pasa por alto.
¿Podría aumentar la temperatura del aire de suministro en dos grados sin violar las especificaciones del equipo?Probablemente sí. La mayoría de los equipos están clasificados para temperaturas de entrada de 25 a 27 grados. La mayoría de los centros de datos funcionan a 20-22 grados. Esa brecha de seis grados representa años de energía de refrigeración innecesaria.
¿Cuándo fue la última vez que validó la eficiencia de su UPS?La eficiencia nominal se mide a plena carga con un factor de potencia perfecto. La eficiencia en el mundo real con carga parcial y un factor de potencia real puede ser entre 5 y 10 puntos menor.