Tiempo de inactividad del servidor: causas comunes y cómo prevenirlos

Tiempo de inactividad del servidor: causas comunes y cómo prevenirlos.Aunque las organizaciones a menudo toman todas las precauciones imaginables, la amenaza del tiempo de inactividad del servidor es difícil de eliminar por completo . Con incluso unos pocos minutos de tiempo de inactividad que probablemente cuestan mucho en términos de pérdida de productividad y oportunidades, las empresas recurren a los centros de datos para mantener sus sistemas de red de misión crítica en funcionamiento, sin importar las circunstancias.

Para algunas industrias , el tiempo de inactividad es un inconveniente menor, pero para otras, puede causar serias interrupciones que tienen consecuencias duraderas .
Identificar las causas principales del tiempo de inactividad del servidor es el primer paso para establecer políticas y procedimientos para brindar servicios confiables. Si bien hay innumerables formas de que los servidores del centro de datos se caigan, la mayoría de las fallas se pueden dividir en una de cinco categorías.

Table of Contents

Las 5 causas más comunes del tiempo de inactividad del servidor

1. Error humano

Varios estudios en los últimos años han colocado el error humano como la causa más frecuente o la segunda causa más frecuente de tiempo de inactividad del servidor. Ya sea por accidente o negligencia, muchas de las interrupciones del servicio de más alto perfil de los últimos años se remontan directamente al error humano. Si bien es imposible protegerse completamente de los errores humanos , los centros de datos y otras organizaciones pueden tomar medidas significativas para reducir la probabilidad de error y aumentar la responsabilidad para tratar los problemas cuando ocurran.

Algunas de estas medidas incluyen documentación precisa de tareas rutinarias, imposición de políticas más estrictas sobre el uso del dispositivo y educación continua continua para reforzar los procesos y políticas. A medida que la automatización a través de la inteligencia artificial y el análisis predictivo se vuelve más común en los centros de datos, la amenaza de error humano puede disminuir como consecuencia.

2. Ciberataque

Una de las causas de tiempo de inactividad de más alto perfil, los ataques cibernéticos suelen ser grandes titulares cuando ocurren. Las vulnerabilidades de la red crean oportunidades para que los piratas informáticos se infiltran en los sistemas, lo que les permite robar datos, cerrar aplicaciones y bloquear a los usuarios con ransomware . Incluso si un sistema es relativamente seguro, aún puede ser vulnerable a un ataque distribuido de denegación de servicio (DDoS) que puede paralizar y bloquear servidores que no están preparados para soportar el pico de tráfico. Para muchas organizaciones, incluso la amenaza de tal ataque es suficiente para hacer que cedan ante los piratas informáticos que extorsionan “tarifas de protección”.

Con la proliferación de dispositivos de Internet de las cosas (IoT) , la superficie de ataque general de las redes de muchas empresas está aumentando . Si bien hay muchas formas en que estos dispositivos se pueden usar para mejorar la seguridad, representan un riesgo si no están adecuadamente protegidos. Las pruebas y simulaciones que utilizan análisis predictivos pueden ayudar a identificar vulnerabilidades en la infraestructura de red, y los algoritmos sofisticados pueden monitorear y registrar actividades sospechosas para proporcionar mayores niveles de seguridad contra ataques cibernéticos.

3. Falla del equipo

A veces el equipo simplemente se rompe. Es una verdad desagradable, pero la infraestructura física del centro de datos siempre es vulnerable a fallas de algún tipo, lo que la convierte en una de las principales causas del tiempo de inactividad. Ya sea que se trate de un servidor que falla , una falla ininterrumpida de la batería de la fuente de alimentación (UPS) o un mal funcionamiento del sistema de enfriamiento del centro de datos, el hardware presenta una amplia gama de problemas potenciales para los departamentos de TI y el personal del centro de datos. Parte del desafío aquí es que muchas fallas no se pueden predecir.

Si bien el análisis predictivo puede identificar algunos problemas y estimar cuándo algunos equipos fallan, los eventos inesperados a menudo pueden desencadenar interrupciones generalizadas.

El hardware desactualizado es particularmente vulnerable a fallas, lo que lleva a muchas compañías a culpar a los “servidores antiguos” por interrupciones del servicio. Muchas organizaciones han optado por renunciar al costo de actualizar estos sistemas y en su lugar recurrieron a ofertas de servidores virtualizados de centros de datos definidos por software con equipos más actualizados junto con muchas redundancias incorporadas. Aunque los centros de datos no han demostrado ser completamente inmunes a los problemas de falla del equipo, generalmente tienen suficientes redundancias para mantener el tiempo de inactividad al mínimo.

4. Falla de software

Aunque son menos comunes que las fallas de hardware, los sistemas de red son tan efectivos como el software que están ejecutando. Cuando los sistemas operativos se actualizan con parches que no han pasado por las pruebas adecuadas , las aplicaciones completas pueden dañarse y detener las redes. Sin embargo, el software obsoleto a menudo es igual de problemático porque carece de las medidas de seguridad o controladores actuales para mantener en funcionamiento las redes de alto tráfico. Los errores en los sistemas operativos también presentan vulnerabilidades que son fácilmente explotadas por el malware . En cualquier caso, el software sigue siendo una de las causas más generalizadas del tiempo de inactividad.

El paso a la virtualización del servidor ha sido beneficioso para resolver problemas del servidor, pero también significa que hay más aplicaciones ejecutándose en una red, muchas de las cuales tienen el potencial de crear problemas para otras aplicaciones. Para combatir el riesgo de falla del software, compañías como Netflix operan bajo el supuesto de que el software de misión crítica fallará y ejecutará varias simulaciones y experimentos para garantizar que estén listos para enfrentar el problema en caso de una falla del software.

5. Desastres naturales

Si bien no es una amenaza tan catastrófica como puede parecer, los desastres naturales aún representan un peligro significativo para las redes. Los centros de datos modernos tienen amplias salvaguardas para proteger sus operaciones de los efectos de huracanes, inundaciones y terremotos. Los sistemas de respaldo y redundantes proporcionan una instalación de centro de datos con energía y enfriamiento confiables.

En eventos climáticos recientes, como el huracán Harvey en 2017 y el huracán Sandy en 2012, las instalaciones del centro de datos se mantuvieron bastante bien, pero muchos de ellos enfrentaron dificultades debido a la condición de la infraestructura local a su alrededor. Los servicios eléctricos interrumpidos y las carreteras inaccesibles a raíz de las tormentas representaban una amenaza mayor que las tormentas mismas.

Los fenómenos meteorológicos más pequeños, como los rayos y el calor excesivo, en realidad han demostrado ser causas más graves de tiempo de inactividad que los eventos con más miedo como los huracanes. A medida que aumenta la demanda de centros de datos y se construyen más instalaciones en ubicaciones menos hospitalarias, las estrategias para lidiar con desastres naturales de alto perfil y eventos más comunes como rayos, tornados e incendios forestales serán cada vez más vitales para mantener el tiempo de actividad del servicio.

Cómo el tiempo de inactividad del servidor puede afectar su sitio web

Uno de los mayores impactos del tiempo de inactividad del servidor es cuando elimina el sitio web de una empresa. Cuando los servidores no están disponibles, los sitios web orientados al cliente pueden fallar o dejar de responder, lo que genera más que una simple frustración. Si el modelo de negocio de una organización se basa en la prestación de servicios a través de su sitio web, incluso unos pocos momentos de inactividad podrían afectar seriamente los ingresos. Incluso para los sitios web centrados en el comercio minorista, la pérdida del servicio puede causar daños duraderos a la reputación de la marca de la compañía. Cuando las organizaciones no tienen en cuenta los períodos de alto tráfico, pueden exponerse a titulares vergonzosos sobre clientes enojados que no pueden acceder a su sitio web.

Las organizaciones deben tener un plan para hacer frente al tiempo de inactividad del servidor. Incluso si toman todas las precauciones para proteger sus propios sistemas, también deben planificar cómo responder si su proveedor de la nube u otro proveedor de servicios experimenta una interrupción significativa. Teniendo en cuenta los costos potencialmente altos y perjudiciales del tiempo de inactividad extenso, las empresas deben pensar mucho sobre cómo mantener sus servicios en funcionamiento tanto como sea posible y los procesos para volver a conectar los sistemas críticos en caso de que fallen.

Leer también: ¿Qué es un meet me room o sala de encuentro en un data center?; Los data centers o centros de datos autónomos han llegado para quedarse