Close

Gestión de incidentes para equipos de alta velocidad

Planes de recuperación ante desastres para profesionales de operaciones de TI y DevOps

A medida que los servicios de TI pasan de ser un centro de costes interno a impulsar el valor principal de la empresa, las prácticas eficaces de recuperación ante desastres de TI son más importantes que nunca.

Responder ante un desastre no suele ser algo sencillo, da igual si es el tiempo de inactividad de una aplicación, la pérdida de datos o incluso un incendio en las instalaciones.

Para las pequeñas empresas, la recuperación puede ser demoledora. Según la FEMA, entre el 40 y el 60 % de las pequeñas empresas no vuelven a abrir sus puertas tras un desastre.

¿Qué es un plan de recuperación ante desastres?

Un plan de recuperación ante desastres es un conjunto documentado de prácticas y procedimientos establecidos para proteger una organización y sus activos de TI en caso de desastre. Normalmente, el plan abarca escenarios, runbooks, copias de seguridad e instrucciones para poner en funcionamiento la empresa y los servicios de TI. Esto es especialmente relevante en situaciones como fallos de un sistema, tiempos de inactividad, vulneración de la seguridad o pérdida de datos.

Según IBM:

“Antes de los años 70, la mayoría de las organizaciones solo tenían que preocuparse de hacer copias de sus registros en papel. La planificación de la recuperación ante desastres cobró protagonismo durante la década de 1970, cuando las empresas empezaron a depender más de las operaciones informáticas. En aquel momento, la mayoría de los sistemas eran procesadores centrales orientados a lotes. Mientras se esperaba la recuperación del sitio principal, se podía cargar otro procesador central externo a partir de cintas de copia de seguridad.”

Planificación de la recuperación ante desastres frente a planificación de la continuidad empresarial

La planificación de la recuperación ante desastres es un subconjunto de la planificación de la continuidad empresarial. Mientras que la planificación de la recuperación ante desastres se centra en conseguir que los servicios afectados vuelvan a funcionar lo antes posible, la planificación de la continuidad empresarial se centra en garantizar que la empresa pueda funcionar sin interrupciones en caso de desastre.

La TI desempeña un papel fundamental tanto en la recuperación ante desastres como en la continuidad empresarial.

Es fácil confundir la recuperación ante desastres y la continuidad empresarial, o tratarlas como intercambiables. La planificación de la recuperación ante desastres tiene como objetivo restablecer el servicio después de un incidente. La recuperación ante desastres es una pieza menor del plan general de continuidad empresarial. Un plan de continuidad empresarial está diseñado para mantener la organización en funcionamiento antes, durante y después de un incidente. Si la recuperación ante desastres es “cómo acabamos con el incidente”, la continuidad empresarial es “cómo seguimos funcionando como empresa incluso durante un incidente”.

Planificación de la recuperación ante desastres frente a gestión de incidentes

Para los equipos de DevOps y operaciones de TI, la gestión de incidentes es el proceso utilizado para responder ante un evento no planificado o una interrupción del servicio y restaurar el servicio a su estado operativo.

La gestión de incidentes y la recuperación ante desastres suelen utilizarse indistintamente, según el equipo y la organización. Además, la gestión de incidentes se centra en abordar estos eventos en tiempo real y conseguir que los servicios vuelvan a funcionar mientras tiene lugar el incidente.

En Atlassian, un incidente es un evento que causa una interrupción del servicio o una reducción en la calidad del mismo, y que requiere una respuesta de emergencia.

También, según el libro de Google sobre ingeniería de fiabilidad de sitios (Site Reliability Engineering, SRE):

“La gestión eficaz de incidentes es fundamental para limitar las interrupciones causadas por un incidente y restablecer el funcionamiento normal de la empresa lo antes posible. Si no has preparado de antemano la respuesta a posibles incidentes, la gestión de incidentes basada en principios puede fracasar en situaciones reales.”

Google también recomienda incluir la gestión de incidentes como parte del proceso de pruebas de recuperación ante desastres de una organización. En un proceso de respuesta ante incidentes, lo ideal es que se registren las acciones y comunicaciones de los encargados de responder para que se cree un cronograma detallado de los incidentes. Así se puede utilizar como recurso para futuros incidentes o interrupciones relacionados. Puede ser útil para las organizaciones que hacen pruebas de recuperación ante desastres, ya que así los equipos tienen todo el contexto de las operaciones.

¿Qué es el objetivo de tiempo de recuperación?

El objetivo de tiempo de recuperación hace referencia al plazo de recuperación aceptable para que una función empresarial vuelva a funcionar con normalidad tras una interrupción del servicio. Está estrechamente relacionado con el tiempo medio de recuperación, del que se habla en este artículo sobre métricas de DevOps.

Planificación de la recuperación ante desastres en un mundo de DevOps

¿Cómo se mantienen los planes de recuperación ante desastres en un mundo de entrega continua, pruebas automatizadas y múltiples implementaciones al día?

En otras palabras, ¿qué papel desempeñan los planes de recuperación ante desastres en las organizaciones que practican DevOps?

Por suerte, ambas prácticas pueden convivir y beneficiarse mutuamente. Las mismas herramientas y procesos que se utilizan para enviar código del desarrollo a las pruebas y a la producción también pueden participar en la recuperación ante desastres. Por ejemplo, las copias de seguridad de los entornos de producción que se utilizan para probar las implementaciones también pueden servir para realizar simulaciones de desastres. Además, las confirmaciones de código objeto de seguimiento desde tu canalización de CI/CD pueden ser una herramienta útil para sacar a la luz los últimos cambios en un escenario de recuperación ante desastres.

No es ningún secreto que DevOps está marcando cada vez más el ritmo de todas las decisiones de TI de la empresa. Pero esto no tiene por qué significar que se desperdicien el duro trabajo realizado en el plan de recuperación y los recursos correspondientes, o que tu plan de recuperación ante desastres se quede en la estantería cogiendo polvo.

Consulta más información sobre Jira Service Management, la solución de gestión de incidentes de Atlassian, y descubre cómo puede dar flexibilidad a los equipos de desarrollo y operaciones a la hora de trabajar juntos, ya sea para resolver incidentes o en el modo de recuperación ante desastres.