Cerrar

Manual de incidentes de Atlassian

Presentación

En la actualidad, se espera que los equipos que ofrecen servicios tecnológicos tengan una disponibilidad ininterrumpida.

Cuando algo va mal, ya sea debido a una interrupción del servicio o a que falle una funcionalidad, los miembros del equipo deben responder de inmediato y restaurar el servicio. Este proceso se denomina gestión de incidentes y supone un desafío complejo y constante para pequeñas y grandes empresas.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Responder a un incidente

Proceso para responder a un incidente y pasos a seguir al detectarlo.

Análisis a toro pasado de los incidentes

Cómo realizar análisis a toro pasado irreprochables, identificar el origen del problema y planificar la puesta en práctica de las soluciones.

Presentación del manual de incidentes

¿A quién se dirige esta guía?

Si perteneces a un equipo de desarrollo o de operaciones que se ocupa de servicios de Internet para clientes que requieren disponibilidad ininterrumpida, este es tu manual.

¿Qué es un incidente?

Definimos incidente como un evento que causa una interrupción o una reducción en la calidad de un servicio, y que requiere una respuesta de emergencia. Los equipos que siguen las prácticas de ITIL o ITSM pueden utilizar para esto el término incidente principal en su lugar.

Se considera que un incidente está resuelto cuando el servicio afectado vuelve a funcionar con normalidad. Esto incluye solo las tareas necesarias para restaurar la completa funcionalidad. 

El análisis a toro pasado de los incidentes se lleva a cabo después de que se produzca el incidente con el objetivo de determinar el origen del problema y asignar acciones para garantizar que se solucione antes de que cause un incidente repetido.

Nuestros valores de incidente

Un proceso para gestionar incidentes no puede cubrir todas las situaciones posibles, por lo que ofrecemos orientación a tus equipos en forma de valores. De forma similar a los valores de la compañía Atlassian, hemos diseñado nuestros valores de incidentes con los siguientes objetivos:

  • Guiar la toma de decisiones autónoma de individuos y equipos en incidentes y análisis a toro pasado. 

  • Construir una cultura coherente entre equipos relativa a cómo identificamos, gestionamos, y aprendemos de los incidentes.

  • Sincronizar a los equipos con respecto a qué actitud deben mostrar ante cada parte de la identificación, resolución, y reflexión de incidentes.

Fase Valor de incidente Valor de Atlassian relacionado Razonamiento
1. Detectar Atlassian se entera antes que nuestros clientes

Crear con el corazón y equilibrio

Un servicio equilibrado incluye las suficientes labores de supervisión y alerta para detectar los incidentes antes de que lo hagan los clientes. 

El mejor sistema de supervisión alerta de los problemas antes de que se conviertan en incidencias.

2. Responder Derivar, derivar y derivar 

Funcionar como un equipo

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

No siempre tenemos todas las respuestas, por lo que "no dudes en derivar".

3. Recuperar Todo se vuelve un caos, soluciónalo rápidamente. No #@!% al cliente

A nuestros clientes no les importa por qué se ha interrumpido el servicio. Lo único que les interesa es que lo restauremos lo más rápido posible.

Nunca dudes en resolver un incidente rápidamente para que podamos minimizar el impacto en nuestros clientes. 

4. Aprender Siempre irreprochable Empresa abierta, sin mentiras Los incidentes forman parte de la ejecución de los servicios. Nosotros mejoramos los servicios al hacer responsables a los equipos y no repartir las culpas.
5. Mejorar No dejes que se produzca dos veces el mismo incidente Ser el cambio que deseas

Identifica el origen del problema y los cambios que evitarán que toda la clase de incidente ocurra de nuevo.

Comprométete a realizar cambios específicos en fechas determinadas.

 

Requisitos de herramientas

El proceso de gestión de incidentes descrito usa varias herramientas que son específicas de Atlassian y pueden sustituirse cuando sea necesario:

  • Seguimiento de incidentes: se supervisa cada uno como incidencia de Jira, con un seguimiento de incidencia creado para supervisar la ejecución del análisis a toro pasado (Atlassian utilizaba una versión altamente personalizada de Jira Software antes de la publicación de Jira Ops).

  • Sala de chat: un canal de comunicación de texto en tiempo real es fundamental para diagnosticar y resolver el incidente como equipo.

  • Videochat: para muchos incidentes, un videochat de equipos como Blue Jeans puede ayudarte a tratar y acordar enfoques.

  • Sistema de alertas: la herramienta Opsgenie gestiona las rotaciones de guardias y las derivaciones.

  • Herramienta de documentación: usamos Confluence para nuestros documentos de estados de incidentes y para compartir análisis a toro pasado mediante blogs.

  • Statuspage: comunicar el estado a las partes internas interesadas y a los clientes mediante Statuspage ayuda a mantener a todo el mundo informado.

Seguimiento de incidentes

Cada incidente se supervisa como incidencia de Jira, con un seguimiento de incidencia creado para supervisar la ejecución del análisis a toro pasado. El proceso que se presenta en este manual se refiere a la versión altamente personalizada de Jira Software, que inspiró la creación de Jira Ops. Como tal, el proceso no coincide exactamente con la funcionalidad disponible en Jira Ops en la actualidad.

Las incidencias de incidentes las crea normalmente un ingeniero de soporte en respuesta a un ticket de cliente o un desarrollador que reconoce una alerta de supervisión como un incidente. Animamos a las personas a crear una incidencia si les preocupa algo, en lugar de esperar a derivarla.

En Jira, tenemos un workflow sencillo para supervisar los incidentes en la fase de resolución y registrar todas las acciones importantes que se han realizado durante la respuesta al incidente.

Gestor de incidentes

Cada incidente se encuentra bajo el control del gestor de incidentes (IM, Incident Manager), que es quien tiene la autoridad y responsabilidad total del incidente. El responsable del incidente se encarga de nombrar a este gestor. El gestor de incidentes puede realizar todas las acciones necesarias para resolver el incidente, lo que incluye ponerse en contacto con alguien de la organización y mantener a los que participan en un incidente centrados en restaurar el servicio lo antes posible. 

El gestor de incidentes se corresponde una función, más que con un individuo en el incidente. La ventaja de definir las funciones durante un incidente es que permite que las personas sean intercambiables. Siempre que una persona determinada sepa cómo desempeñar una función específica, esta podrá ejercer dicha función para cualquier incidente.

¿Tienes ideas o sugerencias para esta guía?

¡Genial! Puedes enviar tus comentarios a incident-handbook@atlassian.com y hacernos saber lo que piensas.

Responder a un incidente

Proceso para responder a un incidente y pasos a seguir al detectarlo.

Análisis a toro pasado de los incidentes

Cómo realizar análisis a toro pasado irreprochables, identificar el origen del problema y planificar la puesta en práctica de las soluciones.

¿Estás buscando una herramienta que ayude a llevar a cabo un proceso de gestión de incidentes?