Close

Cómo funciona la gestión de incidentes en Jira Service Management

Presentación

La gestión de incidentes es la práctica mediante la cual se responde a un evento no planificado o a una interrupción del servicio a fin de recuperar el estado operativo.

  • Incidente: interrupción no planificada o reducción de la calidad de un servicio.
  • Incidente importante: incidente con un impacto empresarial significativo que requiere una resolución coordinada inmediata.

Un problema es el origen no identificado de uno o varios incidentes.

Personajes trabajando para solucionar un incidente

La plataforma de gestión de incidentes de Atlassian proporciona todo el contexto y los datos necesarios para resolver un incidente de forma rápida y eficiente.

  • En Jira Service Management, los agentes pueden gestionar fácilmente las incidencias y los incidentes notificados por los usuarios.
  • Los agentes pueden escalar rápidamente los incidentes graves (como una alerta) al equipo de guardia. Jira Service Management permite a los equipos de TI y DevOps mantener el control durante un incidente al centralizar las alertas, notificar a las personas adecuadas y permitirles colaborar y tomar medidas rápidamente.
  • Las funciones nativas de gestión de activos y configuración de Jira Service Management (incluidas en los planes Premium y Enterprise) ayudan a los agentes a entender las dependencias dentro de su infraestructura de TI para identificar las causas posibles de los incidentes.
  • Por último, los espacios de trabajo compartidos recogen prácticas, procesos y procedimientos de incidentes en un solo lugar, desde runbooks hasta bases de conocimientos y PIR.

Esta solución integral de gestión de incidentes sin interrupciones ayuda a los equipos a escalar, a incorporar a las personas adecuadas para responder ante ellos y, en última instancia, a minimizar el tiempo de inactividad.

El proceso de gestión de incidentes

Diagrama de respuesta ante incidentes de Atlassian

La clave para la gestión de incidentes es contar con un buen proceso y ceñirse a él. "Respuesta ante incidentes" es un término bastante amplio, así que vamos a desglosarlo en los pasos que será más probable que debas dar una vez que identifiques, categorices y priorices un incidente.

  1. Diagnóstico inicial: los equipos de DevOps suelen ocuparse de un incidente desde el diagnóstico hasta la resolución, mientras que los centros de asistencia de varios niveles cuentan con un equipo en primera línea que intenta hacer lo mismo, pero que puede escalar el incidente a equipos de soporte de segundo y tercer nivel si es necesario.
  2. Escalar: si es necesario, el siguiente equipo toma los datos registrados, continúa con el proceso de diagnóstico y, si no puede diagnosticar el incidente, lo escala al siguiente equipo.
  3. Comunicar: el equipo comparte periódicamente actualizaciones con las partes interesadas internas y externas afectadas.
  4. Investigación y diagnóstico: este proceso continúa hasta que se identifique el tipo de incidente. A veces los equipos invitan a recursos externos o miembros de otros departamentos para pedirles asesoramiento y ayuda con la resolución.
  5. Resolución y recuperación: en este paso, el equipo llega a un diagnóstico y da los pasos necesarios para resolver el incidente. La recuperación simplemente indica el esfuerzo que requerirá recuperar el servicio por completo, ya que para algunas correcciones (como los parches de error) puede ser necesario llevar a cabo pruebas e implementación incluso después de determinar la resolución adecuada.
  6. Cierre: si el incidente se había escalado, se devuelve a las personas en primera línea para que se pueda cerrar. Para mantener la calidad y garantizar un proceso fluido, solo los empleados del centro de asistencia pueden cerrar incidentes. Los propietarios de cada incidente deben consultar con la persona que lo notificó para confirmar que la resolución es satisfactoria y que el incidente puede cerrarse realmente.
Libro con una bombilla

Para obtener más información, consulta nuestra página Gestión de incidentes.


Primeros pasos con la gestión de incidentes en Jira Service Management

Cómo empezar con la gestión de incidentes

Jira Service Management proporciona un flujo de trabajo de gestión de incidentes compatible con la Biblioteca de infraestructuras de tecnologías de la información (ITIL) denominado "Flujo de trabajo de gestión de incidentes para Jira Service Management". Te recomendamos que comiences con este flujo de trabajo y lo vayas adaptando a las necesidades específicas de tu empresa. Obtén más información sobre la edición de flujos de trabajo.

De forma predeterminada, los siguientes campos están en la vista de incidentes de tu agente. Si necesitas campos adicionales, también puedes añadir campos personalizados.

Cómo crear acuerdos de nivel de servicio (SLA) para registros de incidentes

Jira Service Management proporciona potentes SLA integrados para que los equipos puedan supervisar hasta qué punto cumplen con el nivel de servicio que esperan sus clientes. Los administradores de proyectos pueden crear objetivos de SLA que especifiquen los tipos de solicitudes que hay que supervisar y el tiempo que debe llevar resolverlas. A partir de ahí, puedes definir las condiciones y los calendarios que se aplicarán cuando las mediciones del SLA se inicien, se pausen o se detengan.

Para crear un nuevo SLA:

  1. Desde tu proyecto de asistencia, ve a Configuración del proyecto > SLA. Aquí se muestran todos los SLA existentes.
  2. Selecciona Añadir SLA.
  3. En el campo situado junto al icono de reloj, escribe un nombre nuevo para el SLA o elige uno existente.
    1. (No podrás cambiar el nombre del SLA una vez que se haya creado, así que elige uno que explique claramente lo que va a medir).
  4. Define objetivos y condiciones para el SLA. Obtén más información sobre cómo configurar objetivos de SLA y cómo configurar métricas de tiempo de SLA.
  5. Selecciona Guardar.

Cómo marcar incidentes como graves en Jira Service Management

Cuando se produce una interrupción en los servicios principales, Jira Service Management Cloud cuenta con las herramientas necesarias para que los agentes puedan resolver los incidentes rápidamente. Al marcar un incidente como grave, se le da más visibilidad que a otros. Además, los incidentes graves se agrupan en una cola específica llamada "Incidente grave" con la tecnología de JQL.

Para marcar un incidente como grave:

  1. Busca el incidente que quieras marcar como grave.
  2. Activa el conmutador Incidente grave en la sección Detalles de la incidencia.
Marcar un incidente como grave en Jira Service Management (en inglés)

Nota: Si no ves el campo Major incident (Incidente grave) en los incidentes, asegúrate de haberlo añadido en la vista de la incidencia. Debes tener la función de administrador de Jira para añadir campos a un tipo de incidencia.

Cómo crear y enviar actualizaciones a un canal de Slack directamente desde un incidente

Jira Service Management te permite conectar tu espacio de trabajo y crear un canal de Slack para cada incidente. Al conectar espacios de trabajo de Slack con un proyecto de asistencia, puedes crear canales de Slack para los diferentes incidentes, añadir personas para que se encarguen de cada uno, actualizar las prioridades de los incidentes, tomar las medidas oportunas sobre cada uno y ayudar a tu equipo a avanzar más rápido durante la resolución de los incidentes.

Para crear un canal de Slack para incidentes:

  1. Busca el incidente para el que quieras crear un canal de Slack.
  2. Selecciona Create channel (Crear canal) en la sección Details (Detalles) de la incidencia.
Crear un canal de Slack para incidentes en Jira Service Management (en inglés)

Cómo enviar actualizaciones de incidentes a partes interesadas internas

Las partes interesadas internas son personas que no responden ante los incidentes, pero que necesitan estar al corriente de cómo avanzan para tomar las medidas y precauciones pertinentes. Jira Service Management ofrece la opción de añadir personas como partes interesadas y de notificarles cualquier novedad por correo electrónico.

Para añadir o quitar partes interesadas internas:

  1. Busca el incidente en el que quieras añadir partes interesadas internas.
  2. Selecciona Manage (Gestionar) en la sección Details (Detalles), junto al campo Stakeholders (Partes interesadas).
  3. Busca las personas que quieras añadir como partes interesadas.

Para notificar una novedad a las partes interesadas internas:

  1. Ve a la sección Activity (Actividad) de la vista de la incidencia y selecciona Update stakeholders (Notificar partes interesadas).
  2. Escribe un resumen y un mensaje.
  3. Selecciona Send (Enviar).
Enviar actualizaciones de incidentes a partes interesadas internas en Jira Service Management (en inglés)

Cómo tratar los incidentes con tu equipo a través de una llamada por conferencia

Jira Service Management ofrece salas de llamada y videollamada por conferencia para facilitar la coordinación y gestión de incidentes desde un solo lugar.

Para iniciar una llamada por conferencia:

  1. Busca el incidente sobre el que quieras iniciar una llamada por conferencia.
  2. Selecciona Start call (Iniciar llamada) o Join call (Unirse a una llamada en curso) en la sección Details (Detalles), junto al campo Conference call (Llamada por conferencia).
Crear o unirse a una llamada por conferencia en Jira Service Management (en inglés)

Descubre cómo acceder a revisiones posteriores a incidentes (PIR) o cómo crear una

Las revisiones posteriores a incidentes son una buena oportunidad para detectar vulnerabilidades en el sistema, evitar que se repitan los incidentes y reducir el tiempo de resolución de incidentes en el futuro, y son un paso importante dentro del ciclo de vida de un servicio ininterrumpido. Los problemas que detectes en la revisión te servirán para reforzar tu proceso de planificación y te permitirán dar prioridad a las correcciones más importantes. Asimismo, documentar el incidente y la solución que dio el equipo puede fundamentar la gestión de los incidentes en el futuro. Los equipos pueden crear soluciones a largo plazo para los problemas que provoquen un incidente determinado y vincular la revisión posterior con el incidente en Jira Service Management.

Para activar la función de revisión posterior a incidentes:

  1. Ve a Configuración del proyecto > Funciones.
  2. En ITSM categories (Categorías de ITSM), activa Post-incident reviews (Revisión posterior a incidentes).

Al activar esta categoría, podrás acceder a funciones nuevas de las solicitudes. Para utilizarlas, tendrás que crear otros tipos de solicitud o asignar los tipos de solicitud actuales a la categoría de revisiones posteriores a incidentes.

Para acceder a las revisiones posteriores a incidentes:

  1. Selecciona Post-incident review (Revisión posterior a incidentes) en el menú de la barra lateral del proyecto.
  2. Selecciona la cola que corresponda a las revisiones posteriores a incidentes.
Acceder a revisiones posteriores a incidentes en Jira Service Management (en inglés)

Para crear una revisión posterior a incidentes:

  1. Selecciona Create (Crear) en la barra de menú de la parte superior.
  2. En el menú desplegable, selecciona el tipo de solicitud de revisión posterior a incidentes que has definido.
  3. Introduce la información obligatoria y vincula el incidente en cuestión a la PIR en el campo linked issues (incidencias vinculadas).
  4. Cuando hayas terminado, selecciona Create (Crear).

Consejo de experto: Las revisiones posteriores a incidentes también se pueden crear mediante el motor de automatización nativo de Jira Service Management. Por ejemplo, puedes definir una regla de automatización para crear una revisión posterior a incidentes cada vez que tu equipo resuelva un incidente grave o de máxima prioridad.

Crear una revisión posterior a un incidente en Jira Service Management (en inglés)

Cómo vincular varios incidentes en un informe de problemas

Jira Service Management te permite vincular varios problemas juntos. Por ejemplo, puedes vincular varios registros de incidentes a un informe de problemas más amplio.

Para vincular varios incidentes con un informe de problemas:

  1. Accede al registro de incidentes.
  2. Selecciona Vincular incidencia.
  3. En el campo linked issues (incidencias vinculadas), selecciona is caused by (provocada por).
  4. Especifica la incidencia que quieres vincular en el campo Incidencia, o selecciónala en el menú desplegable.
  5. Selecciona Link (Vincular).

Consejos y prácticas recomendadas sobre la gestión de incidentes

Registra fácilmente los incidentes notificados por los usuarios y el sistema

Jira Service Management actúa como fuente de información única sobre incidentes leves y graves. El portal del cliente registra los incidentes notificados por los usuarios de manera completa y coherente, con toda la información necesaria que el equipo de soporte necesita para evaluarlos. Cuando los empleados o los clientes ven un incidente, pueden notificarlo en Jira Service Management. Desde allí, los incidentes se transfieren a las colas de agente adecuadas.

Cuando se trata de detectar incidentes e interrupciones de forma anticipada, la supervisión efectiva se convierte en los ojos y los oídos del equipo de operaciones de TI. En el caso de los incidentes detectados por el sistema, Jira Service Management se integra fácilmente con más de 200 aplicaciones y servicios web, como Slack, Datadog, Sumo Logic y Nagios, para sincronizar los datos de alertas y optimizar el flujo de trabajo de incidentes.

Portal del cliente de Jira Service Management

Reduce el agotamiento por exceso de alertas con horarios de guardias inteligentes

Cuando el personal de guardia se ve inundado de alertas irrelevantes, comienza a sentir agotamiento por las alertas y a perderse notificaciones importantes. Las funciones de gestión de incidentes integradas de Jira Service Management garantizan que tu equipo nunca se pierda una alerta crítica.

Horarios de guardia en Jira Service Management

Mediante la creación de programas y la definición de reglas de escalación en una interfaz, tu equipo siempre sabrá quién está de guardia y es el responsable durante los incidentes. La solución agrupa alertas, filtra el ruido e informa a los miembros del equipo mediante varios canales, como mensajes de texto, llamadas telefónicas, notificaciones de inserción en el móvil o mensajes de correo electrónico, junto con el contexto relevante necesario para empezar con la resolución de inmediato.

Usa ChatOps y runbooks para mejorar la coordinación del equipo

Con Jira Service Management, los equipos cuentan con un lugar centralizado para colaborar, compartir información en tiempo real y acelerar la resolución con el centro de comando de incidentes. En lugar de navegar por actualizaciones fragmentadas de chats individuales o de desplazarte por largos historiales de conversaciones, define previamente una sala de videoconferencia para que los equipos conversen de forma dinámica, asignen funciones e incluso tomen medidas decisivas directamente en la interfaz. Al adjuntar runbooks a las alertas, los equipos pueden iniciar rápidamente tareas de corrección estándar, ya sea de forma automática o bajo demanda.

Coordinación de equipos en Jira Service Management

Los runbooks también son excelentes para documentar métodos de solución de problemas habituales con los que abordar alertas y resolver interrupciones. Con los runbooks, el personal tiene al alcance de la mano toda la información que necesita para evaluar rápidamente un incidente. En muchos casos, los equipos pueden reducir los tiempos de resolución de incidentes en un 40 %.

Uso de Confluence para documentar runbooks

Crea un manual de estrategias de gestión de incidentes proactiva

Planifica tu estrategia de respuesta ante incidentes con anticipación. Reducirás el estrés, mantendrás a tu equipo concentrado durante el incidente y acortarás el tiempo de resolución. Asegúrate de incluir prácticas de colaboración tanto operativas como basadas en equipos:

  • Identifica cuáles son los aspectos de la respuesta ante incidentes que tu equipo valora más y crea un plan para poner esos valores en práctica de forma sistemática. Por ejemplo, algunos de esos valores pueden ser la colaboración, la comunicación y las revisiones posteriores a incidentes "sin reproches".
  • Define claramente qué se considera un incidente grave.
  • Documenta tus prácticas para los incidentes graves.
  • Establece las comunicaciones de respuesta ante incidentes, como plantillas de respuesta y comunicaciones para las partes interesadas (tanto externas como internas).
  • Determina los miembros principales de tu equipo de equipos de respuesta ante incidentes.
  • Establece tus prácticas de PIR.
  • Realiza PIR sin acusaciones para todos los incidentes graves.
  • Publica y comparte los aprendizajes de las PIR.
  • Haz simulacros de incidentes graves.

Céntrate en mejorar el tiempo medio de recuperación (MTTR)

Establecer un proceso sólido de gestión de incidentes es esencial para reducir el impacto del incidente y restaurar los servicios cuanto antes. La clave para mejorar la respuesta es reducir el tiempo medio de recuperación (MTTR) y optimizar el análisis del origen del problema para evitar interrupciones futuras. De hecho, Forrester ha descubierto que el 70 % del tiempo de respuesta ante incidentes se dedica a la fase de investigación y diagnóstico.

Diagrama de tiempo medio de recuperación y mejora continua

Genera confianza con comunicaciones externas centralizadas

Muchos equipos utilizan un panel centralizado, como Statuspage, para informar sobre el estado de los servicios críticos. Statuspage funciona como un canal único de comunicación masiva clara y proactiva con los usuarios internos y externos, junto con notificaciones y actualizaciones automatizadas.

Statuspage mantiene a los equipos internos informados tanto del tiempo de inactividad programado como del no planificado. Los clientes y los empleados pueden suscribirse a las actualizaciones, lo que promueve una comunicación homogénea y reduce las actualizaciones manuales.

Captura de pantalla que muestra Statuspage como panel centralizado
Libro con una bombilla

Para obtener más información, consulta nuestra página de prácticas recomendadas para la gestión de incidentes.


Inicio

Gestión de solicitudes de asistencia

Inicio

Gestión de problemas