Close

Gestión de incidentes para equipos de alta velocidad

Las 7 fases de la respuesta ante incidentes eficaz

In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.

Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.

This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.

¿En qué consiste la respuesta ante incidentes?

La respuesta ante incidentes es el proceso mediante el cual una organización reacciona ante amenazas de TI, como es el caso de los ciberataques, las vulneraciones de seguridad y el tiempo de inactividad de los servidores.

Otros equipos de operaciones de TI y de DevOps pueden referirse a esta práctica como "gestión de incidentes graves" o, simplemente, "gestión de incidentes".

Proceso de respuesta ante incidentes

En las siguientes secciones se explica un proceso de respuesta ante incidentes, qué es lo que hay que hacer entre la constatación de que un servicio está inoperante y su reactivación y puesta en marcha de nuevo, según el material de nuestro propio Manual de gestión de incidentes.

En este artículo, explicaremos las siete fases clave de la respuesta ante incidentes:

  1. Detectar el incidente
  2. Definir los canales de comunicación del equipo
  3. Evaluar la repercusión y aplicar un nivel de gravedad
  4. Comunícate con los clientes
  5. Escalar a los usuarios de respuesta adecuados
  6. Delegar las funciones de respuesta ante incidentes
  7. Resolver el incidente
Flujo de trabajo de respuesta ante incidentes

Detectar el incidente

Lo ideal es que las herramientas de supervisión y generación de alertas detecten los incidentes e informen a tu equipo de ellos antes siquiera de que los clientes se enteren. No obstante, en ocasiones, la primera noticia de un incidente te llegará a través de Twitter o de tickets de atención al cliente.

Independientemente de cómo se detecte el incidente, el primer paso debería ser dejar constancia de que se ha abierto un incidente en una herramienta de monitorización de incidentes. En una solución de gestión de incidentes como Jira Service Management, las alertas y la comunicación están integradas en tu herramienta de seguimiento.

Definir los canales de comunicación del equipo

Una de las primeras cosas que hace el gestor de incidentes (GI) cuando se conecta es definir los canales de comunicación del equipo encargado de los incidentes. El objetivo en este momento es el de establecer y centrar todas las comunicaciones del equipo de incidentes en ubicaciones conocidas como, por ejemplo, las siguientes:

  • Una sala de chat en Slack u otro servicio de mensajería.
  • Un videochat en una aplicación de videoconferencias como Zoom (o, si os encontráis todos en el mismo lugar, reúne al equipo en una sala física).

Preferimos usar el videochat y una herramienta de chat de texto durante los incidentes, ya que ambos son excelentes para cosas distintas. El videochat es genial para crearnos con rapidez una imagen mental compartida del incidente mediante una conversación en grupo. Además, Slack ayuda a generar un registro con marca de tiempo del incidente, junto con una recopilación de enlaces a pantallazos, URL y paneles.

Slack y la mayoría del resto de las herramientas de chat permiten a los usuarios establecer el tema de una sala. El gestor de incidentes debe utilizar este campo para plasmar información sobre el incidente y enlaces útiles.

Por último, el GI establece su propio estado de chat personal para la clave de incidencia del incidente que está gestionando, lo cual informa a sus compañeros de que están ocupados con la gestión de un incidente.

Preparation

Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.

Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.

Identification

This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.

Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.

Containment

Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.

Eradication

Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.

Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.

Recovery

After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.

Lessons learned

Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.

Tools for effective incident response

Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes. 

Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels. 

Evaluar la repercusión y aplicar un nivel de gravedad

Después de establecer los canales de comunicación del equipo de incidentes, es momento de evaluar el incidente para que el equipo pueda decidir qué decir sobre este y quién debe corregirlo.

A continuación te mostramos una serie de preguntas que los IM deben formular a sus equipos:

  • ¿Cuál es el impacto en los clientes (a nivel interno o externo)?
  • ¿Qué ven los clientes?
  • ¿A cuántos clientes les afecta (a algunos, a todos)?
  • ¿Cuándo ha comenzado?
  • ¿Cuántos casos de soporte han abierto los clientes?
  • ¿Existen otros factores? (P. ej., Twitter, seguridad o pérdida de datos)

El siguiente paso suele consistir en asignar un nivel de gravedad.

Incident response: Frequently asked questions

Why is incident response important?

A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.

Who should be on an incident response team?

The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.

What are some challenges of incident response?

Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.

A continuación
Best Practices