Nuevo Framework para la gestión de incidentes informáticos para su empresa

La gestión de incidentes de TI es uno de los procesos fundamentales del help desk. En esta breve guía intentaremos aprender a mejorar y analizar el proceso de gestión de incidentes.

¿Por qué necesita un nuevo framework de gestión de incidentes en TI?

Los incidentes y las interrupciones son una amenaza existencial para las empresas que construyen, operan y consumen servicios tecnológicos. Las empresas y los clientes dependen en gran medida de estos sistemas críticos. Cuando fallan, la credibilidad de los clientes puede verse irremediablemente dañada, poniendo en juego tanto la reputación de la empresa como sus ingresos.

Sus equipos ya están respondiendo a los incidentes, pero ¿cómo lo están haciendo? ¿Cómo se están adaptando a medida que cambia el panorama tecnológico? ¿Podrían hacerlo mejor?

Con este nuevo esquema  para la gestión de incidentes, te ayudamos a apuntar hacia el estado ideal y a cambiar la narrativa sobre los incidentes, pasando de la culpabilidad a la del aprendizaje a largo plazo.

También proporcionaremos patrones y ejemplos del mundo real y del tamaño adecuado que pueden utilizarse para la mejora incremental para cambiar el comportamiento con vistas a una inversión a largo plazo, dando prácticas y patrones pragmáticos y táctiles, con ejemplos de algunos de los mejores profesionales y empresas, para abordar un tema complicado que es difícil de cubrir bien.

ITIL ya no es suficiente para la gestión de incidentes.

El esquema tradicional de gestión de incidentes basado en ITIL ofrecía a las empresas una forma estructurada de clasificar, gestionar y resolver los incidentes. Este marco, así como los procesos adyacentes, como la gestión de problemas, se han convertido en el modelo de referencia para que las organizaciones se enfrenten a la realidad de la gestión de incidentes.

Sin embargo, los sistemas de software de las empresas actuales están compuestos por cientos de sistemas y tecnologías diferentes que interactúan de forma sorprendente. A medida que ha aumentado la complejidad, el marco ITIL no ha evolucionado para hacer frente a la desordenada realidad.

Por ello, la forma tradicional de pensar en los incidentes y de tratarlos se ha convertido en una deuda operativa y puede impedir que las organizaciones evolucionen. También hay una escasez de experiencia práctica y accesible sobre cómo las empresas líderes se enfrentan a las realidades de la gestión de incidentes y la respuesta en este mundo complejo.

Las deficiencias de la gestión tradicional de incidentes, problemas y solicitudes de servicio son las siguientes:

  • Se centran en culpar y señalar con el dedo frente a la investigación, el aprendizaje y la mejora.
  • Los incidentes se tratan como excepciones: Tanto los flujos de trabajo de incidentes como el trabajo de incidentes se externalizan del trabajo diario de los equipos que construyen y ejecutan el software.
  • Falta de práctica que crea una postura reactiva frente a una proactiva.
  • Enfoque en una única “causa raíz” frente a la comprensión de los múltiples factores que contribuyen y la realización de mejoras de base amplia.
  • Protocolo y estructura de respuesta insuficientes.
  • Falta de herramientas y prácticas que proporcionen visibilidad en el proceso de respuesta a incidentes.
  • Evaluación y comprensión limitadas del impacto.

¿Cuáles son los beneficios de la mejora de gestión de incidentes?

Los incidentes no pueden evitarse. Pero podemos reducir en gran medida la frecuencia, la duración y el impacto de los incidentes tanto en nuestros clientes como en los empleados que operan estos sistemas.

Las ventajas de mejorar la gestión y la respuesta a los incidentes son considerables y pueden suponer una reducción del impacto en los clientes, una mayor confianza de éstos en la empresa, una reducción del estrés en los equipos y los empleados, y un aumento de los ingresos.

Los principios generales de mejora son los siguientes

  • Avanzar hacia una “cultura justa” en la que los incidentes se utilicen como una oportunidad para aprender.
  • Integrar los flujos de trabajo y la comprensión de los incidentes en el comportamiento operativo normal a lo largo de todo el ciclo de vida del servicio.
  • Fomentar la propiedad y la responsabilidad de los resultados de los clientes.
  • Utilizar los incidentes para sacar a la luz el verdadero comportamiento del sistema de TI y del proceso.
  • Reconocer que los sistemas complejos fallan de forma sorprendente.
  • Romper los silos y crear confianza incentivando la colaboración y el aprendizaje mutuos.
    Realizar mejoras incrementales y continuas.

Un nuevo framework de gestión de incidentes

El espacio de problemas de incidentes es muy amplio, y nuestro objetivo es desglosarlo, eliminar la mitificación y crear un marco que pueda evolucionar con el tiempo con más profundidad y amplitud a medida que nuestra industria aprende más.

Proponemos este nuevo marco de gestión de incidentes: Preparar, Responder, Revisar.

La figura siguiente describe el ciclo de patrones de respuesta a incidentes Preparación, Respuesta, Revisión, así como los patrones comunes dentro de las fases de preincidente (preparación), respuesta al incidente (respuesta) y postincidente (revisión).

Preparación: Patrones antes de los incidentes

  • Hacer que los incidentes sean visibles y formen parte del trabajo diario
  • Roles bien definidos para los incidentes
  • Activadores de respuesta a incidentes bien definidos
  • Rotación y horario de guardia bien definidos
  • Incorporación y formación del personal de guardia
  • Formación y certificación del mando de incidentes
  • Plan de comunicación bien definido
  • Protocolos de comportamiento bien definidos

Respuesta: Patrones de respuesta a incidentes.

  • Informes periódicos de CAN (Condiciones, Acciones, Necesidades)
  • Documento de estado del incidente compartido
  • Grabación de llamadas de incidentes

Revisión: Patrones de respuesta tras el incidente.

  • Revisiones de incidentes localizados
  • Revisiones globales de incidentes
  • Elementos de mejora posteriores a la revisión
  • Plantilla de revisión de incidentes
  • Evaluación del impacto del incidente

Antes de profundizar en los patrones, consideramos que es esencial que las organizaciones midan lo bien que sus equipos están haciendo actualmente en la gestión de incidentes.

Evaluación de la gestión de incidentes

A continuación se presenta una evaluación de la respuesta a incidentes: una colección de preguntas de sondeo que le permiten a usted y a su equipo responder y evaluar su actual preparación para la respuesta a incidentes. Lleve estas preguntas a su equipo para ver lo bien que lo está haciendo y dónde hay áreas de mejora.

Evaluación previa a los incidentes

Preguntas para hacer en su equipo Incidentes visibles y parte del trabajo diario

¿Dispone de un backlog compartido entre los equipos de operaciones e ingeniería que haga visibles el trabajo previo, el trabajo de respuesta y el trabajo de revisión?

¿Tiene disponible capacidad en operaciones e ingeniería para el trabajo previo, el trabajo de respuesta y el trabajo de revisión?

¿Comparte y discute un backlog de incidentes de trabajo con las partes interesadas, incluida la gestión de productos?

¿Los incidentes tienen largos traspasos entre los primeros respondedores (servicio de ayuda), los respondedores secundarios y los respondedores terciarios?

Funciones de gestión de incidentes bien definidas

  • ¿Tiene funciones claras y específicas para evitar solapamientos, confusiones y retrasos?
  • ¿Quién de su equipo de respuesta a incidentes es responsable de impulsar la resolución de manera oportuna y mantener a todos los miembros del equipo de respuesta en el camino correcto?
  • ¿Realiza usted una autopsia después de cada incidente para ayudar al equipo a mejorar en las áreas que se le pasaron por alto durante el incidente?

Activadores de respuesta a incidentes bien definidos

  • ¿Su equipo está saturado de alertas y notificaciones?
  • ¿Cuánto tiempo tarda el personal de respuesta a incidentes en obtener los conocimientos necesarios para resolver el problema?
  • ¿Comprende todo el mundo el impacto empresarial asociado a las interrupciones notificadas?

Rotación y horario de guardia bien definidos

  • ¿Tienen sus equipos una rotación de guardia programada?
  • ¿Incluye la rotación de guardia a los desarrolladores?
  • ¿Pueden otros equipos encontrar fácilmente a la persona adecuada con la que contactar durante un incidente si necesitan ayuda?

Formación y certificación del mando de incidentes

  • ¿Qué actividades realiza su organización para garantizar que cada respuesta a un incidente se gestiona de forma coherente y en colaboración?
  • ¿Dispone de un programa de formación estructurado para sus líderes de respuesta a incidentes?
  • ¿Cómo comunica las funciones de respuesta a incidentes y se asegura de que cada uno de los que responden conoce esas funciones, incluyendo quién es el responsable de la resolución del incidente?

Plan de comunicación bien definido 

  • ¿Tiene un plan de comunicación de incidentes definido?
  • ¿Su plan de comunicación describe el propietario de la comunicación, la frecuencia de la comunicación, el contenido, la audiencia y la entrega?
  • ¿Tiene cada servicio/aplicación su propio plan de comunicación específico?

Evaluación activa de la respuesta a incidentes.

Informe periódico

  • ¿Cuenta su proceso de incidentes con un informe de estado/CAN bien definido para las partes interesadas?
  • ¿Ha definido una cadencia regular para enviar informes de estado/CAN a las partes interesadas?
  • ¿Dispone de un escriba dedicado a gestionar el proceso de informes CAN?

Documento compartido sobre el estado de los incidentes

¿Todos los miembros del equipo de respuesta a incidentes registran y comparten activamente la información?

¿Cómo obtienen los nuevos intervinientes la información de fondo pertinente sobre el incidente?

Grabación de llamadas de incidentes

  • ¿Graba sus llamadas de incidentes para que su equipo de respuesta a incidentes tenga la capacidad de revisar los detalles de un incidente?
  • ¿Cuenta su equipo de respuesta a incidentes con datos recogidos en caso de que el equipo principal de incidentes necesite volver a algunos eventos de resolución para abordar información perdida, confusión o desacuerdos?
  • ¿Qué información tiene su equipo para revisar durante las reuniones postmortem y de revisión de incidentes?

Despliegue del incidente

  • ¿Sus respondedores de incidentes se coordinan para resolver los incidentes más rápidamente y desarrollar el conocimiento del dominio?
  • ¿Sus tickets son gestionados por los respondedores de incidentes en tiempo real o se gestionan con un enfoque escalonado?

Evaluación posterior al incidente.

Revisiones de incidentes locales

  • ¿Cuánto tiempo después de que se resuelva un incidente, su personal de respuesta realiza una revisión?
  • ¿Fomenta su entorno la mejora continua, el aprendizaje y la responsabilidad mediante la realización de talleres de revisión de incidentes sin culpables?
  • ¿Su organización capta y comparte las mejoras de la revisión de incidentes y la documentación en toda la organización?

Revisiones globales de incidentes

  • ¿Con qué frecuencia se reúne su organización para revisar los incidentes y difundir las enseñanzas entre todos los equipos?
  • ¿Hace usted regularmente preguntas procesables para fomentar una cultura de revisión abierta de incidentes?
  • ¿Invita a los equipos multifuncionales y a las partes interesadas a crear una capacidad de recuperación en toda la organización?
  • Durante las revisiones globales de incidentes, ¿se acercan otros equipos para proporcionar asistencia para ayudar con los elementos de mejora y los patrones de mejora de base amplia?

Elementos de mejora posteriores a la revisión

  • ¿Identifican sus equipos mejoras procesables en el sistema después de un incidente?
  • ¿Se hace un seguimiento coherente de esas mejoras, se les da prioridad y se aplican?
  • ¿Sus equipos toman decisiones de compensación y riesgo sobre las mejoras en la cartera de pedidos?

Plantilla de revisión de incidentes

  • ¿Dispone de un sistema de gestión del trabajo o de un depósito central de conocimientos para almacenar y compartir la información sobre la revisión de incidentes?
  • ¿Tiene su equipo de respuesta a incidentes una plantilla de revisión de incidentes?
  • ¿Evalúa periódicamente la forma de recopilar la información sobre incidentes para identificar los ajustes necesarios?

Evaluación del impacto de los incidentes

  • ¿Tienen sus equipos un marco para evaluar el impacto de un incidente?
  • ¿La evaluación del impacto de los incidentes forma parte del proceso de revisión?
  • ¿Aprovecha la evaluación del impacto de los incidentes para descubrir el verdadero comportamiento del sistema?
  • ¿Utiliza los resultados de las evaluaciones del impacto de los incidentes para informar sobre las mejoras generales?

Preparación: Patrones antes de los incidentes

  • Hacer que los incidentes sean visibles y formen parte del trabajo diario
  • Roles bien definidos para los incidentes
  • Activadores de respuesta a incidentes bien definidos
  • Rotación y horario de guardia bien definidos
  • Incorporación y formación del personal de guardia
  • Formación y certificación del mando de incidentes
  • Plan de comunicación bien definido
  • Protocolos de comportamiento bien definidos

Respuesta: Patrones de respuesta a incidentes.

  • Informes periódicos de CAN (Condiciones, Acciones, Necesidades)
  • Documento de estado del incidente compartido
  • Grabación de llamadas de incidentes

Revisión: Patrones de respuesta tras el incidente.

  • Revisiones de incidentes localizados
  • Revisiones globales de incidentes
  • Elementos de mejora posteriores a la revisión
  • Plantilla de revisión de incidentes
  • Evaluación del impacto del incidente

Antes de profundizar en los patrones, consideramos que es esencial que las organizaciones midan lo bien que sus equipos están haciendo actualmente en la gestión de incidentes.

Evaluación de la gestión de incidentes

A continuación se presenta una evaluación de la respuesta a incidentes: una colección de preguntas de sondeo que le permiten a usted y a su equipo responder y evaluar su actual preparación para la respuesta a incidentes. Lleve estas preguntas a su equipo para ver lo bien que lo está haciendo y dónde hay áreas de mejora.

Evaluación previa a los incidentes

Preguntas para hacer en su equipo Incidentes visibles y parte del trabajo diario

¿Dispone de un backlog compartido entre los equipos de operaciones e ingeniería que haga visibles el trabajo previo, el trabajo de respuesta y el trabajo de revisión?

¿Tiene disponible capacidad en operaciones e ingeniería para el trabajo previo, el trabajo de respuesta y el trabajo de revisión?

¿Comparte y discute un backlog de incidentes de trabajo con las partes interesadas, incluida la gestión de productos?

¿Los incidentes tienen largos traspasos entre los primeros respondedores (servicio de ayuda), los respondedores secundarios y los respondedores terciarios?

Conclusión

Reconocemos que cada entorno tiene sus propias prioridades y limitaciones, pero como toda buena arquitectura, suele haber un alto porcentaje de coherencia entre las organizaciones. Los resultados clave en torno a la identificación y resolución rápida de incidentes son universales. Estos patrones se han desarrollado para reflejar esos requisitos, así como para presentar algunos patrones emergentes que han dado buenos resultados a los equipos de alto rendimiento.

El estado deseado para la respuesta a incidentes debe abarcar algunas características clave:

  • Debe ser capaz de identificar rápidamente el origen del incidente e informar a los responsables correctos con rapidez y con la información necesaria para resolver el problema.
  • Los equipos de respuesta a incidentes deben trabajar en colaboración con el objetivo común de resolver el problema con transparencia, una comunicación clara y de manera que pueda dar lugar a una mejora continua.
  • Los incidentes deben revisarse haciendo hincapié en el aprendizaje de la organización y en las acciones de mejora, en lugar de asignar la causa raíz y la culpa.

Puede contactarse sin compromiso con nuestros especialistas en Operation Management para que podamos analizar cómo optimizar su departamento IT.

Si no estás seguro de cómo empezar, dejá tus datos y nos contactaremos a la brevedad.

Error: Formulario de contacto no encontrado.

La reciente adquisición de VMware por parte de Broadcom en octubre de 2023 ha marcado un hito significativo

  • Asegurando el futuro digital de tu empresa: una guía para la seguridad informática

Asegurando el futuro digital de tu empresa: una guía para la seguridad informática En un mundo cada vez

  • cambiar de solución de Backup

5 razones para cambiar de solución de Backup ¿Cuál de las siguientes opciones llevaría a su organización a

Podemos acompañarte en tus proyectos end-to-end. Trabajemos juntos.

2022-10-24T13:09:40-03:00
Go to Top