Buscamos un Senior Incident Manager con amplia experiencia liderando la resolución de incidentes críticos y de alta severidad en entornos productivos. Este rol es clave para restablecer servicios con rapidez ante caídas mayores, coordinar equipos multidisciplinarios y asegurar prácticas efectivas de respuesta a incidentes. Además, será responsable de guiar y desarrollar a un equipo de Application Support Specialists, impulsando la excelencia operativa, la rapidez de respuesta y la mejora continua de los procesos de soporte.
estión de Incidentes
- Dirigir la respuesta ante incidentes críticos (caída total del servicio) y de alta severidad (intermitencias).
- Coordinar equipos de ingeniería, DevOps, infraestructura y aplicaciones durante la resolución.
- Actuar como Incident Commander en incidentes mayores.
- Garantizar la restauración rápida del servicio minimizando el impacto en el negocio.
- Mantener comunicación clara y oportuna con las partes interesadas.
Gobernanza Operativa
- Ser dueño y optimizar el proceso de gestión de incidentes y los flujos de escalamiento.
- Asegurar la documentación completa de incidentes, líneas de tiempo y acciones de resolución.
- Liderar análisis de causa raíz (RCA) y revisiones posteriores.
- Identificar fallas sistémicas y coordinar planes de remediación de largo plazo.
Monitoreo y Respuesta
- Supervisar los sistemas de monitoreo y alertamiento de aplicaciones y servicios.
- Validar que las alertas se triagen y escalen adecuadamente.
- Mejorar continuamente la detección y capacidad de respuesta ante incidentes.
Liderazgo de Equipo
- Liderar y mentorizar a Application Support Specialists.
- Brindar guía técnica en escenarios complejos de troubleshooting.
- Impulsar el desarrollo de habilidades del equipo.
- Coordinar guardias, turnos y cobertura operativa.
Mejora Continua
- Identificar incidentes recurrentes y establecer medidas preventivas.
- Mejorar playbooks operativos y guías de diagnóstico.
-Impulsar la automatización para reducir carga operativa.
Volver
Incident Senior Manager
Ostrea Solutions
Jornada Completa
Soporte Aplicativo
1 vacante
México
Publicado hace menos de un mes
Descripción
Requerimientos
Formación y Experiencia
- Licenciatura en Sistemas, Ingeniería, Informática o similar.
- 5+ años en incident management, SRE o soporte productivo.
- Experiencia manejando incidentes críticos en sistemas distribuidos complejos.
Habilidades Técnicas
- Conocimiento sólido de arquitecturas aplicativas y sistemas distribuidos.
- Dominio de herramientas de monitoreo (Datadog, Grafana, Prometheus, etc.).
- Familiaridad con plataformas de incident management (Jira, PagerDuty, ServiceNow).
- Conocimiento de infraestructura en la nube y entornos DevOps modernos.
Habilidades Blandas
- Liderazgo fuerte en situaciones de alta presión.
- Comunicación clara y gestión efectiva de stakeholders.
- Analítico, resolutivo y orientado a resultados.
Cargando ofertas similares...