Volver
Ostrea Solutions

Incident Senior Manager

Ostrea Solutions
Jornada Completa
1 vacante
México
Hace 2 meses

Descripción

Buscamos un Senior Incident Manager con amplia experiencia liderando la resolución de incidentes críticos y de alta severidad en entornos productivos. Este rol es clave para restablecer servicios con rapidez ante caídas mayores, coordinar equipos multidisciplinarios y asegurar prácticas efectivas de respuesta a incidentes. Además, será responsable de guiar y desarrollar a un equipo de Application Support Specialists, impulsando la excelencia operativa, la rapidez de respuesta y la mejora continua de los procesos de soporte. estión de Incidentes - Dirigir la respuesta ante incidentes críticos (caída total del servicio) y de alta severidad (intermitencias). - Coordinar equipos de ingeniería, DevOps, infraestructura y aplicaciones durante la resolución. - Actuar como Incident Commander en incidentes mayores. - Garantizar la restauración rápida del servicio minimizando el impacto en el negocio. - Mantener comunicación clara y oportuna con las partes interesadas. Gobernanza Operativa - Ser dueño y optimizar el proceso de gestión de incidentes y los flujos de escalamiento. - Asegurar la documentación completa de incidentes, líneas de tiempo y acciones de resolución. - Liderar análisis de causa raíz (RCA) y revisiones posteriores. - Identificar fallas sistémicas y coordinar planes de remediación de largo plazo. Monitoreo y Respuesta - Supervisar los sistemas de monitoreo y alertamiento de aplicaciones y servicios. - Validar que las alertas se triagen y escalen adecuadamente. - Mejorar continuamente la detección y capacidad de respuesta ante incidentes. Liderazgo de Equipo - Liderar y mentorizar a Application Support Specialists. - Brindar guía técnica en escenarios complejos de troubleshooting. - Impulsar el desarrollo de habilidades del equipo. - Coordinar guardias, turnos y cobertura operativa. Mejora Continua - Identificar incidentes recurrentes y establecer medidas preventivas. - Mejorar playbooks operativos y guías de diagnóstico. -Impulsar la automatización para reducir carga operativa.

Requerimientos

Formación y Experiencia - Licenciatura en Sistemas, Ingeniería, Informática o similar. - 5+ años en incident management, SRE o soporte productivo. - Experiencia manejando incidentes críticos en sistemas distribuidos complejos. Habilidades Técnicas - Conocimiento sólido de arquitecturas aplicativas y sistemas distribuidos. - Dominio de herramientas de monitoreo (Datadog, Grafana, Prometheus, etc.). - Familiaridad con plataformas de incident management (Jira, PagerDuty, ServiceNow). - Conocimiento de infraestructura en la nube y entornos DevOps modernos. Habilidades Blandas - Liderazgo fuerte en situaciones de alta presión. - Comunicación clara y gestión efectiva de stakeholders. - Analítico, resolutivo y orientado a resultados.
Cargando ofertas similares...

Incident Senior Manager

Ostrea Solutions

Postular