Misión del Puesto
- Garantizar la disponibilidad, estabilidad, continuidad y seguridad operativa de la infraestructura tecnológica de la organización mediante la supervisión proactiva del Centro de Operaciones de Red (NOC), la gestión integral de incidentes y la coordinación de la respuesta ante eventos críticos, asegurando el cumplimiento de los niveles de servicio (SLA), los requerimientos regulatorios y las mejores prácticas de operación tecnológica.
Objetivo del Puesto
- Liderar la operación 24x7 del NOC y la gestión del ciclo de vida de incidentes, asegurando la detección temprana, atención, escalamiento y resolución oportuna de eventos que afecten la infraestructura, aplicaciones y servicios críticos del negocio. Coordinar las actividades de monitoreo, continuidad operativa, mantenimiento, mejora continua y cumplimiento regulatorio para garantizar la disponibilidad y confiabilidad de los servicios tecnológicos.
Principales actividades y funciones
- Supervisar la operación continua del Centro de Operaciones de Red (NOC) asegurando el cumplimiento de los niveles de servicio establecidos.
- Monitorear en tiempo real servidores, redes, servicios críticos, infraestructura on-premise y entornos AWS.
- Gestionar el ciclo de vida completo de incidentes: detección, registro, clasificación, priorización, escalamiento, seguimiento, resolución y cierre.
- Coordinar la respuesta y recuperación ante incidentes críticos (P1 y P2), involucrando equipos internos y proveedores externos.
- Administrar y mantener infraestructura tecnológica, incluyendo servidores físicos y virtuales, redes, VPN, almacenamiento y servicios en la nube.
- Ejecutar acciones preventivas y correctivas para garantizar la continuidad operativa de los servicios.
- Coordinar ventanas de mantenimiento, cambios en producción y planes de contingencia, incluyendo procedimientos de rollback.
- Participar en la ejecución y mejora de planes de continuidad de negocio (BCP) y recuperación ante desastres (DRP).
- Elaborar análisis de causa raíz (RCA), reportes post-mortem y planes de acción derivados de incidentes mayores.
- Mantener actualizados procedimientos operativos, runbooks, matrices de escalamiento y documentación técnica.
- Generar indicadores y reportes ejecutivos relacionados con disponibilidad, incidentes, cumplimiento de SLA y desempeño de la infraestructura.
- Coordinar la relación operativa con proveedores tecnológicos, telecomunicaciones, centros de datos y organismos regulatorios cuando aplique.
- Impulsar iniciativas de mejora continua en monitoreo, observabilidad, automatización y gestión de incidentes.