El Ingeniero SRE (Site Reliability Engineer) es responsable de operar, mantener y optimizar la infraestructura tecnológica que soporta los servicios SPEI de TDM, garantizando altos niveles de disponibilidad, confiabilidad, seguridad y cumplimiento regulatorio en entornos híbridos (AWS y On-Premise).
Su misión es asegurar la continuidad operativa de los servicios críticos de la organización mediante la implementación de prácticas de confiabilidad, automatización, monitoreo y gestión de incidentes, contribuyendo a la estabilidad de la conexión con Banco de México y al cumplimiento de las disposiciones regulatorias aplicables.
Tiene como objetivo mantener la estabilidad y disponibilidad de la infraestructura tecnológica, reducir riesgos operativos, fortalecer la observabilidad de los servicios, optimizar los procesos mediante automatización y apoyar la implementación de proyectos de infraestructura y plataforma alineados con las necesidades del negocio.
Dentro de sus principales responsabilidades se encuentran la administración y soporte de infraestructura en AWS y ambientes On-Premise; la atención, diagnóstico y resolución de incidentes escalados; la implementación y mantenimiento de infraestructura como código (IaC); la operación de herramientas de monitoreo, observabilidad y alertamiento; la ejecución de respaldos, planes de continuidad y recuperación ante desastres; la gestión de configuraciones de red, seguridad y conectividad; así como la documentación de procedimientos operativos y evidencias requeridas para auditorías y cumplimiento normativo.
Asimismo, participa en proyectos de infraestructura y plataforma, colaborando con equipos de Desarrollo, Operaciones, Seguridad, Arquitectura y NOC para implementar soluciones resilientes, automatizar procesos, fortalecer prácticas DevOps y SRE, mejorar indicadores de disponibilidad y garantizar la operación eficiente de los servicios críticos de la organización.