SRE Manager
México, MX
Digital@FEMSA somos la división de innovación tecnológica que ofrece soluciones digitales para simplificar la vida de nuestros clientes.
Está integrada por negocios que aprovechan la tecnología para generar herramientas prácticas y confiables, como Spin by OXXO* una wallet que busca simplificar la vida de sus clientes a través de una cuenta de fondos de pago electrónico, así como distintas Soluciones para Negocios**. Somos un equipo diverso y multidisciplinario centrado en desarrollar propuestas de valor innovadoras y diferenciadas en el mercado.
Respaldados por los más de 130 años de experiencia y compromiso a la excelencia de FEMSA, somos el equipo que continúa con la misión de generar valor económico y social, ahora en la comunidad digital.
Objetivo General
El SRE (Site Reliability Engineering) Manager es responsable de liderar el equipo de SRE en Digital@femsa, garantizando la resiliencia, escalabilidad, rendimiento y costo eficiente de las aplicaciones y servicios de la empresa. Su objetivo principal es implementar y optimizar prácticas de ingeniería y de observabilidad para asegurar que los sistemas operen de manera eficiente y segura, cumpliendo los SLO’s, cuidando asi al maximo la experiencia de los usuarios. Trabajará en estrecha colaboración con equipos de ingenieria, operaciones, seguridad y producto para mejorar continuamente los servicios, las aplicaciones y los procesos operativos.
Algunas responsabilidades:
- Liderazgo de Equipo: Dirigir y gestionar el equipo de SRE, proporcionando dirección, mentoría y apoyo para el desarrollo profesional. Fomentar una cultura de colaboración y excelencia técnica.
- Desarrollo de Estrategias de Confiabilidad: Desarrollar y ejecutar estrategias para mejorar la confiabilidad, disponibilidad y rendimiento de los sistemas y servicios.
- Gestión de Incidentes y Problemas: Supervisar la atención de incidentes críticos, asegurando una rápida resolución y minimización del impacto en el negocio. Implementar y mejorar procesos de gestión de problemas con postmortems robustos y la gestion de los mismos con los equipos de ingenieria y producto.
- Automatización y Eficiencia: Promover y liderar iniciativas de automatización de procesos operativos y de despliegue, mejorando la eficiencia y reduciendo errores humanos.
- Colaboración Interfuncional: Colaborar estrechamente con equipos de desarrollo, operaciones y seguridad para asegurar que las aplicaciones sean confiables, escalables y de alto rendimiento.
- Optimización de Recursos: Monitorear y analizar el uso de recursos, identificando oportunidades de optimización y reducción de costos.
- Documentación y Reportes: Crear y mantener documentación detallada sobre configuraciones de sistemas, procedimientos operativos y mejores prácticas. Proveer reportes regulares sobre el rendimiento y la disponibilidad del sistema a la alta dirección.
- Análisis de Capacidad y Escalabilidad: Realizar análisis de capacidad para anticipar y abordar los requisitos futuros de recursos, asegurando que la infraestructura pueda escalar según las necesidades del negocio.
- Gestión de Configuración y Seguridad: Asegurar la consistencia, reproducibilidad y seguridad de las configuraciones de aplicaciones y sistemas, implementando medidas de protección adecuadas.
- Pruebas de Resiliencia: Conducir y supervisar ejercicios de chaos engineering para evaluar y mejorar la resiliencia del sistema.
- Desarrollo de Soluciones Innovadoras: Liderar la identificación y desarrollo de soluciones innovadoras para problemas técnicos complejos, asegurando la continuidad del negocio y la mejora continua.
- Optimización del Rendimiento: Identificar y optimizar cuellos de botella en el rendimiento del sistema, implementando soluciones para mejorar la eficiencia y la escalabilidad.
- Gestión de SLA, SLO y SLI: Definir, supervisar y o gestionar los acuerdos de nivel de servicio (SLA), objetivos de nivel de servicio (SLO) y indicadores de nivel de servicio (SLI) para asegurar el cumplimiento de los requisitos del negocio.
- Gestión de Proyectos: Liderar proyectos estratégicos de alto impacto relacionados con la confiabilidad, el rendimiento de los sistemas y las plataformas.
- Reportes y Métricas: Monitorear y reportar métricas de desempeño y confiabilidad, proporcionando informes regulares a la alta dirección.
- Cultura de Confiabilidad: Fomentar una cultura de confiabilidad y resiliencia en toda la organización.
- Capacitación y Desarrollo: Proporcionar capacitación y desarrollo continuo al equipo de SRE para mantener y mejorar sus habilidades y conocimientos.
- Desarrollar un equipo ágil y de alto rendimiento, promoviendo los valores Femsa y siendo un(a) embajador de una cultura de diversidad, equidad e inclusión.
- Ejecutar las evaluaciones de performance, gestión de talento, de carrera y todo el ciclo de vida de sus equipos.
- Atraer talento y formar equipos.
- Implementar rituales de agilidad que permitan tener una eficiencia best-in-class para la gestión de sus equipos, así como implementar marcos ágiles (OKR, SAFe, Kanban o cualquier marco aplicable).
- Gestionar el ciclo de vida de su equipo; contratar, onboardear, desarrollar, gestionar el desempeño y acompañar todos los eventos de la experiencia de cada persona de su equipo.
- Gestionar de manera efectiva todos los espacios de trabajo que requiera su gestión; sprint plannings, reviews, 1:1, retrospectivas, team backs, team meetings.
- Actuar como embajadores de la cultura FEMSA, promoviendo todos los frameworks que potencian nuestra cultura, promoviendo una organización de diversidad, equidad e inclusión.
- Tomar decisiones basadas en datos e indicadores; tanto a nivel ejecución de proyectos, como en la gestión de su equipo.
Requisitos:
- Formación Académica: Título universitario en Ciencias de la Computación, Ingeniería de Sistemas o experiencia equivalente. Se prefiere maestría.
- Experiencia: Más de 8 años de experiencia en roles de SRE, DevOps o administración de sistemas, con al menos 3 años en roles de liderazgo.
- Amplia experiencia con sistemas de monitoreo y alerta como Prometheus, Grafana, ELK, Datadog, New Relic, Splunk, etc.
- Experiencia en la implementación de prácticas de automatización utilizando herramientas como Terraform y Ansible.
- Profundo conocimiento de contenedores y orquestadores como Docker y Kubernetes.
- Experiencia de más de 5 años operando sistemas cloud native en AWS.
- Conocimiento en prácticas de seguridad y cumplimiento normativo.
- Familiaridad con lenguajes de scripting y programación como Python, Bash, Go.
- Excelentes habilidades de liderazgo y gestión de equipos.
- Fuertes habilidades de comunicación y capacidad para trabajar en equipo.
- Capacidad para resolver problemas complejos y tomar decisiones informadas.
- Alta capacidad de análisis y atención al detalle.
- Experiencia previa en el sector fintech es altamente deseable.
- Habilidad para gestionar múltiples proyectos simultáneamente y priorizar tareas de manera efectiva.
- Capacidad para adaptarse a un entorno de trabajo dinámico y en constante cambio.
- Inglés avanzado.
Digital FEMSA está comprometida con un lugar de trabajo diverso e inclusivo.
Somos un empleador que ofrece igualdad de oportunidades y no discrimina por motivos de raza, origen nacional, género, identidad de género, orientación sexual, discapacidad, edad u otra condición legalmente protegida.
Si desea solicitar una adaptación, notifique a su Reclutador.