SRE Manager

Fecha: 13 sep 2024

Ubicación:

México, MX

Empresa: OXXO

Digital@FEMSA somos la división de innovación tecnológica que ofrece soluciones digitales para simplificar la vida de nuestros clientes.

Está integrada por negocios que aprovechan la tecnología para generar herramientas prácticas y confiables, como Spin by OXXO* una wallet que busca simplificar la vida de sus clientes a través de una cuenta de fondos de pago electrónico, así como distintas Soluciones para Negocios**. Somos un equipo diverso y multidisciplinario centrado en desarrollar propuestas de valor innovadoras y diferenciadas en el mercado.

Respaldados por los más de 130 años de experiencia y compromiso a la excelencia de FEMSA, somos el equipo que continúa con la misión de generar valor económico y social, ahora en la comunidad digital.

Objetivo General

El SRE (Site Reliability Engineering) Manager es responsable de liderar el equipo de SRE en Digital@femsa, garantizando la resiliencia, escalabilidad, rendimiento y costo eficiente de las aplicaciones y servicios de la empresa. Su objetivo principal es implementar y optimizar prácticas de ingeniería y de observabilidad para asegurar que los sistemas operen de manera eficiente y segura, cumpliendo los SLO’s, cuidando asi al maximo la experiencia de los usuarios. Trabajará en estrecha colaboración con equipos de ingenieria, operaciones, seguridad y producto para mejorar continuamente los servicios, las aplicaciones y los procesos operativos.

Algunas responsabilidades:

Liderazgo de Equipo: Dirigir y gestionar el equipo de SRE, proporcionando dirección, mentoría y apoyo para el desarrollo profesional. Fomentar una cultura de colaboración y excelencia técnica.
Desarrollo de Estrategias de Confiabilidad: Desarrollar y ejecutar estrategias para mejorar la confiabilidad, disponibilidad y rendimiento de los sistemas y servicios.
Gestión de Incidentes y Problemas: Supervisar la atención de incidentes críticos, asegurando una rápida resolución y minimización del impacto en el negocio. Implementar y mejorar procesos de gestión de problemas con postmortems robustos y la gestion de los mismos con los equipos de ingenieria y producto.
Automatización y Eficiencia: Promover y liderar iniciativas de automatización de procesos operativos y de despliegue, mejorando la eficiencia y reduciendo errores humanos.
Colaboración Interfuncional: Colaborar estrechamente con equipos de desarrollo, operaciones y seguridad para asegurar que las aplicaciones sean confiables, escalables y de alto rendimiento.
Optimización de Recursos: Monitorear y analizar el uso de recursos, identificando oportunidades de optimización y reducción de costos.
Documentación y Reportes: Crear y mantener documentación detallada sobre configuraciones de sistemas, procedimientos operativos y mejores prácticas. Proveer reportes regulares sobre el rendimiento y la disponibilidad del sistema a la alta dirección.
Análisis de Capacidad y Escalabilidad: Realizar análisis de capacidad para anticipar y abordar los requisitos futuros de recursos, asegurando que la infraestructura pueda escalar según las necesidades del negocio.
Gestión de Configuración y Seguridad: Asegurar la consistencia, reproducibilidad y seguridad de las configuraciones de aplicaciones y sistemas, implementando medidas de protección adecuadas.
Pruebas de Resiliencia: Conducir y supervisar ejercicios de chaos engineering para evaluar y mejorar la resiliencia del sistema.
Desarrollo de Soluciones Innovadoras: Liderar la identificación y desarrollo de soluciones innovadoras para problemas técnicos complejos, asegurando la continuidad del negocio y la mejora continua.
Optimización del Rendimiento: Identificar y optimizar cuellos de botella en el rendimiento del sistema, implementando soluciones para mejorar la eficiencia y la escalabilidad.
Gestión de SLA, SLO y SLI: Definir, supervisar y o gestionar los acuerdos de nivel de servicio (SLA), objetivos de nivel de servicio (SLO) y indicadores de nivel de servicio (SLI) para asegurar el cumplimiento de los requisitos del negocio.
Gestión de Proyectos: Liderar proyectos estratégicos de alto impacto relacionados con la confiabilidad, el rendimiento de los sistemas y las plataformas.
Reportes y Métricas: Monitorear y reportar métricas de desempeño y confiabilidad, proporcionando informes regulares a la alta dirección.
Cultura de Confiabilidad: Fomentar una cultura de confiabilidad y resiliencia en toda la organización.
Capacitación y Desarrollo: Proporcionar capacitación y desarrollo continuo al equipo de SRE para mantener y mejorar sus habilidades y conocimientos.
Desarrollar un equipo ágil y de alto rendimiento, promoviendo los valores Femsa y siendo un(a) embajador de una cultura de diversidad, equidad e inclusión.
Ejecutar las evaluaciones de performance, gestión de talento, de carrera y todo el ciclo de vida de sus equipos.
Atraer talento y formar equipos.
Implementar rituales de agilidad que permitan tener una eficiencia best-in-class para la gestión de sus equipos, así como implementar marcos ágiles (OKR, SAFe, Kanban o cualquier marco aplicable).
Gestionar el ciclo de vida de su equipo; contratar, onboardear, desarrollar, gestionar el desempeño y acompañar todos los eventos de la experiencia de cada persona de su equipo.
Gestionar de manera efectiva todos los espacios de trabajo que requiera su gestión; sprint plannings, reviews, 1:1, retrospectivas, team backs, team meetings.
Actuar como embajadores de la cultura FEMSA, promoviendo todos los frameworks que potencian nuestra cultura, promoviendo una organización de diversidad, equidad e inclusión.
Tomar decisiones basadas en datos e indicadores; tanto a nivel ejecución de proyectos, como en la gestión de su equipo.

Requisitos:

Formación Académica: Título universitario en Ciencias de la Computación, Ingeniería de Sistemas o experiencia equivalente. Se prefiere maestría.
Experiencia: Más de 8 años de experiencia en roles de SRE, DevOps o administración de sistemas, con al menos 3 años en roles de liderazgo.
Amplia experiencia con sistemas de monitoreo y alerta como Prometheus, Grafana, ELK, Datadog, New Relic, Splunk, etc.
Experiencia en la implementación de prácticas de automatización utilizando herramientas como Terraform y Ansible.
Profundo conocimiento de contenedores y orquestadores como Docker y Kubernetes.
Experiencia de más de 5 años operando sistemas cloud native en AWS.
Conocimiento en prácticas de seguridad y cumplimiento normativo.
Familiaridad con lenguajes de scripting y programación como Python, Bash, Go.
Excelentes habilidades de liderazgo y gestión de equipos.
Fuertes habilidades de comunicación y capacidad para trabajar en equipo.
Capacidad para resolver problemas complejos y tomar decisiones informadas.
Alta capacidad de análisis y atención al detalle.
Experiencia previa en el sector fintech es altamente deseable.
Habilidad para gestionar múltiples proyectos simultáneamente y priorizar tareas de manera efectiva.
Capacidad para adaptarse a un entorno de trabajo dinámico y en constante cambio.
Inglés avanzado.

Digital FEMSA está comprometida con un lugar de trabajo diverso e inclusivo.

Somos un empleador que ofrece igualdad de oportunidades y no discrimina por motivos de raza, origen nacional, género, identidad de género, orientación sexual, discapacidad, edad u otra condición legalmente protegida.

Si desea solicitar una adaptación, notifique a su Reclutador.

Enviar candidatura ahora »