Enviar candidatura ahora »

SRE Manager

Fecha:  13 sep 2024
Ubicación: 

México, MX

Empresa:  OXXO

Digital@FEMSA somos la división de innovación tecnológica que ofrece soluciones digitales para simplificar la vida de nuestros clientes.

Está integrada por negocios que aprovechan la tecnología para generar herramientas prácticas y confiables, como Spin by OXXO* una wallet que busca simplificar la vida de sus clientes a través de una cuenta de fondos de pago electrónico, así como distintas Soluciones para Negocios**. Somos un equipo diverso y multidisciplinario centrado en desarrollar propuestas de valor innovadoras y diferenciadas en el mercado. 

Respaldados por los más de 130 años de experiencia y compromiso a la excelencia de FEMSA, somos el equipo que continúa con la misión de generar valor económico y social, ahora en la comunidad digital.
 

Objetivo General

El SRE (Site Reliability Engineering) Manager es responsable de liderar el equipo de SRE en Digital@femsa, garantizando la resiliencia, escalabilidad, rendimiento y costo eficiente de las aplicaciones y servicios de la empresa. Su objetivo principal es implementar y optimizar prácticas de ingeniería y de observabilidad para asegurar que los sistemas operen de manera eficiente y segura, cumpliendo los SLO’s, cuidando asi al maximo la experiencia de los usuarios. Trabajará en estrecha colaboración con equipos de ingenieria, operaciones, seguridad y producto para mejorar continuamente los servicios, las aplicaciones y los procesos operativos. 

Algunas responsabilidades:

  1. Liderazgo de Equipo: Dirigir y gestionar el equipo de SRE, proporcionando dirección, mentoría y apoyo para el desarrollo profesional. Fomentar una cultura de colaboración y excelencia técnica. 
  2. Desarrollo de Estrategias de Confiabilidad: Desarrollar y ejecutar estrategias para mejorar la confiabilidad, disponibilidad y rendimiento de los sistemas y servicios. 
  3. Gestión de Incidentes y Problemas: Supervisar la atención de incidentes críticos, asegurando una rápida resolución y minimización del impacto en el negocio. Implementar y mejorar procesos de gestión de problemas con postmortems robustos y la gestion de los mismos con los equipos de ingenieria y producto. 
  4. Automatización y Eficiencia: Promover y liderar iniciativas de automatización de procesos operativos y de despliegue, mejorando la eficiencia y reduciendo errores humanos. 
  5. Colaboración Interfuncional: Colaborar estrechamente con equipos de desarrollo, operaciones y seguridad para asegurar que las aplicaciones sean confiables, escalables y de alto rendimiento. 
  6. Optimización de Recursos: Monitorear y analizar el uso de recursos, identificando oportunidades de optimización y reducción de costos. 
  7. Documentación y Reportes: Crear y mantener documentación detallada sobre configuraciones de sistemas, procedimientos operativos y mejores prácticas. Proveer reportes regulares sobre el rendimiento y la disponibilidad del sistema a la alta dirección. 
  8. Análisis de Capacidad y Escalabilidad: Realizar análisis de capacidad para anticipar y abordar los requisitos futuros de recursos, asegurando que la infraestructura pueda escalar según las necesidades del negocio. 
  9. Gestión de Configuración y Seguridad: Asegurar la consistencia, reproducibilidad y seguridad de las configuraciones de aplicaciones y sistemas, implementando medidas de protección adecuadas. 
  10. Pruebas de Resiliencia: Conducir y supervisar ejercicios de chaos engineering para evaluar y mejorar la resiliencia del sistema. 
  11. Desarrollo de Soluciones Innovadoras: Liderar la identificación y desarrollo de soluciones innovadoras para problemas técnicos complejos, asegurando la continuidad del negocio y la mejora continua. 
  12. Optimización del Rendimiento: Identificar y optimizar cuellos de botella en el rendimiento del sistema, implementando soluciones para mejorar la eficiencia y la escalabilidad. 
  13. Gestión de SLA, SLO y SLI: Definir, supervisar y o gestionar los acuerdos de nivel de servicio (SLA), objetivos de nivel de servicio (SLO) y indicadores de nivel de servicio (SLI) para asegurar el cumplimiento de los requisitos del negocio. 
  14. Gestión de Proyectos: Liderar proyectos estratégicos de alto impacto relacionados con la confiabilidad, el rendimiento de los sistemas y las plataformas. 
  15. Reportes y Métricas: Monitorear y reportar métricas de desempeño y confiabilidad, proporcionando informes regulares a la alta dirección. 
  16. Cultura de Confiabilidad: Fomentar una cultura de confiabilidad y resiliencia en toda la organización. 
  17. Capacitación y Desarrollo: Proporcionar capacitación y desarrollo continuo al equipo de SRE para mantener y mejorar sus habilidades y conocimientos. 
  18. Desarrollar un equipo ágil y de alto rendimiento, promoviendo los valores Femsa y siendo un(a) embajador de una cultura de diversidad, equidad e inclusión. 
  19. Ejecutar las evaluaciones de performance, gestión de talento, de carrera y todo el ciclo de vida de sus equipos. 
  20. Atraer talento y formar equipos. 
  21. Implementar rituales de agilidad que permitan tener una eficiencia best-in-class para la gestión de sus equipos, así como implementar marcos ágiles (OKR, SAFe, Kanban o cualquier marco aplicable). 
  22. Gestionar el ciclo de vida de su equipo; contratar, onboardear, desarrollar, gestionar el desempeño y acompañar todos los eventos de la experiencia de cada persona de su equipo. 
  23. Gestionar de manera efectiva todos los espacios de trabajo que requiera su gestión; sprint plannings, reviews, 1:1, retrospectivas, team backs, team meetings. 
  24. Actuar como embajadores de la cultura FEMSA, promoviendo todos los frameworks que potencian nuestra cultura, promoviendo una organización de diversidad, equidad e inclusión. 
  25. Tomar decisiones basadas en datos e indicadores; tanto a nivel ejecución de proyectos, como en la gestión de su equipo. 

Requisitos:

  1. Formación Académica: Título universitario en Ciencias de la Computación, Ingeniería de Sistemas o experiencia equivalente. Se prefiere maestría. 
  2. Experiencia: Más de 8 años de experiencia en roles de SRE, DevOps o administración de sistemas, con al menos 3 años en roles de liderazgo. 
  3. Amplia experiencia con sistemas de monitoreo y alerta como Prometheus, Grafana, ELK, Datadog, New Relic, Splunk, etc. 
  4. Experiencia en la implementación de prácticas de automatización utilizando herramientas como Terraform y Ansible. 
  5. Profundo conocimiento de contenedores y orquestadores como Docker y Kubernetes. 
  6. Experiencia de más de 5 años operando sistemas cloud native en AWS. 
  7. Conocimiento en prácticas de seguridad y cumplimiento normativo. 
  8. Familiaridad con lenguajes de scripting y programación como Python, Bash, Go. 
  9. Excelentes habilidades de liderazgo y gestión de equipos. 
  10. Fuertes habilidades de comunicación y capacidad para trabajar en equipo. 
  11. Capacidad para resolver problemas complejos y tomar decisiones informadas. 
  12. Alta capacidad de análisis y atención al detalle. 
  13. Experiencia previa en el sector fintech es altamente deseable. 
  14. Habilidad para gestionar múltiples proyectos simultáneamente y priorizar tareas de manera efectiva. 
  15. Capacidad para adaptarse a un entorno de trabajo dinámico y en constante cambio. 
  16. Inglés avanzado. 

Digital FEMSA está comprometida con un lugar de trabajo diverso e inclusivo.
 
Somos un empleador que ofrece igualdad de oportunidades y no discrimina por motivos de raza, origen nacional, género, identidad de género, orientación sexual, discapacidad, edad u otra condición legalmente protegida. 

Si desea solicitar una adaptación, notifique a su Reclutador.

Enviar candidatura ahora »