Christof Leng, líder de ingeniería de confiabilidad del sitio en Google, presentó ProdEx, su programa de evaluación de excelencia en la fabricación de equipos SRE que ayuda a administrar el riesgo operativo, promover las mejores prácticas y mejorar continuamente Google SRE.

SRE en Google es una organización central especializada organizada en productos individuales y grupos comerciales con los que están alineados. Pero SRE también es una comunidad que construye plataformas en conjunto, establece estándares y promueve las mejores prácticas para que aprendan unos de otros y crezcan. Ese es el propósito de ProdEx. El programa de revisión de producción (ProdEx) inició en 2015 y hoy tienen más de 100 equipos de SRE inscritos. Se realizaron más de 1000 revisiones, realizadas por más de 40 revisores, tanto internos como externos a la organización de la SRE.

La misión y los objetivos de ProdEx son promover las mejores prácticas y la salud productiva en SRE. Evalúa áreas de riesgo clave para la fabricación de servicios propiedad de la SRE; identificar equipos de SRE que necesitan ayuda; proporcionar oportunidades de entrenamiento para los equipos de SRE; y mejorar la visibilidad y la conciencia del liderazgo de SRE dentro de SRE.

Para ello, han desarrollado y adoptado un enfoque estructurado para cada una de estas revisiones con estadísticas compartidas. Utilizan herramientas especiales para la recopilación automatizada de datos. Los equipos se evalúan al menos una vez al año y los equipos que tienen dificultades pueden evaluarse con más frecuencia. Todas las mejoras identificadas que resultan de las revisiones se rastrean como elementos de acción.

Descripción general del programa ProdEx de Google

En general, dos revisores senior (directores o ingenieros en jefe) realizan las evaluaciones de salud operativa del equipo SRE. Para ello, se centran en 6 áreas de competencia:

La información del equipo, como los estatutos y una hoja de ruta clara para guiarlos hacia sus objetivos. El estado de presencia del equipo, para evaluar su fatiga y la calidad del buscapersonas: su carga de incidentes, su relación alerta-incidente, rotación de personal de guardia y sus incidentes accidentales. Las interrupciones del equipo, para comprobar si tienen el ancho de banda para dedicarse a trabajos técnicos importantes. Los SLO y la autopsia del equipo, para verificar que el rendimiento de su sistema se mide y se alinea con las necesidades de los usuarios. La integridad de los datos del equipo, para identificar cualquier riesgo relacionado con la pérdida de datos. La planificación de la capacidad del equipo, para minimizar los costos de la utilización subóptima y la gestión manual de la capacidad.

El impacto y los resultados hasta la fecha son significativos, con más equipos inscritos en el programa. Por ejemplo, en el primer año que realizaron estas evaluaciones, solo el 23 % de los equipos obtuvieron puntajes altos. A lo largo de los años, este porcentaje ha aumentado hasta el 66%. Al mismo tiempo, la fracción de equipos de riesgo que puntuaron bajo disminuyó del 44 % al 9 %.

La carga del buscapersonas y la cantidad de incidentes se redujeron en un 34 %, lo que redujo la fatiga del equipo. La integridad de los datos de los equipos se convirtió en el componente más predictivo del puntaje de salud general: es poco probable que los equipos que obtienen un puntaje bajo en la integridad de los datos tengan un buen desempeño. Y ahorraron miles de horas de tiempo de liderazgo necesarias para completar las evaluaciones gracias a la preparación de evaluación automatizada.

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *