¿Qué tan Dificil es el Examen Google Cloud Data Engineering?

My experiencia + 10 tips para prepararse para el examen

7 min readMar 28, 2022

Versión del post en inglés aquí

Han pasado más de 2 años desde que di el examen a solicitud de la empresa donde trabajaba. En ese entonces solo tuve un mes para prepararme. ¿Mucho? ¿Poco? ¿Cuál creen que fue el resultado?

Google recomienda más de 3 años de experiencia en la industria, incluidos más de 1 año diseñando y administrando soluciones con GCP para tener éxito con la certificación. La verdad es que no pasé. Y debo confesar que esa experiencia me marcó tanto que los siguientes meses decidí estudiar cuanta especialización estaba disponible en ese momento en Coursera.

Estudié y estudié.

Y aún sigo estudiando…

Aunque a veces salen cosas en el camino como conferencias a las que me invitan como ponente, tener que aprender sobre DevOps, tener que aprender un nuevo lenguaje de programación, crear la comunidad de data más grande y chévere de Latinoamérica y demás cosas de la vida.

Debe haber una mejor manera de optimizar mi tiempo. De acuerdo a mi investigación, dejo aquí algunos consejos que he encontrado en la web.

Actualización: ¡En Diciembre del 2022 di nuevamente el examen y pase!

Tip 1: No puedes estudiarlo todo. Mejor estudia lo que te van a evaluar

De acuerdo a Google Cloud, la definición de lo que hace un Data Engineer es la siguiente:

El Professional Data Engineer hace posible la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de estos. El Data Engineer debe ser capaz de diseñar, compilar, poner en funcionamiento, proteger y supervisar los sistemas de procesamiento de datos, con especial énfasis en la seguridad, el cumplimiento, la escalabilidad, la eficiencia, la confiabilidad, la fidelidad, la flexibilidad y la portabilidad. Además, el Data Engineer debe ser capaz de aprovechar, implementar y entrenar constantemente los modelos preexistentes de aprendizaje automático.

Habiendo dejado eso claro, a la fecha se tienen los siguientes temas que vienen en el examen (dividido en 4 secciones):

Sección 1. Diseña sistemas de procesamiento de datos

Mapeo de sistemas de almacenamiento y requerimientos de negocio
Modelado de datos
Compensaciones entre la latencia, la capacidad de procesamiento y transacciones
Sistemas distribuidos
Diseño de esquemas
Visualización y publicación de datos (p. ej., BigQuery)
Batch y streaming de datos (p. ej., Dataflow, Dataproc, Apache Beam, Apache Spark y el ecosistema de Hadoop, Pub/Sub, Apache Kafka)
Predicciones en línea (interactivas) frente a predicciones por lotes
Automatización y organización de trabajos (p. ej., Cloud Composer)
Elección de la infraestructura
Tolerancia a errores y disponibilidad del sistema
Uso de sistemas distribuidos
Planificación de la capacidad
Edge computing y nube híbrida
Opciones de arquitectura (p. ej., agentes de mensajes, colas de mensajes, middleware, arquitectura orientada a servicios y funciones sin servidores)
Procesamiento de eventos del tipo “al menos una vez”, “en orden” y “exactamente una vez”, entre otros
Conocimiento del estado actual de los diseños y de maneras de migrarlos a un estado futuro
Migración desde las instalaciones hacia la nube (Servicio de transferencia de datos, Transfer Appliance y Cloud Networking)
Validación de migraciones

¿Bastante? ¡Esta es la sección 1 recién!.

Sección 2. Compila y pone en funcionamiento sistemas de procesamiento de datos

Uso eficaz de servicios administrados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Datastore y Memorystore)
Rendimiento y costos de almacenamiento
Administración del ciclo de vida de los datos
Limpieza de datos
Batch y streaming
Transformación
Importación y adquisición de datos
Integración con fuentes de datos nuevas
Aprovisionamiento de recursos
Supervisión de Data Pipelines
Ajuste de Data Pipelines
Pruebas y control de calidad

Sección 3. Pon en funcionamiento de modelos de aprendizaje automático

API de Machine Learning (p. ej., Vision API y Speech API)
Personalización de las API de Machine Learming (p. ej., AutoML Vision y Auto ML de textos)
Experiencias conversacionales (p. ej., Dialogflow)
Transferencia de datos adecuados
Reentrenamiento de modelos de Machine Learning (AI Platform Prediction y Training, BigQuery ML, Kubeflow y Spark ML)
Evaluación continua
Máquina individual frente a infraestructura distribuida
Uso de procesamiento perimetral
Aceleradores de hardware (p. ej., GPU y TPU)
Terminología de aprendizaje automático (p. ej., funciones, etiquetas, modelos, regresión, clasificación, recomendación, aprendizaje supervisado y no supervisado, y métricas de evaluación)
Impacto de las dependencias de los modelos de Machine Learning
Fuentes comunes de errores (p. ej., suposiciones sobre los datos)

Sección 4. Garantiza la calidad de las soluciones

Administración de identidades y accesos (Cloud IAM)
Seguridad de los datos (administración de claves y encriptación)
Garantía de privacidad (p. ej., API de Data Loss Prevention)
Cumplimiento de normativas (p. ej., Ley de Responsabilidad y Portabilidad de Seguros Médicos [HIPAA], Ley de Protección de la Privacidad de Menores en Internet [COPPA], FedRAMP y Reglamento General de Protección de Datos [GDPR])
Compilación y ejecución de paquetes de prueba
Supervisión de Data Pipelines (p. ej., Cloud Monitoring)
Evaluación, solución de problemas y mejora de las representaciones de datos y la infraestructura de procesamiento de datos
Ajuste de escala automático y cambio de tamaño de recursos
Preparación de datos y realización de controles de calidad (p. ej., Dataprep)
Verificación y supervisión
Planificación y ejecución de la recuperación de datos, y pruebas de esfuerzo respecto de los procedimientos correspondientes (p. ej., tolerancia a errores, nueva ejecución de trabajos fallidos y nuevos análisis retrospectivos)
Elección entre ACID, tareas idempotentes y requisitos con coherencia eventual
Correspondencias respecto de requisitos comerciales actuales y futuros
Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos, nubes múltiples)
Descubrimiento, categorización y staging de data.

Más detalle aquí.

Tip 2: Toma notas

No te limites a solo leer o a ver videos. Trata de aplicar un aprendizaje más activo tomando notas en un cuaderno o usando herramientas como Remnote

La primera vez verás que invertirás buen tiempo tomando notas pero el conocimiento quedará fijado más tiempo a que si solo estás en modo escucha. Recuerda, no se trata de ver la mayor cantidad de videos en menos tiempo. Ya habrá oportunidad para ver los videos a velocidad 2x del reproductor. De hecho, esto se aconseja hacer cuando ya conoces el tema y solo buscas hacer un repaso rápido.

Tip 3: ¡Estudia gratis aquí!

Google quiere que te certifiques así que te ofrece entrenamiento gratuito. No sé por cuánto tiempo esté disponible esto así que ve y aprovéchalo:

Estudia gratis

Tip 4: Lee libros

Este libro es de lectura obligatoria:

Official Google Cloud Certified Professional Data Engineer Study Guide por Dan Sullivan.

Tip 5: Lee sobre las Mejores Prácticas

Tip 6: Ponte manos a la obra con las insignias de Qwiklabs (ahora llamado cloudskillsboost)

Qwiklabs es una plataforma de aprendizaje que combina teoría y práctica a través de laboratorios donde se te proporciona acceso a la nube de GCP sin usar tu cuenta personal. Una serie de laboratorios conforman un quest. Este quest es el que necesitas para prepararte para el examen:

Engineer Data in Google Cloud

En ocasiones se dan eventos donde se regalan créditos así que tienes que estar atento.

Tip 7: Lleva el programa de preparación en Coursera

Este programa consta de los siguientes 6 cursos:

Google Cloud Big Data and Machine Learning Fundamentals
Modernizing Data Lakes and Data Warehouses with Google Cloud
Building Batch Data Pipelines on GCP
Building Resilient Streaming Analytics Systems on Google Cloud
Smart Analytics, Machine Learning, and AI on GCP
Preparing for the Google Cloud Professional Data Engineer Exam

Enlace hacia el programa en Coursera.

Tip 8: Familiarízate con el formato de las preguntas del examen y el contenido que te puede venir

Estas preguntas son del tipo para seleccionar cuál es la correcta de acuerdo al caso expuesto. Obtienes feedback sobre por qué sí y por qué no de cada opción al terminar de contestar todas las preguntas. Aquí viene el truco. Debes anotar esos tópicos en los que no te fue bien (por ejemplo, Kubernetes) y estudiarlos con mayor intensidad.

Aquí las preguntas

Tip 9: Revisa los recursos disponibles en el Hub de Aprendizaje y Certificaciones

Aquí el enlace hacia el Hub

Tip 10: ¡Agenda de una vez ese examen!

Finalmente, alguna vez escuché que una buena técnica para estudiar a conciencia es agendar el examen. Ponerte una fecha límite. De ese modo tendrás la presión de que tienes que rendir ese examen y no dejarás que el tiempo pase.

¿Tienes algún otro consejo? Cuéntame en los comentarios.

Para mayor información recomiendo lo siguiente:

Más cursos interesantes sobre Google Cloud aquí

¡Gracias por leer! ¿Quieres más?

Si presionas 50 veces el botón de like algo maravilloso sucederá.

👉Sígueme para más contenido
👉Sigue a Data Engineering Latam para más contenido sobre Ingeniería de Datos, Ciencia de Datos y Gestión de los Datos.