¿Qué tan Dificil es el Examen Google Cloud Data Engineering?

My experiencia + 10 tips para prepararse para el examen

David Regalado
7 min readMar 28, 2022

Versión del post en inglés aquí

Han pasado más de 2 años desde que di el examen a solicitud de la empresa donde trabajaba. En ese entonces solo tuve un mes para prepararme. ¿Mucho? ¿Poco? ¿Cuál creen que fue el resultado?

Imagen creada por el autor

Google recomienda más de 3 años de experiencia en la industria, incluidos más de 1 año diseñando y administrando soluciones con GCP para tener éxito con la certificación. La verdad es que no pasé. Y debo confesar que esa experiencia me marcó tanto que los siguientes meses decidí estudiar cuanta especialización estaba disponible en ese momento en Coursera.

Estudié y estudié.

Y aún sigo estudiando…

Aunque a veces salen cosas en el camino como conferencias a las que me invitan como ponente, tener que aprender sobre DevOps, tener que aprender un nuevo lenguaje de programación, crear la comunidad de data más grande y chévere de Latinoamérica y demás cosas de la vida.

Debe haber una mejor manera de optimizar mi tiempo. De acuerdo a mi investigación, dejo aquí algunos consejos que he encontrado en la web.

Actualización: ¡En Diciembre del 2022 di nuevamente el examen y pase!

Tip 1: No puedes estudiarlo todo. Mejor estudia lo que te van a evaluar

De acuerdo a Google Cloud, la definición de lo que hace un Data Engineer es la siguiente:

El Professional Data Engineer hace posible la toma de decisiones basada en datos mediante la recopilación, transformación y publicación de estos. El Data Engineer debe ser capaz de diseñar, compilar, poner en funcionamiento, proteger y supervisar los sistemas de procesamiento de datos, con especial énfasis en la seguridad, el cumplimiento, la escalabilidad, la eficiencia, la confiabilidad, la fidelidad, la flexibilidad y la portabilidad. Además, el Data Engineer debe ser capaz de aprovechar, implementar y entrenar constantemente los modelos preexistentes de aprendizaje automático.

Habiendo dejado eso claro, a la fecha se tienen los siguientes temas que vienen en el examen (dividido en 4 secciones):

Sección 1. Diseña sistemas de procesamiento de datos

  • Mapeo de sistemas de almacenamiento y requerimientos de negocio
  • Modelado de datos
  • Compensaciones entre la latencia, la capacidad de procesamiento y transacciones
  • Sistemas distribuidos
  • Diseño de esquemas
  • Visualización y publicación de datos (p. ej., BigQuery)
  • Batch y streaming de datos (p. ej., Dataflow, Dataproc, Apache Beam, Apache Spark y el ecosistema de Hadoop, Pub/Sub, Apache Kafka)
  • Predicciones en línea (interactivas) frente a predicciones por lotes
  • Automatización y organización de trabajos (p. ej., Cloud Composer)
  • Elección de la infraestructura
  • Tolerancia a errores y disponibilidad del sistema
  • Uso de sistemas distribuidos
  • Planificación de la capacidad
  • Edge computing y nube híbrida
  • Opciones de arquitectura (p. ej., agentes de mensajes, colas de mensajes, middleware, arquitectura orientada a servicios y funciones sin servidores)
  • Procesamiento de eventos del tipo “al menos una vez”, “en orden” y “exactamente una vez”, entre otros
  • Conocimiento del estado actual de los diseños y de maneras de migrarlos a un estado futuro
  • Migración desde las instalaciones hacia la nube (Servicio de transferencia de datos, Transfer Appliance y Cloud Networking)
  • Validación de migraciones

¿Bastante? ¡Esta es la sección 1 recién!.

Sección 2. Compila y pone en funcionamiento sistemas de procesamiento de datos

  • Uso eficaz de servicios administrados (Cloud Bigtable, Cloud Spanner, Cloud SQL, BigQuery, Cloud Storage, Datastore y Memorystore)
  • Rendimiento y costos de almacenamiento
  • Administración del ciclo de vida de los datos
  • Limpieza de datos
  • Batch y streaming
  • Transformación
  • Importación y adquisición de datos
  • Integración con fuentes de datos nuevas
  • Aprovisionamiento de recursos
  • Supervisión de Data Pipelines
  • Ajuste de Data Pipelines
  • Pruebas y control de calidad

Sección 3. Pon en funcionamiento de modelos de aprendizaje automático

  • API de Machine Learning (p. ej., Vision API y Speech API)
  • Personalización de las API de Machine Learming (p. ej., AutoML Vision y Auto ML de textos)
  • Experiencias conversacionales (p. ej., Dialogflow)
  • Transferencia de datos adecuados
  • Reentrenamiento de modelos de Machine Learning (AI Platform Prediction y Training, BigQuery ML, Kubeflow y Spark ML)
  • Evaluación continua
  • Máquina individual frente a infraestructura distribuida
  • Uso de procesamiento perimetral
  • Aceleradores de hardware (p. ej., GPU y TPU)
  • Terminología de aprendizaje automático (p. ej., funciones, etiquetas, modelos, regresión, clasificación, recomendación, aprendizaje supervisado y no supervisado, y métricas de evaluación)
  • Impacto de las dependencias de los modelos de Machine Learning
  • Fuentes comunes de errores (p. ej., suposiciones sobre los datos)

Sección 4. Garantiza la calidad de las soluciones

  • Administración de identidades y accesos (Cloud IAM)
  • Seguridad de los datos (administración de claves y encriptación)
  • Garantía de privacidad (p. ej., API de Data Loss Prevention)
  • Cumplimiento de normativas (p. ej., Ley de Responsabilidad y Portabilidad de Seguros Médicos [HIPAA], Ley de Protección de la Privacidad de Menores en Internet [COPPA], FedRAMP y Reglamento General de Protección de Datos [GDPR])
  • Compilación y ejecución de paquetes de prueba
  • Supervisión de Data Pipelines (p. ej., Cloud Monitoring)
  • Evaluación, solución de problemas y mejora de las representaciones de datos y la infraestructura de procesamiento de datos
  • Ajuste de escala automático y cambio de tamaño de recursos
  • Preparación de datos y realización de controles de calidad (p. ej., Dataprep)
  • Verificación y supervisión
  • Planificación y ejecución de la recuperación de datos, y pruebas de esfuerzo respecto de los procedimientos correspondientes (p. ej., tolerancia a errores, nueva ejecución de trabajos fallidos y nuevos análisis retrospectivos)
  • Elección entre ACID, tareas idempotentes y requisitos con coherencia eventual
  • Correspondencias respecto de requisitos comerciales actuales y futuros
  • Diseño de la portabilidad de aplicaciones y datos (p. ej., requisitos de residencia de datos, nubes múltiples)
  • Descubrimiento, categorización y staging de data.

Más detalle aquí.

Tip 2: Toma notas

No te limites a solo leer o a ver videos. Trata de aplicar un aprendizaje más activo tomando notas en un cuaderno o usando herramientas como Remnote

La primera vez verás que invertirás buen tiempo tomando notas pero el conocimiento quedará fijado más tiempo a que si solo estás en modo escucha. Recuerda, no se trata de ver la mayor cantidad de videos en menos tiempo. Ya habrá oportunidad para ver los videos a velocidad 2x del reproductor. De hecho, esto se aconseja hacer cuando ya conoces el tema y solo buscas hacer un repaso rápido.

Tip 3: ¡Estudia gratis aquí!

Google quiere que te certifiques así que te ofrece entrenamiento gratuito. No sé por cuánto tiempo esté disponible esto así que ve y aprovéchalo:

Estudia gratis

Tip 4: Lee libros

Este libro es de lectura obligatoria:

Official Google Cloud Certified Professional Data Engineer Study Guide por Dan Sullivan.

Tip 5: Lee sobre las Mejores Prácticas

Tip 6: Ponte manos a la obra con las insignias de Qwiklabs (ahora llamado cloudskillsboost)

Qwiklabs es una plataforma de aprendizaje que combina teoría y práctica a través de laboratorios donde se te proporciona acceso a la nube de GCP sin usar tu cuenta personal. Una serie de laboratorios conforman un quest. Este quest es el que necesitas para prepararte para el examen:

En ocasiones se dan eventos donde se regalan créditos así que tienes que estar atento.

Tip 7: Lleva el programa de preparación en Coursera

Este programa consta de los siguientes 6 cursos:

  • Google Cloud Big Data and Machine Learning Fundamentals
  • Modernizing Data Lakes and Data Warehouses with Google Cloud
  • Building Batch Data Pipelines on GCP
  • Building Resilient Streaming Analytics Systems on Google Cloud
  • Smart Analytics, Machine Learning, and AI on GCP
  • Preparing for the Google Cloud Professional Data Engineer Exam

Enlace hacia el programa en Coursera.

Tip 8: Familiarízate con el formato de las preguntas del examen y el contenido que te puede venir

Estas preguntas son del tipo para seleccionar cuál es la correcta de acuerdo al caso expuesto. Obtienes feedback sobre por qué sí y por qué no de cada opción al terminar de contestar todas las preguntas. Aquí viene el truco. Debes anotar esos tópicos en los que no te fue bien (por ejemplo, Kubernetes) y estudiarlos con mayor intensidad.

Aquí las preguntas

Tip 9: Revisa los recursos disponibles en el Hub de Aprendizaje y Certificaciones

Aquí el enlace hacia el Hub

Tip 10: ¡Agenda de una vez ese examen!

Finalmente, alguna vez escuché que una buena técnica para estudiar a conciencia es agendar el examen. Ponerte una fecha límite. De ese modo tendrás la presión de que tienes que rendir ese examen y no dejarás que el tiempo pase.

¿Tienes algún otro consejo? Cuéntame en los comentarios.

Para mayor información recomiendo lo siguiente:

  • Más cursos interesantes sobre Google Cloud aquí

¡Gracias por leer! ¿Quieres más?

Si presionas 50 veces el botón de like algo maravilloso sucederá.

  • 👉Sígueme para más contenido
  • 👉Sigue a Data Engineering Latam para más contenido sobre Ingeniería de Datos, Ciencia de Datos y Gestión de los Datos.

--

--

David Regalado
David Regalado

Written by David Regalado

I think therefore I write (and code!) | VP of Engineering @Stealth Startup | Founder @Data Engineering Latam community | More stuff: beacons.ai/davidregalado

Responses (1)