Sobre o curso
Este curso gratuito da Databricks ensina a construir pipelines de dados usando os pipelines declarativos do Lakeflow para ingestão e processamento incremental, tanto em lote quanto em streaming. É uma oportunidade para engenheiros de dados que buscam aprimorar suas habilidades na plataforma Databricks. O treinamento aborda conceitos essenciais para o desenvolvimento de fluxos de dados eficientes e escaláveis.
Você aprenderá a criar e depurar pipelines ETL utilizando SQL no editor multi-arquivos do Lakeflow, com exemplos em Python. O curso ensina a acompanhar dependências de dados, configurar recursos de computação e agendar pipelines para produção, além de monitorar seu desempenho. Você também será capaz de integrar expectativas de qualidade para validar a integridade dos dados e implementar a captura de dados de alterações (CDC) para gerenciar dimensões que mudam lentamente.
O curso da Databricks oferece uma visão geral abrangente dos principais componentes como streaming tables e materialized views, destacando suas finalidades e diferenças. Além disso, o material de apoio apresenta informações sobre o log de eventos do pipeline para monitoramento de desempenho e integridade. Ao final, os participantes recebem um certificado de conclusão, comprovando o aprendizado.
Ao longo do curso você vai aprender:
- Desenvolvimento e depuração de pipelines ETL com o editor de vários arquivos no Lakeflow usando SQL (com exemplos de código Python fornecidos)
- Como os pipelines declarativos do Lakeflow acompanham dependências de dados em um pipeline através do gráfico de pipeline
- Configuração de recursos de computação do pipeline, ativos de dados, modos de gatilho e outras opções avançadas.
Sobre a Databricks