Sobre o curso
O curso gratuito Databricks Streaming and Lakeflow Spark Declarative Pipelines, oferecido pela Databricks, aborda pipelines de dados em tempo real. Este treinamento é ideal para profissionais que buscam aprimorar suas habilidades em engenharia de dados. Aborda também a utilização do ambiente Databricks para desenvolvimento de código. É uma oportunidade de aprender com uma instituição renomada no mercado de dados e inteligência artificial.
Você aprenderá a extrair dados de diversas fontes e aplicar transformações para limpar esses dados. O curso ensina a reestruturar e manipular dados complexos com funções integradas. Você também desenvolverá experiência na configuração e programação de pipelines de dados usando a interface e o PySpark do Lakeflow Spark Declarative Pipelines. Serão abordadas a ingestão e processamento de dados usando Auto Loader e a sintaxe PySpark, além do processamento de feeds Change Data Capture e a análise de logs de eventos para resolução de problemas.
Este curso oferece um certificado de conclusão, confirmando sua participação e aprendizado. Além disso, a Databricks, como instituição reconhecida, garante a qualidade do material. O conteúdo é entregue em formato self-paced, permitindo que o aluno aprenda no seu próprio ritmo, com vídeos sob demanda, adequados a diferentes estilos de aprendizado.
Ao longo do curso você vai aprender:
- Capacidade de realizar tarefas básicas de desenvolvimento de código utilizando o Databricks Data Engineering and Data Science workspace (criar clusters, executar código em notebooks, utilizar operações básicas de notebooks, importar repositórios do Git, etc.)
- Experiência intermédia em programação com PySpark
- Extrair dados de diversos formatos de ficheiros e fontes de dados
- Aplicar diversas transformações comuns para limpar os dados
- Reestruturar e manipular dados complexos utilizando funções integradas avançadas
- Experiência intermediária em programação com Delta Lake (criação de tabelas, realização de atualizações completas e incrementais, compressão de ficheiros, restauro de versões anteriores, etc.)
- Experiência básica na configuração e programação de pipelines de dados utilizando a interface de utilizador do Lakeflow Spark Declarative Pipelines
- Experiência básica na definição de Lakeflow Spark Declarative Pipelines utilizando o PySpark
- Ingestão e processamento de dados utilizando Auto Loader e sintaxe PySpark
- Processamento de Change Data Capture feeds com a sintaxe APPLY CHANGES INTO
- Análise de log de eventos e resultados de pipelines para resolver problemas de sintaxe de Declarative Pipeline
Sobre a Databricks