Sobre o curso
O curso gratuito DevOps Essentials for Data Engineering da Databricks explora o papel da integração e entrega contínuas (CI/CD) na otimização de fluxos de trabalho de engenharia de dados. Ele oferece uma base sólida para profissionais que desejam aprimorar suas habilidades em desenvolvimento e operações no contexto de dados. Este treinamento é uma oportunidade excelente para aprender as práticas mais recentes da indústria, sem nenhum custo. Conheça as ferramentas e técnicas para otimizar seus projetos. O curso visa capacitar os participantes com conhecimentos práticos e aplicáveis. Você aprenderá a aplicar princípios de modularidade no PySpark para criar componentes reutilizáveis e estruturar código de forma eficiente. O conteúdo inclui a implementação de testes unitários para funções do PySpark usando pytest, e testes de integração para pipelines de dados Databricks com DLT (Delta Live Tables) e fluxos de trabalho, garantindo a confiabilidade. Além disso, o curso aborda as operações essenciais do Git no Databricks, integrando práticas de integração contínua com pastas Git do Databricks. Você vai examinar métodos de implantação de ativos do Databricks, como REST API, CLI, SDK e DABs (Databricks Asset Bundles), para implantar e gerenciar pipelines. Ao final do curso, você será proficiente em engenharia de software e práticas recomendadas de DevOps. O treinamento oferece experiência prática em diversas ferramentas e métodos de implantação. Este curso permite que os alunos construam soluções de engenharia de dados escaláveis, sustentáveis e eficientes. Aprenda a garantir a integridade dos dados.
Ao longo do curso você vai aprender:
- papel da continuous integration e delivery (CI/CD) na otimização dos fluxos de trabalho de engenharia de dados.
- aplicar princípios de modularidade no PySpark para criar componentes reutilizáveis e estruturar código de forma eficiente
- o projeto e a implementação de testes unitários para funções do PySpark usando a estrutura pytest
- testes de integração para pipelines de dados Databricks com DLT (Delta Live Tables) e fluxos de trabalho para garantir a confiabilidade.
- operações essenciais do Git no Databricks, incluindo o uso de pastas Git do Databricks para integrar práticas de integração contínua.
- métodos de implantação de ativos do Databricks, como REST API, CLI, SDK e DABs (Databricks Asset Bundles)
Sobre a Databricks