Este livro é indicado para estudantes, desenvolvedores, engenheiros de dados, cientistas de dados e profissionais de tecnologia que buscam dominar Apache Spark na prática, em ambientes corporativos, cloud pública e integrações modernas. Você aprenderá a construir pipelines escaláveis para processamento de dados em larga escala, orquestrando workloads distribuídas com AWS EMR, Databricks, Azure Synapse e Google Cloud Dataproc. O conteúdo abrange integração com Hadoop, Hive, Kafka, SQL, Delta Lake, MongoDB e Python, além de técnicas avançadas de tuning, otimização de jobs, análise em tempo real, machine learning com MLlib e automação de workflows. Inclui:
• Implementação de pipelines ETL e ELT com Spark SQL e DataFrames
• Processamento de dados em streaming e integração com Kafka e AWS Kinesis
• Otimização de jobs distribuídos, tuning de performance e uso de Spark UI
• Integração de Spark com S3, Data Lake, NoSQL e bancos relacionais
• Deploy em clusters gerenciados na AWS, Azure e Google Cloud
• Machine Learning aplicado com MLlib, Delta Lake e Databricks
• Automação de rotinas, monitoramento e escalabilidade para Big Data
Ao final, você dominará Apache Spark como solução profissional para análise de dados, automação de processos e machine learning em ambientes complexos e de alta performance.
apache spark, big data, pipelines, processamento distribuído, aws emr, databricks, streaming, etl, machine learning, integração cloud Google Data Engineer, AWS Data Analytics, Azure Data Engineer, Big Data Engineer, MLOps, DataOps Professional
Diego Rodrigues
Autor Técnico e Pesquisador Independente
ORCID: https://orcid.org/0009-0006-
StudioD21 Smart Tech Content & Intell Systems
E-mail: [email protected]
LinkedIn: linkedin.com/in/diegoexpertai
Autor técnico internacional (tech writer) com foco em produção estruturada de conhecimento aplicado. É fundador da StudioD21 Smart Tech Content & Intell Systems, onde lidera a criação de frameworks inteligentes e a publicação de livros técnicos didáticos e com suporte por inteligência artificial, como as séries Kali Linux Extreme, SMARTBOOKS D21, entre outras.
Detentor de 42 certificações internacionais emitidas por instituições como IBM, Google, Microsoft, AWS, Cisco, META, Ec-Council, Palo Alto e Universidade de Boston, atua nos campos de Inteligência Artificial, Machine Learning, Ciência de Dados, Big Data, Blockchain, Tecnologias de Conectividade, Ethical Hacking e Threat Intelligence.
Desde 2003, desenvolveu mais de 200 projetos técnicos para marcas no Brasil, EUA e México. Em 2024, consolidou-se como um dos maiores autores de livros técnicos da nova geração, com mais de 180 títulos publicados em seis idiomas. Seu trabalho tem como base o protocolo próprio de escrita técnica aplicada TECHWRITE 2.3, voltado à escalabilidade, precisão conceitual e aplicabilidade prática em ambientes profissionais.