Estrutura Apache Spark para desenvolvedores: nível avançado - curso 41.500 rublos. do IBS Training Center, treinamento 24 horas, data 26 de novembro de 2023.
Miscelânea / / December 05, 2023
O treinamento fornece uma compreensão detalhada da estrutura interna e do funcionamento da estrutura Apache Spark - Spark Core (RDD), Spark SQL, Spark Streaming e Spark Structured Streaming. São considerados os mecanismos para lançar componentes do cluster Spark sob o controle de diferentes gerenciadores de cluster, gerenciando a alocação de recursos (principalmente memória) e os mecanismos de trabalho dos agendadores. As vantagens do formato de representação interna do Tungsten e a operação do otimizador Catalyst são exploradas detalhadamente.
Assuntos abordados:
Arquitetura interna do Spark, ambiente de tempo de execução do Spark
Configurando o Contexto Spark, SparkConf
Internos RDD, Layout Lógico
Melhores práticas para programação com RDD
Plano físico: trabalho, etapas, tarefas
Planejadores e execução do plano físico
Ajuste de memória, serialização, cache, coleta de lixo
API de fonte de dados, representação de dados internos de tungstênio, formatos de arquivo
Otimizador de Catalisador
Microbatch Spark Streaming: recebimento e saída de dados
Streaming Estruturado: recebimento e distribuição de dados