Abordagens modernas para gerenciamento de dados - curso RUB 27.900. do IBS Training Center, treinamento de 16 horas, data 26 de novembro de 2023.
Miscelânea / / December 02, 2023
Ao projetar aplicativos, uma das decisões importantes é como armazenar dados. Durante várias décadas, os SGBDs relacionais foram a primeira e única opção; os projetos diferiam apenas no grau de normalização, localização da lógica de negócios, etc. Os últimos Dez a quinze anos, sistemas alternativos floresceram rapidamente - de SGBDs orientados a objetos e orientados a documentos até sistemas de arquivos distribuídos e sistemas de processamento de fluxo dados. O curso examina uma gama de soluções modernas que permitem o armazenamento seguro de dados a longo prazo, razões para o surgimento de soluções de diferentes classes, suas vantagens, desvantagens e métodos preferidos usar.
Assuntos abordados:
1. Evolução das abordagens ao armazenamento de dados (teoria – 2 horas).
Bancos de dados, data warehouses, mecanismos de banco de dados, arquiteturas massivamente paralelas, hiperconvergência.
2. Modelo relacional (teoria – 2 horas).
Que problemas isso resolve e a que custo?
Replicação, fragmentação e transações distribuídas.
3. Modelo de valor-chave mínimo (teoria – 1 hora, prática – 1 hora).
Opções de estrutura chave, opções de estrutura de valor, interfaces de software.
Eficiência no uso de bancos de dados não relacionais: condições necessárias e suficientes [Cassandra, HBase].
4. Modelo orientado a documentos [MongoDB] (teoria – 0,5 horas, prática – 0,5 horas).
5. Sistemas de arquivos distribuídos em vez de modelos de dados: arquitetura de cluster [HDFS] (teoria - 1 hora, prática - 1 hora).
6. SQL sobre sistemas de arquivos distribuídos (teoria – 1 hora, prática – 2 horas).
Opções de arquitetura, formatos de arquivo, restrições, transações [Hive, Spark, Spark SQL, Parquet, ORC].
7. Sistemas distribuídos de armazenamento de dados em RAM [Hazelcast, Ignite, Tarantool] (teoria – 1 hora).
8. Sistemas OLAP distribuídos [Clickhouse, Druid] (teoria – 1 hora).
9. Processamento de fluxos de dados [Spark Streaming] (teoria – 1 hora).
10. Bases de dados autoconfiguráveis e autónomas (teoria – 1 hora).