Curso “Analista de Dados” - curso 96.000 rublos. do Yandex Workshop, treinamento 7 meses, data 7 de dezembro de 2023.
Miscelânea / / December 02, 2023
Um analista de dados extrai significado de números e valores: ele vê tendências, prevê eventos e ajuda uma empresa a entender os clientes, otimizar processos e crescer.
O mercado precisa de especialistas que possam utilizar os dados de forma útil. Um estudo da empresa de pessoal Ancor relativo a setembro de 2022 mostrou que 45% das empresas russas procuram analistas para integrar a sua equipa.
Habilidades que você aprenderá no curso
Cargo
Analista, Analista de Dados, Analista de Dados
Oportunidades de desenvolvimento: Analista de Produto, Analista de Marketing, Analista de BI, Especialista em Ciência de Dados
Aqui estão as tecnologias e ferramentas que você usará:
Pitão
Caderno Jupyter
SQL
PostgreSQL
Quadro
Testes A/B
Comece a ganhar dinheiro analisando
Você começará de uma posição júnior e depois seguirá em frente. Você subirá na carreira e crescerá em valor. E um dia não haverá preço para você.
Programa completo do curso de análise de dados
Nós o atualizamos regularmente para garantir que atenda às necessidades da indústria e dos empregadores.
Ou seja, você aprende apenas o que com certeza será útil no seu trabalho.
Parte gratuita - 1 semana
Introdução gratuita: Noções básicas de Python e análise de dados
Aprenda os conceitos básicos de análise de dados e entenda o que os analistas e cientistas de dados fazem.
• Catnamycs de Moscou. Exibindo dados na tela. Arquivos CSV. Trabalhando com tabelas. Mapas de calor. Multiplicando uma coluna por um número inteiro.
• Erros no código. Erros de sintaxe. Erros de nomenclatura. Erros ao dividir por zero. Erros ao importar um módulo.
• Variáveis e tipos de dados. Variáveis. Tipos de dados. Operações aritméticas com números e strings.
• Como formular hipóteses. Hipóteses. Ciclos HADI. Pensamento analítico. Leitura de gráficos.
• O que os cientistas de dados fazem. Tarefas do analista. Esclarecimento de tarefas. Decomposição. Etapas do projeto.
• Verificando conversões. Conversão. Exploração de dados. Formação de conclusões.
• Retorno de campanhas publicitárias. Gráfico de colunas. Diferença de elementos. Indexação em colunas.
• Aprendizado de máquina e ciência de dados. Treinamento em aprendizado de máquina. Encontrar valores únicos em colunas. Indexação lógica. Agrupando valores em uma tabela. Erros de previsão.
• Projeto final. Segmentação de usuários.
PythonPandasErrorsSeabornHipótesesConversãoVariáveisTipos de dadosMapas de calor
1 sprint 3 semanas
Python básico
Aprofunde-se na linguagem de programação Python e na biblioteca Pandas.
• Variáveis e tipos de dados. Linguagem Python. Variáveis. Exibindo dados na tela. Exibindo objetos na tela. Tratamento de erros, tente...exceto operador. Tipos de dados. Conversões de tipo de dados.
• Linhas. Índices em linhas. Cortes de linha. Operações em strings. Métodos de string. Formatação de strings, método format(), f-strings.
• Listas. Índices em listas. Liste as fatias. Adicionando itens a uma lista. Removendo itens da lista. Adição e multiplicação de listas. • Classificando listas. Pesquise itens em uma lista. Dividir uma string em uma lista de strings, concatenar uma lista de strings em uma string.
• Loop For. Ciclos. Enumeração de elementos. Iterando sobre índices de elementos. Processando elementos de lista usando loops: encontrando a soma e o produto dos elementos.
• Listas aninhadas. Percorrendo listas aninhadas com valores de contagem. Adicionando elementos a listas aninhadas. Classificando listas aninhadas.
• Operador condicional. Enquanto loop. Tipo de dados booleano. Valores booleanos. Expressões lógicas. Expressões lógicas compostas. Declaração condicional if...elif...else. Ramificação. Filtrando listas usando um operador condicional. Enquanto loop.
• Funções. Atribuição de funções. Parâmetros e argumentos. Parâmetros com valores padrão. Argumentos posicionais e nomeados. Retornando um resultado de uma função.
• Dicionários. Chaves e valores. Procurando um valor por chave. Adicionando itens ao dicionário. Lista de dicionários. Bela produção de dicionários.
• Biblioteca Pandas. Lendo arquivos csv. Quadro de dados. Construtor de dataframe. Imprimindo a primeira e a última linha de um dataframe. Indexação em dataframes. Indexação em colunas de série.
• Pré-processamento de dados. O princípio GIGO. Renomeando colunas de dataframe. Tratamento de valores ausentes. Tratamento de duplicatas explícitas e implícitas.
• Análise de dados e apresentação de resultados. Agrupando dados. Classificando dados. Noções básicas de estatística descritiva.
• Jupyter Notebook - um notebook em uma célula. Interface do Notebook Jupyter. Atalhos do Jupyter Notebook.
LoopsPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesInstrução Condicional
Projeto
Compare os dados do usuário do Yandex Music por cidade e dia da semana.
2 sprints 2 semanas
Pré-processamento de dados
Aprenda a limpar dados de valores discrepantes, omissões e duplicatas, bem como converter diferentes formatos de dados.
• Trabalhar com passes. Conversão. Biscoitos. Variáveis categóricas e quantitativas. Tratamento de lacunas em variáveis categóricas. Tratamento de lacunas em variáveis quantitativas. Tratamento de lacunas nas variáveis quantitativas por categoria.
• Alteração de tipos de dados. Lendo arquivos Excel. Converta série em tipo numérico. Módulo numérico, método abs(). Trabalhando com data e hora. Tratamento de erros, tente...exceto operador. Mesclando dataframes, método merge(). Tabelas dinâmicas.
• Procure duplicatas. Procure duplicatas, diferenciando maiúsculas de minúsculas.
• Categorização de dados. Decomposição de tabelas. Categorização por faixas numéricas. Categorize com base em vários valores por linha.
• Pensamento sistemático e crítico no trabalho do analista. Sistemas a pensar. Causas de erros de dados. Pensamento crítico.
PythonPandasGap manipulaçãoProcessamento de dadosProcessamento duplicadoCategorização de dados
Projeto
Analise dados sobre clientes bancários e determine a parcela de clientes com capacidade de crédito.
3 sprints 2 semanas
Análise exploratória de dados
Aprenda o básico de probabilidade e estatística. Use-os para explorar as propriedades básicas dos dados, procurando padrões, distribuições e anomalias. Conheça a biblioteca Matplotlib. Desenhe diagramas e pratique a análise de gráficos.
• Primeiros gráficos e conclusões. Usando tabelas dinâmicas. Gráfico de barras. Distribuições. Diagrama de alcance.
• Estudo de fatias de dados. O método query(). Trabalhando com data e hora. Plotando gráficos usando o método plot(). Navalha de Occam.
• Trabalhar com múltiplas fontes de dados. Fatia de dados baseada em objetos externos. Adicionando novas colunas a um dataframe. Adicionando dados de outros dataframes. Renomeando colunas. Combinando tabelas usando os métodos merge() e join().
• Relacionamentos de dados. Gráfico de dispersão. Correlação de variáveis. Matriz de gráfico de dispersão.
• Validação de resultados. Consolidação de grupos. Dividindo dados em grupos.
PythonPandasMatplotlibHistogramasFatias de dadosAnálise de dadosScatterplotScatterplotVisualização de dadosEstatísticas descritivas
Projeto
Explore o arquivo de anúncios de venda de imóveis em São Petersburgo e na região de Leningrado.
4 sprints 3 semanas
Análise de dados estatísticos
Aprenda a analisar relacionamentos em dados usando métodos estatísticos. Aprenda o que são significância estatística e hipóteses.
• Combinatória. Combinações. Regra de multiplicação. Reorganizações. Número de permutações. Colocações. Número de veiculações. Combinações. Número de combinações.
• Teoria da probabilidade. Experimentar. Espaço de probabilidade. Eventos. Probabilidade. Eventos que se cruzam e são mutuamente exclusivos. Diagrama de Euler-Venn. Lei dos grandes números.
• Estatísticas descritivas. Variáveis categóricas e quantitativas. Moda e mediana. Valor médio. Dispersão. Desvio padrão. Quartis e percentis. Diagrama de alcance. Gráfico de colunas. Densidade de frequência. Gráfico de barras.
• Variáveis aleatórias. Variável aleatória discreta. Distribuição de probabilidade para uma variável aleatória discreta. Função cumulativa (função de distribuição) de uma variável aleatória discreta. Expectativa matemática de uma variável aleatória discreta. Dispersão de uma variável aleatória discreta.
• Distribuições. A experiência de Bernoulli. Experimento binomial. Distribuição binomial. Distribuição uniforme contínua. Distribuição normal. Distribuição normal padrão. CDF e PPF para distribuição normal. Distribuição de veneno. Aproximação de uma distribuição por outra.
• Testar hipóteses. População geral. Amostra. Distribuição de amostras. Teorema do limite central. Hipóteses unilaterais e bilaterais. Valor P. Testar hipóteses unilaterais e bilaterais para uma amostra. Testando a hipótese sobre a igualdade das médias de duas populações gerais. Testando a hipótese de igualdade de médias para amostras dependentes.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionsTeste de hipótesesTeoria da probabilidade
Projeto
Teste hipóteses de serviço de aluguel de scooters para ajudar a expandir seus negócios.
Corrida Extra
Teoria da probabilidade
Lembre-se ou reconheça os termos básicos da teoria das probabilidades: eventos independentes, opostos, incompatíveis, etc. Usando exemplos simples e problemas divertidos, você praticará o trabalho com números e a construção da lógica das soluções.
Este é um sprint opcional. Isso significa que cada aluno escolhe uma das opções:
• Domine um sprint adicional de 10 lições curtas, aprimore a teoria e resolva problemas.
• Abra apenas o bloco com tarefas de entrevista, relembre a prática sem teoria.
• Pule completamente o curso ou retorne quando houver tempo e necessidade.
PythonEventosProbabilidadeTeorema de BayesVariáveis AleatóriasTeoria de ProbabilidadeAnálise de Dados Estatísticos
5 sprints 1 semana
Projeto final do primeiro módulo
Aprenda como conduzir pesquisas preliminares de dados e formular e testar hipóteses.
ScipyNumpyPythonPandasMatplotlibAnálise de dadosTeste de hipótesesProcessamento de dados
Projeto
Encontre padrões nos dados de vendas de jogos.
6 sprint 2 semanas
SQL Básico
Aprenda os conceitos básicos da linguagem de consulta estruturada SQL e da álgebra relacional para trabalhar com bancos de dados. Familiarize-se com os recursos de trabalho no PostgreSQL, um popular sistema de gerenciamento de banco de dados (SGBD). Aprenda a escrever consultas de vários níveis de complexidade e a traduzir problemas de negócios em SQL. Você trabalhará com um banco de dados de uma loja online especializada em filmes e música.
• Introdução às bases de dados. Sistemas de gerenciamento de banco de dados (SGBD). Linguagem SQL. Consultas SQL. Formatando consultas SQL.
• Fatias de dados em SQL. Tipos de dados no PostgreSQL. Conversão de tipo de dados. Cláusula WHERE. Operadores lógicos. Fatias de dados. Operadores IN, LIKE, BETWEEN. Trabalhando com data e hora. Tratamento de valores ausentes. Construção CASE condicional.
• Funções de agregação. Agrupando e classificando dados. Operações matemáticas. Funções de agregação. Agrupando dados. Classificando dados. Filtragem por dados agregados, operador HAVING.
• Relacionamentos entre tabelas. Tipos de junções de tabelas. Diagramas ER. Renomeando campos e tabelas. Apelido. Mesclando tabelas. Tipos de junções: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Tipos alternativos de sindicatos UNION e UNION ALL.
• Subconsultas e expressões de tabelas comuns. Subconsultas. Subconsultas em FROM. Subconsultas em WHERE. Uma combinação de junções e subconsultas. Expressões de tabela comuns (CTE). Variabilidade de solicitações.
SQLDBMSPostgreSQLSubqueriesBases de DadosConsultas SQLFiltrar dadosClassificar dadosAgrupamento de dadosJuntar tabelasExpressões de tabela comuns
Projeto
Você escreverá uma série de consultas de complexidade variada em um banco de dados que armazena dados sobre investidores de risco, startups e investimentos neles.
7 sprint 3 semanas
Análise de indicadores de negócios
Aprenda quais são as métricas nos negócios. Aprenda a usar ferramentas para análise de dados nos negócios: análise de coorte, funil de vendas e economia unitária.
• Métricas e funis. Conversão. Funis. Funil de marketing. Impressões. Cliques. CTR. Funil de produto.
• Análise de coorte. Perfil de usuário. taxa de retenção. Taxa de rotatividade. Horizonte de análise. Visualização da análise de coorte. Análise de retenção de coortes aleatórias. Conversão na análise de coorte. Calculando métricas em Python.
• Economia unitária. Métricas LTV, CAC, ROI. ARPU, ARPU. Calculando métricas em Python. Visualização avançada de métricas. Parâmetro Sharey. Média móvel.
• Métricas personalizadas. Avaliação da atividade do usuário. Sessão do usuário. Investigação de anomalia.
MétricasFunisConversãoEconomia da unidadeAnálise de coorteMétricas do produtoMétricas de marketing
Projeto
Com base nos dados, entenda o comportamento do usuário, bem como analise a lucratividade do cliente e o ROI de publicidade para fazer recomendações ao departamento de marketing.
8 sprint 2 semanas
SQL avançado
Você fará um curso adicional sobre como trabalhar com bancos de dados e ficará ainda mais próximo dos negócios. Utilizando a linguagem SQL, você analisará o cálculo das principais métricas de negócio que conheceu no sprint “Análise de Indicadores de Negócio”. Considere trabalhar com uma ferramenta complexa como funções de janela. Aprenda a alterar o conteúdo dos bancos de dados localmente, sem simulador, usando programas clientes e bibliotecas especiais para Python.
• Cálculo de indicadores de negócios. Esquema de dados. Conversão. LTV. ARPU. ARPU. ROI. Cálculo usando SQL.
• Agregação de funções de janela. Superexpressão. Parâmetro de janela PARTITION BY.
• Funções de classificação de janelas. Funções de classificação. Operador ORDER BY da janela. ROW_NUMBER(). CLASSIFICAÇÃO(). DENSO_RANK(). NTIL(). Operadores de janela junto com funções de classificação.
• Funções de deslocamento de janela. Valores cumulativos. Funções de deslocamento. LIDERAR(). LAG(). Funções de janela e aliases.
• Análise de coorte. Taxa de retenção, taxa de rotatividade. LTV.
• Instalação e configuração do banco de dados e cliente de banco de dados. Cliente de banco de dados. Instalando o PostgreSQL. Instalando o DBeaver. Interface DBeaver. Criação de banco de dados. Implantando um dump de banco de dados. Fazendo upload dos resultados da consulta. Apresentação dos resultados da consulta.
SQLDBMSMetricsPostgreSQLDatabasesConsultas SQLFunções de janelaAnálise de coorte
Projeto
Usando Python e SQL, conecte-se a um banco de dados, calcule e visualize as principais métricas em um sistema de serviço de perguntas e respostas de programação.
9 sprint 2 semanas
Tomada de decisão nos negócios
Você aprenderá o que é o teste A/B e entenderá em quais casos ele é usado. Aprenda a projetar testes A/B e avaliar seus resultados.
• Fundamentos de testes de hipóteses em negócios. Métricas líderes. Bases de experimentos. Geração de hipóteses. Priorização de métricas. Escolhendo um método para conduzir um experimento. Métodos qualitativos para testar hipóteses. Métodos quantitativos para testar hipóteses. Vantagens e desvantagens dos testes A/B.
• Priorização de hipóteses. Estrutura do ARROZ. Parâmetro de alcance. Parâmetro de impacto. Parâmetro de confiança. Parâmetro de esforços.
• Preparação para realizar um teste A/B. Teste A/A. Erros tipo I e II. Poder do teste estatístico. Significância do teste estatístico. Comparações múltiplas, métodos para reduzir a probabilidade de erro. Cálculo do tamanho da amostra e duração de um teste A/B. Análise gráfica de métricas.
• Análise de resultados de testes A/B. Testando a hipótese de igualdade de ações. Teste de Shapiro-Wilk para testar a normalidade dos dados. Testes estatísticos não paramétricos. Teste de Mann-Whitney. Estabilidade das métricas cumulativas. Análise de outliers e bursts.
• Algoritmos comportamentais. Fatos, emoções, avaliações. Explique seu ponto de vista.
Teste A/BPriorização de hipótesesPreparação para testes A/BAnálise de resultados de testes A/BAnálise de resultados de testes A/B
Projeto
Analise os resultados dos testes A/B em uma grande loja online.
10 sprints 1 semana
Projeto final do segundo módulo
Aprenda a testar hipóteses estatísticas usando testes A/B e prepare conclusões e recomendações em formato de relatório analítico.
Funil de vendasTeste A/BProcessamento de dadosAnálise de dados de pesquisa
Projeto
Explore o funil de vendas e analise os resultados dos testes A/B no aplicativo mobile.
11 sprint 2 semanas
Como contar uma história com dados
Você aprenderá como apresentar corretamente os resultados de sua pesquisa por meio de gráficos, os números mais importantes e sua correta interpretação. Conheça as bibliotecas Seaborn e Plotly.
• Para quem, como, o que e por que contar. Apresentação do resultado da pesquisa. O público-alvo do narrador. O que e por que contar a um analista de dados.
• Biblioteca Seaborn. A biblioteca Seaborn como uma extensão da biblioteca Matplotlib. método jointplot(). Gamas de cores. Estilos de gráfico. Visualização de distribuições.
• Biblioteca plotada. Gráficos interativos. Gráfico de linha. Gráfico de colunas. Gráfico de pizza. Gráfico de funil.
• Visualização de dados em geoanalítica. Geoanalítica. Biblioteca Fólio. Exibição de mapa. Definir marcadores com coordenadas especificadas. Criando clusters de pontos. Ícones personalizados para marcadores. Horoplet.
• Preparar uma apresentação. Conclusões baseadas no estudo. Sazonalidade e fatores externos. Valores absolutos e relativos. Paradoxo de Simpson. Princípios de construção de apresentações. Relatórios no Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalíticaVisualização de dados
Projeto
Prepare um estudo de mercado com base em dados abertos sobre estabelecimentos de alimentação pública em Moscou, visualize os dados obtidos.
12 sprints 2 semanas
Criação de painéis no Tableau
Neste sprint você trabalhará com o sistema Tableau BI. Aprenda a se conectar aos dados e modificá-los, construir diferentes tipos de gráficos, montar dashboards e apresentações.
• Noções básicas de trabalho com o Tableau. Sistemas de BI. Quadro. Criando um documento. Salvando o documento. Publicação do documento.
• Trabalhar com fontes de dados. Fontes de dados. Mesclagem de dados. Método de relacionamento. Método de adesão. Método de mistura. Método de união. Alterando o formato da tabela.
• Tipos de dados. Tipos de dados básicos. Medidas. Medidas. Trabalhando com data e hora. Conjuntos. Grupos. Opções. Alterando o formato das variáveis. Nomes de medidas de variáveis, valores de medidas, contagem.
• Tabelas e cálculos. Interface de edição de planilhas. Tabelas dinâmicas. Campos calculados. Expressões LOD.
• Filtros e classificação. Classificando medidas. Classificando dimensões. Classificações aninhadas. Classificando usando um parâmetro. Filtros.
• Visualizações. Controles de visualização. Mapas de calor. Gráfico de setores. Gráficos de colunas. Histogramas. Diagramas de intervalo. Diagrama de Dispersão. Gráficos de linha. Gráficos combinados. Gráficos de área.
• Visualizações especiais e dicas de ferramentas. Cartões. Mapa de caracteres. Gráfico de bolhas. Mapa de árvore. Diagramas de visualizações circulares. Diagramas de marcadores. Gráficos de gantt. Meça nomes e meça valores em visualizações. Engenharia reversa. Dicas de ferramentas. Dicas de ferramentas com visualizações. Valores limite em gráficos. Ferramentas analíticas em Custom.
• Apresentações. Opções extras. Estudo de parâmetros típicos. Criando uma apresentação.
• Painéis. Carregando e preparando dados. Preparando visualizações. Montagem do painel. Ações. Demonstração do painel. Publicando um painel.
TableauDashboardsBI-toolsBI-toolsVisualização de dados
Projeto
Pesquise o histórico das conferências TED e crie um dashboard no Tableau com base nos dados obtidos.
Corrida Extra
Noções básicas de aprendizado de máquina
Familiarize-se com os fundamentos do aprendizado de máquina e aprenda sobre as principais tarefas do aprendizado de máquina nos negócios.
PythonPandasSklearnAprendizado de máquinaTarefas de aprendizado de máquinaAlgoritmos de aprendizado de máquina
Corrida Extra
Pratique Python
Você terá diversas aulas de laboratório com tarefas adicionais na linguagem de programação Python. Você também aprenderá como extrair dados de recursos da web.
Você irá:
• na estrutura de páginas HTML e na operação de solicitações GET,
• aprender a escrever expressões regulares simples,
• conhecer a API e o JSON,
• fazer diversas solicitações aos sites e coletar dados.
API JSONPythonRESTWeb scraping
13 sprint 3 semanas
Projeto de graduação
No último projeto, confirme que você domina uma nova profissão. Esclareça a tarefa do cliente e passe por todas as etapas da análise de dados. Agora não há aulas ou trabalhos de casa - tudo é como um trabalho de verdade.
O sprint final inclui trabalho de projeto, testes A/B e tarefas SQL, além de uma tarefa adicional. O projeto contém um enunciado do problema, o resultado esperado, um conjunto de dados e sua descrição.
A tarefa está relacionada a uma das cinco áreas de negócios:
• bancos,
• varejo,
• jogos,
• Aplicações Móveis,
• comércio eletrônico.
Não haverá descrição usual das etapas do projeto. Você mesmo trabalhará com eles.
SQ LPython PandasTableau Dashboards Postgre SQL Teste de decomposição A/B