Aprendizado de máquina na prática - curso 41.500 rublos. do IBS Training Center, treinamento 24 horas, data 26 de novembro de 2023.
Miscelânea / / December 02, 2023
O curso é construído em torno de diversos casos práticos contendo tabelas com dados iniciais.
Para cada caso, percorremos todo o ciclo de vida de um projeto de aprendizado de máquina:
pesquisa, limpeza e preparação de dados,
escolher um método de treinamento apropriado para a tarefa (regressão linear para regressão, floresta aleatória para classificação, K-means e DBSCAN para clustering),
treinamento usando o método escolhido,
avaliação de resultados,
otimização do modelo,
apresentação do resultado ao cliente.
Durante a parte de discussão do curso, discutimos problemas práticos enfrentados pelos alunos que podem ser resolvidos usando os métodos discutidos.
Assuntos abordados:
1. Revisão da tarefa (teoria – 1 hora)
Quais problemas são bem resolvidos pelo aprendizado de máquina e quais problemas eles estão tentando resolver?
O que acontece se, em vez de um Cientista de Dados, você contratar um não especialista na área (apenas um desenvolvedor/analista/gerente) com a expectativa de que ele aprenda no processo.
2. Preparação, limpeza, pesquisa de dados (teoria – 1 hora, prática – 1 hora)
Como entender os dados comerciais de origem (e geralmente detectar qualquer ordem neles).
Sequência de processamento.
O que pode e deve ser delegado aos analistas de domínio e o que é melhor feito pelo próprio Cientista de Dados.
Prioridades para resolver um problema específico.
3. Classificadores e Regressores (teoria – 2 horas, prática – 2 horas)
Seção prática - tarefas bem formalizadas com dados preparados.
Diferença entre tarefas (classificação binária/não binária/probabilística, regressão), redistribuição de tarefas entre classes.
Exemplos de classificação de problemas práticos.
4. Clustering (teoria – 1 hora, prática – 2 horas)
Onde e como realizar o agrupamento: pesquisa de dados, verificação do enunciado do problema, verificação dos resultados.
Quais casos podem ser reduzidos ao agrupamento.
5. Avaliação do modelo (teoria – 1 hora, prática – 1 hora)
Métricas de negócios e métricas técnicas.
Métricas para problemas de classificação e regressão, matriz de erros.
Métricas internas e externas de qualidade de cluster.
Validação cruzada.
Avaliando a reciclagem.
6. Otimização (teoria – 5 horas, prática – 3 horas)
O que torna um modelo melhor que outro: parâmetros, características, conjuntos.
Gerenciamento de configurações.
Prática de seleção de recursos.
Revisão de ferramentas para encontrar os melhores parâmetros, características e métodos.
7. Gráficos, relatórios, trabalho com tarefas ao vivo (teoria – 2 horas, prática – 2 horas)
Como explicar claramente o que está acontecendo: para você, para a equipe, para o cliente.
Respostas mais bonitas para perguntas sem sentido.
Como apresentar três terabytes de resultados em um slide.
Testes semiautomáticos, quais pontos de controle de processo são realmente necessários.
De tarefas ao vivo a um processo completo de P&D (“P&D na prática”) - análise e análise de tarefas do público.