Pré-processamento de Dados

Objetivos

1. Compreender o que é o pré-processamento de dados e por que é necessário como parte de uma metodologia global de ciência de dados e aprendizagem automática
2. Analise e entenda os problemas de qualidade de dados e como resolvê-los
3. Aplicar funções específicas para auxiliar na limpeza e transformação de seus dados
4. Ser capaz de resumir seus dados usando algumas estatísticas e visualização de dados
5. Ser capaz de lidar com dados ausentes e detetar outliers
6. Ser capaz de lidar com dados high-dimensional

Caracterização geral

Código

200199

Créditos

3.5

Professor responsável

Docente a designar

Horas

Semanais - A disponibilizar brevemente

Totais - A disponibilizar brevemente

Idioma de ensino

Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês

Pré-requisitos

  

Bibliografia

- Garcia, S., Luengo, J., Herrera, F. (2015). Data Preprocessing in Data Mining, Springer.

Método de ensino

A unidade curricular é baseada em aulas teóricas e práticas. Serão aplicadas diversas estratégias de ensino, incluindo exposição e demonstrações com apresentação de slides, aplicações passo a passo (com e sem software), perguntas e respostas. As sessões incluem apresentação de conceitos e metodologias, resolução de exemplos, discussão e interpretação de resultados. A componente prática está orientada para a resolução de problemas e exercícios, incluindo a discussão e interpretação de resultados. É igualmente proposto um caderno de exercícios que deverão ser resolvidos com trabalho individual fora das aulas.


 
 

Método de avaliação

Avaliação:
1ª época: projeto (40%), exame 1º época (60%)
2ª época: exame final (100%)

Conteúdo

1. O que é pré-processamento de dados?
2. O que são dados sujos?
3. Estruturando Dados
4. Visão geral da limpeza de dados
5. Qualidade de dados. Desafios da Qualidade de Dados
6. Arquivos brutos e formatos de arquivo
7. Dados estruturados
8. Pesquisando Dados
9. Dados omissos
10. Deteção Outliers
11. Dados high-dimension
12. Escalamento de variáveis