Pré-processamento de Dados
Objetivos
Apesar da tarefa de pre processamento de dados ser muitas vezes considerada a atividade mais morosa e que requer um esforço maior aquando da realização de um projeto de analise de dados, a verdade é que também é muitas vezes negligenciada. Pre processamento de dados é uma atividade geralmente pouco controlada, o que resulta na existência de dados incoerentes e com diversos problemas (valores omissos, observações extremas, etc.). Sem dados convenientemente tratados e preparados, qualquer analise empírica, desde simples testes de hipóteses até ao desenvolvimento de redes neuronais para fins preditivos, não será confiável. Estes só produzem bons resultados se também os dados utilizados forem bons e de qualidade. Por conseguinte, esta unidade curricular tem como objetivos apresentar os métodos mais importantes em pre processamento de dados, sendo estes fundamentais para qualquer tarefa analítica, proporcionando aos alunos o conhecimento base para as suas futuras análises como gestores de informação.
Caracterização geral
Código
100222
Créditos
4.0
Professor responsável
Joana Paisana Pires Costa das Neves
Horas
Semanais - A disponibilizar brevemente
Totais - A disponibilizar brevemente
Idioma de ensino
Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês
Pré-requisitos
N/A
Bibliografia
- Linoff, Gordon & Berry, Michael. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management (2011).
- García, Salvador, Luengo, Julián & Herrera, Francisco. Data Preprocessing in Data Mining (2015).
- Hair, Black, Babin & Anderson. Multivariate Data Analysis (2014).
- Jonh W. Graham. Missing data: Analysis and Design (2012).
- Tamara Munzner. Visualization Analysis & Design (2014).
- Courses slides
Método de ensino
A unidade curricular é baseada num misto entre aulas teóricas e práticas. Em cada aula serão introduzidos novos conceitos e metodologias, assim como serão aplicados os conceitos aprendidos através da realização de exercícios com diferentes softwares. Serão utilizadas diferentes estratégias de aprendizagem, nomeadamente, apresentação de slides, demonstrações e tutoriais. A componente mais prática é focada na utilização e exploração de diferentes softwares, incluindo também discussões com os alunos sobre diversos cenários.
Método de avaliação
Avaliação Contínua:
- Quiz (10%) - 10 de novembro
- Projeto de grupo (35%) - entrega: 17 de dezembro
- Exame (55%)
2º Época :
- Projeto de grupo (35%)
- Exame (65%)
Nota: Quiz, exame e o projeto de grupo tem uma nota mínima de oito valores em 20; O projeto de grupo tem exatamente 4 membros.
Conteúdo
PROGRAMA
- Capitulo 1 - Introdução a Pre processamento de Dados
- Capitulo 2 - Introdução a Data Mining
- Capitulo 3 - Construir ABT
- Capítulo 4 - Combinar Datasets
- Capítulo 5 - Técnicas de Data Mining
- Capítulo 6 - Exploraçao dos dados e outliers
- Capítulo 7 - Lidar com valores omissos
- Capítulo 8 - Transformação de dados
- Capítulo 9 - Lidar com dados esparsos
- Capitulo 10 - Visualização de dados
BIBLIOGRAFIA
- Linoff, Gordon & Berry, Michael. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management (2011).
- García, Salvador, Luengo, Julián & Herrera, Francisco. Data Preprocessing in Data Mining (2015).
- Hair, Black, Babin & Anderson. Multivariate Data Analysis (2014).
- Jonh W. Graham. Missing data: Analysis and Design (2012).
- Tamara Munzner. Visualization Analysis & Design (2014).
- Slides do curso.
SOFTWARE, AULAS PRÁTICAS E PROJETO
Durante as aulas práticas serão usados os seguintes softwares: MS Excel, SAS Enterprise Guide e SAS Enterprise Miner, e PowerBI. É importante realçar que as aulas práticas não excluem a necessidade dos alunos praticarem e usarem os softwares nos tempos extra aula.
AVALIAÇÃO
A unidade curricular é baseada num misto entre aulas teóricas e práticas. Em cada aula serão introduzidos novos conceitos e metodologias, assim como serão aplicados os conceitos aprendidos através da realização de exercícios com diferentes softwares. Serão utilizadas diferentes estratégias de aprendizagem, nomeadamente, apresentação de slides, demonstrações e tutoriais. A componente mais prática é focada na utilização e exploração de diferentes softwares, incluindo também discussões com os alunos sobre diversos cenários.
Avaliação:
Avaliação Contínua:
- Quiz (10%) - 10 de novembro
- Projeto de grupo (35%) - entrega: 17 de dezembro
- Exame (55%)
2º Época:
- Projeto de grupo (35%)
- Exame (65%)
Nota: Quiz, exame e o projeto de grupo tem uma nota mínima de oito valores em 20; O projeto de grupo tem exatamente 4 membros