Métodos Descritivos de Data Mining

Objetivos

Na conclusão do curso o aluno deverá:

- Discutir criticamente as principais noções e conceitos associados ao Data Mining;

- Ser capaz de executar tarefas básicas de preparação e pré-processamento de dados;

- Descrever em detalhe o funcionamento do algoritmo k-means;

- Analisar e descrever os resultados apresentados por uma Matriz-U;

- Produzir uma segmentação, defendendo as opções tomadas e explicando as alternativas;

- Descrever o funcionamento do algoritmo apriori e a forma como são geradas as regras de associação;

- Saber calcular os principais indicadores de qualidade de regras de associação.

- Saber calcular a similaridade entre documentos de texto.

Caracterização geral

Código

200165

Créditos

7.5

Professor responsável

Mauro Castelli

Horas

Semanais - A disponibilizar brevemente

Totais - A disponibilizar brevemente

Idioma de ensino

Português. No caso de existirem alunos de Erasmus, as aulas serão leccionadas em Inglês

Pré-requisitos

O curso não pressupõe familiaridade do aluno com o tema, mas é altamente recomendável que o aluno possua conhecimentos de estatística inferencial, bem como competências como utilizador informático .

Bibliografia

Hand D. J., 1998, Data mining: statistics and more? The American Statistician, 52, 112--118. 11. Cap. 3, 6 e 8;

A. K. Jain, M.N. Murthy and P.J. Flynn, 1999 Data Clustering: A Review, ACM Computing Review.;

Han, J., Kamber, M. 2001, Data Mining - Concepts and Techniques, Morgan Kaufmann, San Francisco, California;

Berry, M.J.A. Linoff, G., 1997, Data Mining Techniques for marketing, sales and customer support. 2000, John Wiley & Sons. Cap. 1, 2, 3, 4, 5, 8 e 10;

Course Notes Enterprise MinerTM: Applying Data Mining Techniques

Método de ensino

Aulas teóricas e sessões práticas para elaboração do projecto.

Método de avaliação

1ª Época - Exame (60%), Projecto (40%).

2ª Época - Exame (60%), Projecto (40%).

Conteúdo

1. Introdução ao Data Mining

1.1. Os dados...

1.2. Os dados e as organizações

1.3. A promessa do Data Mining

1.4. Definição de Data Mining

1.5. A perspectiva empresarial

1.6. Tarefas típicas do Data Mining

1.6.1. Descoberta de Conhecimento (Clustering e Resumo)

1.6.2. Modelação Preditiva (Classificação e Regressão)

1.7. Tópicos adicionais

1.7.1. Diferentes tipos de Aprendizagem

1.7.2. A Maldição da Dimensionalidade

1.7.3. O Problema da Separabilidade

1.8. Exemplos de aplicação

2. Aspectos metodológicos do Data Mining

2.1. Definição do Problema

2.2. Recolha de dados

2.3. Metodologia de abordagem (SEMMA)

3. Visualização de dados

3.1. O papel da visualização

3.2. Lie Factor

3.3. Ferramentas de análise para dados 1d

3.4. Ferramentas de análise para dados 2d e 3d

3.5. Ferramentas de análise para dados 4d ou mais

4. Introdução às Tarefas de Preparação e Préprocessamento de Dados

4.1. Ruído vs sinal

4.2. Dados Omissos

4.3. Dados Inconsistentes

4.4. Identificação e Remoção de Outliers

4.5. Dados Temporais

4.6. Normalização de Dados

4.7. Redução da Dimensionalidade

4.8. Discretização de Valores

5. Fundamentos da Análise de Clusters

5.1. Introdução

5.2. Escolha das Variáveis

5.3. Critérios de Semelhança

5.4. Análise RFM

5.4.1. Exact quintiles

5.4.2. Hard coding

5.5. Algoritmos de Clustering

5.5.1. Algoritmos Hierárquicos

5.5.2. Algoritmo k-means

5.6. Número de Clusters

5.7. Interpretação e caracterização dos clusters

5.8. Validade da solução

6. Self-Organizing Maps

6.1. Algoritmo SOM

6.2. Parâmetros de treino

6.3. Batch

6.4. Online

6.5. Análise de resultados

6.6. Matrizes U

7. Regras de Associação

7.1. Objectivo

7.2. Tipos de Regras

7.3. Funcionamento (algoritmo apriori)

7.4. Medidas de qualidade das regras

7.5. Aspectos adicionais sobre a implementação

7.6. Extensão temporal