Descoberta de Conhecimento

Objetivos

Objectivos:

Compreender e desenvolver processos de tratamento e análise de dados.

Aprender e compreender o funcionamento de algoritmos de análise de dados empregues em tarefas de classificação de dados não encontrados anteriormente, aprendizagem supervisionada e não supervisionada, regras de associação (“se gosta de X provavelmente estará interessado em Y, Z e W”).

Conceitos de tratamento e análise de dados Big Data. Ferramentas que permitem lidar com Big Data na Cloud (baseado em tecnologias Google). Processar terabytes em segundos e petabytes em minutos.

Vídeo: Machine Learning: Making Sense of a Messy World

Ferramentas para Inteligência Artificial.

Ética no tratamento de dados sob a  forma de debates entre grupos de alunos

Desenvolver também Capacidades Não Técnicas:

Capacidade de comunicação oral e escrita

Realização de uma demonstração

Relatório da análise, desenho e implementação de uma solução

Organização de trabalho, gestão do tempo e cumprimento de prazos

Trabalho e colaboração em equipa

Capacidade de investigação e autonomia


Caracterização geral

Código

12793

Créditos

6.0

Professor responsável

João Paulo Branquinho Pimentão, Pedro Alexandre da Costa Sousa

Horas

Semanais - 4

Totais - 56

Idioma de ensino

Português

Pré-requisitos

Inexistentes

Bibliografia

Data Mining de Eibe Frank, Christopher Pal, Mark Hall e Ian H. Witten, ISBN: 9780128042915, ELSEVIER SCIENCE & TECHNOLOGY

Handbook of Data Mining and Knowledge Discovery 1st Edition, by Jan Zyt (Author), Willi Klosgen (Editor), the late Jan M. Zytkow (Editor), ISBN-13: 978-0195118315

Big Data Analytics: Systems, Algorithms, Applications 1st ed. 2019 Edition, by C.S.R. Prabhu (Author), at all. , ISBN-13: 978-9811500930

Information theory, inference, and learning algorithms - Mackay, David, Cambridge University Press, ISBN: 978-0521642989

Principles of data mining - Hand, David; Smyth, Padhrai; Mannila, Heikki, MIT Press, ISBN: 978-0262082907

Pattern recognition and machine learning - Bishop, Christopher M., Springer, ISBN: 978-0387310732

Visualize This: The Flowing Data Guide to Design, Visualization, and Statistic - Yau, Nathan, John Wiley & Sons . ISBN: 978-0470944882

Método de ensino

A disciplina encontra-se dividida em aulas teórico-práticas e práticas.
Nas teórico-práticas os assuntos são abordados temas mais teóricos que introduzem problemas que os alunos terão de resolver e que são a base para os trabalhos que implementarão na prática respectiva.
Nas aulas práticas a execução dos problemas (implementação) é efectuada.
Os trabalhos que os alunos desenvolvem na prática têm de ser entregue em prazos definidos, juntamente com um relatório de análise, desenho e implementação.

Existe também um conjunto de debates sobre temas éticos relacionados com análise de dados em que os alunos participam em grupo, sendo a sua prestação avaliada pelos docentes e pelos pares.  

Método de avaliação

Componente teórico-Prática (peso de 34%) - NTP:
=========================================
Pode ser realizada através de 1 teste ou exame;
É necessário ter nota (de exame ou teste) não inferior a 9.5 valores.

Componente prática (peso de 66%) - NP:
========================================
1º trabalho (T1): 30%, Trabalho final (T2) 50%, Qwiklabs: 10%, Debate: 10%
Trabalhos:  Entrega através do Moodle. Avaliação com base nas funcionalidades implementadas.

É necessário ter nota média não inferior a 9.5 valores.

NOTA: aprovações dos ano-lectivo anterior podem ser usadas este semestre.

Cálculo da Nota Final - NF:
====================
NF = 34%*NTP + 66%*NP

Conteúdo

Introdução

  • Sistemas inteligentes

  • Data «warehouse»

  • Descoberta de conhecimento

 

Projectos de gestão de Knowledge discovery

  • CRISP-DM, SEMMA

 

Data Warehouse and OLAP 

  • Data Warehouse e DBMS 

  • Modelos de dados multidimensionais 

  • OLAP

 

Preprocessamento de Dados

  • Limpeza dos dados

  • Transformação de dados

  • Redução de dados

  • Conceitos hierarquicos

  • Qualidade dos dados

 

Representação em Data mining knowledge

  • características relevantes 

  • dados de entrada

  • modelos

  • Técnicas de visualização

 

Learning

  • Classificação/Regressão

  • Segmentação

  • Métodos baseados em instâncias (vizinho mais próximo) 

  • Associação

  • Clustering

 

Avaliação de modelos

  • Conjunto de treino e de teste 

  • Estimativa da qualidade de um modelo (holdout, cross-validation, leave-one-out) 

  • Combinação de modelos 

 

Descoberta conhecimento em dados Reais

 

Dealing with Big Data

  • O que torna dados em Big Data

  • Scalable Data Analytics Framework

  • Large-scale Data Analysis Models

  • Distributed Storage Architecture

  • Base de dados NoSQL

  • Data Flow Management

 Privacidade e ética