Descoberta de Conhecimento
Objetivos
Objectivos:
Compreender e desenvolver processos de tratamento e análise de dados.
Aprender e compreender o funcionamento de algoritmos de análise de dados empregues em tarefas de classificação de dados não encontrados anteriormente, aprendizagem supervisionada e não supervisionada, regras de associação (“se gosta de X provavelmente estará interessado em Y, Z e W”).
Conceitos de tratamento e análise de dados Big Data. Ferramentas que permitem lidar com Big Data na Cloud (baseado em tecnologias Google). Processar terabytes em segundos e petabytes em minutos.
Vídeo: Machine Learning: Making Sense of a Messy World
Ferramentas para Inteligência Artificial.
Ética no tratamento de dados sob a forma de debates entre grupos de alunos
Desenvolver também Capacidades Não Técnicas:
Capacidade de comunicação oral e escrita
Realização de uma demonstração
Relatório da análise, desenho e implementação de uma solução
Organização de trabalho, gestão do tempo e cumprimento de prazos
Trabalho e colaboração em equipa
Capacidade de investigação e autonomia
Caracterização geral
Código
12793
Créditos
6.0
Professor responsável
João Paulo Branquinho Pimentão, Pedro Alexandre da Costa Sousa
Horas
Semanais - 4
Totais - 56
Idioma de ensino
Português
Pré-requisitos
Inexistentes
Bibliografia
Data Mining de Eibe Frank, Christopher Pal, Mark Hall e Ian H. Witten, ISBN: 9780128042915, ELSEVIER SCIENCE & TECHNOLOGY
Handbook of Data Mining and Knowledge Discovery 1st Edition, by Jan Zyt (Author), Willi Klosgen (Editor), the late Jan M. Zytkow (Editor), ISBN-13: 978-0195118315
Big Data Analytics: Systems, Algorithms, Applications 1st ed. 2019 Edition, by C.S.R. Prabhu (Author), at all. , ISBN-13: 978-9811500930
Information theory, inference, and learning algorithms - Mackay, David, Cambridge University Press, ISBN: 978-0521642989
Principles of data mining - Hand, David; Smyth, Padhrai; Mannila, Heikki, MIT Press, ISBN: 978-0262082907
Pattern recognition and machine learning - Bishop, Christopher M., Springer, ISBN: 978-0387310732
Visualize This: The Flowing Data Guide to Design, Visualization, and Statistic - Yau, Nathan, John Wiley & Sons . ISBN: 978-0470944882
Método de ensino
A disciplina encontra-se dividida em aulas teórico-práticas e práticas.
Nas teórico-práticas os assuntos são abordados temas mais teóricos que introduzem problemas que os alunos terão de resolver e que são a base para os trabalhos que implementarão na prática respectiva.
Nas aulas práticas a execução dos problemas (implementação) é efectuada.
Os trabalhos que os alunos desenvolvem na prática têm de ser entregue em prazos definidos, juntamente com um relatório de análise, desenho e implementação.
Existe também um conjunto de debates sobre temas éticos relacionados com análise de dados em que os alunos participam em grupo, sendo a sua prestação avaliada pelos docentes e pelos pares.
Método de avaliação
Componente teórico-Prática (peso de 34%) - NTP:
=========================================
Pode ser realizada através de 1 teste ou exame;
É necessário ter nota (de exame ou teste) não inferior a 9.5 valores.
Componente prática (peso de 66%) - NP:
========================================
1º trabalho (T1): 30%, Trabalho final (T2) 50%, Qwiklabs: 10%, Debate: 10%
Trabalhos: Entrega através do Moodle. Avaliação com base nas funcionalidades implementadas.
É necessário ter nota média não inferior a 9.5 valores.
NOTA: aprovações dos ano-lectivo anterior podem ser usadas este semestre.
Cálculo da Nota Final - NF:
====================
NF = 34%*NTP + 66%*NP
Conteúdo
Introdução
-
Sistemas inteligentes
-
Data «warehouse»
-
Descoberta de conhecimento
Projectos de gestão de Knowledge discovery
-
CRISP-DM, SEMMA
Data Warehouse and OLAP
-
Data Warehouse e DBMS
-
Modelos de dados multidimensionais
-
OLAP
Preprocessamento de Dados
-
Limpeza dos dados
-
Transformação de dados
-
Redução de dados
-
Conceitos hierarquicos
-
Qualidade dos dados
Representação em Data mining knowledge
-
características relevantes
-
dados de entrada
-
modelos
-
Técnicas de visualização
Learning
-
Classificação/Regressão
-
Segmentação
-
Métodos baseados em instâncias (vizinho mais próximo)
-
Associação
-
Clustering
Avaliação de modelos
-
Conjunto de treino e de teste
-
Estimativa da qualidade de um modelo (holdout, cross-validation, leave-one-out)
-
Combinação de modelos
Descoberta conhecimento em dados Reais
Dealing with Big Data
-
O que torna dados em Big Data
-
Scalable Data Analytics Framework
-
Large-scale Data Analysis Models
-
Distributed Storage Architecture
-
Base de dados NoSQL
-
Data Flow Management
Privacidade e ética
Cursos
Cursos onde a unidade curricular é leccionada: