Prospeção e Análise de Dados
Objetivos
Conhecimentos:
- Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
- Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
- Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.
Aptidões:
- Implementar e adaptar algoritmos de Data Analytics e Text Mining.
- Modelar experimentalmente dados reais usando esses algoritmos.
- Avaliar e interpretar resultados experimentais.
Competências:
- Capacidade de escolher e avaliar a adequação dos métodos a casos de estudo
- Capacidade de abstração e de generalização
- Capacidade de análise crítica
- Capacidade de pesquisa de literatura científica
Caracterização geral
Código
11563
Créditos
6.0
Professor responsável
Pedro Manuel Corrêa Calvente Barahona, Susana Maria dos Santos Nascimento Martins de Almeida
Horas
Semanais - 4
Totais - 54
Idioma de ensino
Português
Pré-requisitos
A frequência desta UC assume a aprovação às seguintes UC’s:
- Análise Matemática
- Álgebra Linear e Geometria Analítica
- Probabilidades e Estatística
- Inteligência Artificial
- Aprendizagem Automática
Bibliografia
- Zaki, M., and Meira Jr, W., (2020), Data Mining and Machine Learning: Fundamental Concepts and Algorithms, Cambridge University Press (2nd Edition)
- Larose, D. T. , Larose C. D. (2015), Data Mining and Predictive Analytics, Wiley (2nd Edition)
- Mirkin, B. (2019) Core Data Analysis: Summarization, Correlation, and Visualization, Springer
- Nascimento, S. (2005). Fuzzy Clustering via Proportional Membership Model, Frontiers of Artificial Intelligence and Applications, v 119, IOS Press
- Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing
Método de ensino
Nas aulas teóricas são lecionados os tópicos fundamentais da matéria, os quais deverão ser complementados com a leitura da bibliografia adotada. Nas aulas teóricas será dedicado tempo para exposição da matéria e para dúvidas e discussão com os alunos.
As aulas laboratoriais destinam-se à orientação tutorial e realização dos trabalhos práticos sobre tópicos selecionados da matéria.
Método de avaliação
A avaliação desta UC, organizada em dois módulos, é composta por uma componente teórica-prática e uma componente laboratorial ou de projecto, tendo cada componente um peso de 50% na nota final.
As condições de aprovação a esta unidade curricular são:
(i) obtenção de frequência, concedida com nota da componente de projecto (P) superior ou igual a 9.5 valores: P >= 9.5; e
(ii) nota da componente teórico-prática (T) superior ou igual a 9.5 valores: T >= 9.5
A nota final (F) é calculada pela média aritmética da nota teórica e da nota laboratorial,
F = 0.5×T + 0.5×P
numa escala inteira de 0 a 20 valores.
Componente Laboratorial ou de Projecto
Esta componente consiste na realização de dois mini-projectos, um de cada módulo, realizados em grupo. A nota da componente de projecto é indivídual.
Cada mini-projecto terá um conjunto de aulas práticas dedicadas à sua realização.
A nota de projecto (P) é calculada pela média dos dois mini-projectos:
P = 0.5×P1 + 0.5×P2
Componente teórica-prática
Esta componente consiste na realização de dois testes, um de cada módulo. Os dois testes contarão em partes iguais para a nota da componente teórica-prática.
Os alunos com frequência são admitidos a exame de recurso, para obter aprovação ou melhoria de nota na componente teórica (T).
O exame é composto por duas partes (E1/E2) correspondentes a cada um dos módulos.
Para efeitos de cálculo da nota teórica (T), a nota de cada componente do exame de recurso, substitui, se melhor, a classificação obtida no respetivo teste
T= 0.5×max(T1, E1) + 0.5×max (T2, E2)
Os testes e o exame decorrerão em modo presencial com consulta limitada a uma folha A4 manuscrita e devidamente identificada pelo(a) aluno(a).
As notas dos vários elementos de avaliação, numa escala de 0 a 20 valores, são arredondadas às décimas, excepto a nota final que é arredondada às unidades.
Conteúdo
Data Analytics
Dados: exemplos de data analytics e suas perspectivas
Text Mining
Informação estruturada ou não-estruturada? Porquê fazer mining em textos?
Que problemas podem ser resolvidos?
- Modulo I
Compreender os Dados
- Sumarização e visualização de dados unidimensionais
- Correlação e visualização de dados bidimensionais
- Verificação da estrutura dos dados
- Normalização
Modelação Descritiva I
Análise de Componentes Principais (PCA)
- Sumarização versus Correlação
- Decomposição em valores singulares (SVD)
- PCA como SVD. Abordagem convencional de PCA’s.
Aplicações de PCA’s
Modelação Descritiva II
- K‐means, Anomalous clusters, Intelligent K‐Means
- Clustering espectral
- Fuzzy Clustering
Interpretação de Modelos Descritivos
- Abordagem conventional
- Avaliação da tendência de clustering
- Items de interpretação pelo método dos mínimos quadrados
Casos de Estudo de Data Analytics
Modulo II‐ Text Mining
Extração de Informação Relevante
- Expressões relevantes: multi‐palavras e palavras isoladas
- Extratores estatísticos vs simbólicos. Algoritmos e métricas
- Independência relativamente à língua
Análise simbólica e análise estatística de textos
- Tokenization, Stemming e etiquetagem morfológica (Part‐Of‐Speech Tagging)
- Distribuição das palavras nos textos em contexto de Big Data; lei de Zipf
- Métricas para associação de termos e para recuperação (Retrieval)
- Correlação entre documentos
- Desambiguação do significado de palavras (Word Sense Disambiguation)
Descritores de documentos
- Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
- Âmbito e extensão semânticas dos Documentos
- Sumarização de documentos
Classificação de documentos
- Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
- Semelhança entre documentos
- Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
- Predição e avaliação
Casos de estudo em Text Mining (alguns exemplos)
- Extração de Named Entities
- Filtragem em e-mail
- Identificação de línguas
- Extração eficiente de multi-palavras
- Deteção de polaridade
Cursos
Cursos onde a unidade curricular é leccionada: