Prospeção e Análise de Dados
Objetivos
Conhecimentos:
- Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
- Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
- Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.
Aptidões:
- Implementar e adaptar algoritmos de Data Analytics e Text Mining.
- Modelar experimentalmente dados reais usando esses algoritmos.
- Avaliar e interpretar resultados experimentais.
Competências:
- Capacidade de escolher e avaliar a adequação dos métodos a casos de estudo
- Capacidade de abstração e de generalização
- Capacidade de análise crítica
- Capacidade de pesquisa de literatura científica
Caracterização geral
Código
11563
Créditos
6.0
Professor responsável
Joaquim Francisco Ferreira da Silva, João Carlos Gomes Moura Pires
Horas
Semanais - 4
Totais - 54
Idioma de ensino
Português
Pré-requisitos
A frequência desta UC assume a aprovação às seguintes UC’s:
- Análise Matemática
- Álgebra Linear e Geometria Analítica
- Probabilidades e Estatística
- Inteligência Artificial
- Aprendizagem Automática
Bibliografia
- Zaki, M., and Meira Jr, W., (2020), Data Mining and Machine Learning: Fundamental Concepts and Algorithms, Cambridge University Press (2nd Edition)
- Larose, D. T. , Larose C. D. (2015), Data Mining and Predictive Analytics, Wiley (2nd Edition)
- Mirkin, B. (2019) Core Data Analysis: Summarization, Correlation, and Visualization, Springer
- Nascimento, S. (2005). Fuzzy Clustering via Proportional Membership Model, Frontiers of Artificial Intelligence and Applications, v 119, IOS Press
- Deep Text: Using Text Analytics to Conquer Information Overload, Get Real Value from Social Media, and Add Bigger GText to Big Data, Information Today, Inc. (2016)
- Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing
- Improving LocalMaxs Multiword Expression Statistical Extractor, J. Silva, José Cunha, ICCS 2023
Método de ensino
Nas aulas teóricas são lecionados os tópicos fundamentais da matéria, os quais deverão ser complementados com a leitura da bibliografia adotada. Nas aulas teóricas será dedicado tempo para exposição da matéria e para dúvidas e discussão com os alunos.
As aulas laboratoriais destinam-se à orientação tutorial e realização dos trabalhos práticos sobre tópicos selecionados da matéria.
Método de avaliação
A avaliação desta UC, organizada em dois módulos, é composta por uma componente teórica-prática e uma componente laboratorial ou de projecto, tendo cada componente um peso de 50% na nota final.
As condições de aprovação a esta unidade curricular são:
(i) nota da componente de projecto (P) superior ou igual a 9.5 valores: P >= 9.5; e
(ii) nota da componente teórico-prática (T) superior ou igual a 9.5 valores: T >= 9.5
A nota final (F) é calculada pela média aritmética da nota teórica e da nota laboratorial,
F = 0.5×T + 0.5×P
numa escala inteira de 0 a 20 valores.
Componente Laboratorial ou de Projecto
Esta componente consiste na realização de dois mini-projectos, um de cada módulo, realizados em grupo. A nota da componente de projecto envolve discussão e é indivídual.
Cada mini-projecto terá um conjunto de aulas práticas dedicadas à sua realização.
A nota de projecto (P) é calculada pela média dos dois mini-projectos:
P = 0.5×P1 + 0.5×P2
Apenas os estudantes com a componente P >= 9.5 terão possibilidade de fazer exame.
Aviso Importante
No contexto do desenvolvimento de qualquer dos projetos, as ferramentas de IA como os (ChatGPT e Copilot) apenas podem ser usadas como meio de mera consulta e deve ser reportada. Quaisquer uso de outra natureza é considerado plágio, implicando reprovação nesta componente.
Componente teórica-prática
Esta componente consiste na realização de dois testes, um de cada módulo. Os dois testes contarão em partes iguais para a nota da componente teórica-prática.
Os alunos com frequência são admitidos a exame de recurso, para obter aprovação ou melhoria de nota na componente teórica (T).
O exame é composto por duas partes (E1/E2) correspondentes a cada um dos módulos.
Para efeitos de cálculo da nota teórica (T), a nota de cada componente do exame de recurso, substitui, se melhor, a classificação obtida no respetivo teste
T= 0.5×max(T1, E1) + 0.5×max (T2, E2)
Os testes e o exame decorrerão em modo presencial com consulta limitada a uma folha A4 manuscrita e devidamente identificada pelo(a) aluno(a).
As notas dos vários elementos de avaliação, numa escala de 0 a 20 valores, são arredondadas às décimas, excepto a nota final que é arredondada às unidades.
Conteúdo
Data Analytics
Dados: exemplos de data analytics e suas perspectivas
Text Mining
Informação estruturada ou não-estruturada? Porquê fazer mining em textos?
Que problemas podem ser resolvidos?
- Modulo I
Compreender os Dados
- Sumarização e visualização de dados unidimensionais
- Correlação e visualização de dados bidimensionais
- Verificação da estrutura dos dados
- Normalização
Modelação Descritiva I
Análise de Componentes Principais (PCA)
- Sumarização versus Correlação
- Decomposição em valores singulares (SVD)
- PCA como SVD. Abordagem convencional de PCA’s.
Aplicações de PCA’s
Modelação Descritiva II
- K‐means, Anomalous clusters, Intelligent K‐Means
- Clustering espectral
- Fuzzy Clustering
Interpretação de Modelos Descritivos
- Abordagem conventional
- Avaliação da tendência de clustering
- Items de interpretação pelo método dos mínimos quadrados
Casos de Estudo de Data Analytics
Modulo II‐ Text Mining
Extração de Informação Relevante
- Expressões relevantes: multi‐palavras e palavras isoladas
- Extratores estatísticos vs simbólicos. Algoritmos e métricas
- Independência relativamente à língua
Análise simbólica e análise estatística de textos
- Tokenization, Stemming e etiquetagem morfológica (Part‐Of‐Speech Tagging)
- Distribuição das palavras nos textos em contexto de Big Data; lei de Zipf
- Métricas para associação de termos e para recuperação (Retrieval)
- Correlação entre documentos
- Desambiguação do significado de palavras (Word Sense Disambiguation)
Descritores de documentos
- Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
- Âmbito e extensão semânticas dos Documentos
- Sumarização de documentos
Classificação de documentos
- Expressões relevantes como atributos caraterizadores de documentos. Seleção e redução de atributos.
- Semelhança entre documentos
- Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
- Predição e avaliação
Casos de estudo em Text Mining (alguns exemplos)
- Extração de Named Entities
- Filtragem em e-mail
- Identificação de línguas
- Extração eficiente de multi-palavras
- Deteção de polaridade
Cursos
Cursos onde a unidade curricular é leccionada: