Prospeção e Análise de Dados

Objetivos

Conhecimentos:

  • Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
  • Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
  • Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

Aptidões:

  • Implementar e adaptar algoritmos de Data Analytics e Text Mining.
  • Modelar experimentalmente dados reais usando esses algoritmos.
  • Avaliar e interpretar resultados experimentais.

Competências:

  • Capacidade de escolher e avaliar a adequação dos métodos a casos de estudo
  • Capacidade de abstração e de generalização
  • Capacidade de análise crítica
  • Capacidade de pesquisa de literatura científica

Caracterização geral

Código

11563

Créditos

6.0

Professor responsável

Joaquim Francisco Ferreira da Silva, João Carlos Gomes Moura Pires

Horas

Semanais - 4

Totais - 54

Idioma de ensino

Português

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

  • Análise Matemática
  • Álgebra Linear e Geometria Analítica
  • Probabilidades e Estatística
  • Inteligência Artificial
  • Aprendizagem Automática

Bibliografia

  • Zaki, M., and Meira Jr, W., (2020), Data Mining and Machine Learning: Fundamental Concepts and Algorithms, Cambridge University Press (2nd Edition)
  • Larose, D. T. , Larose C. D.  (2015), Data Mining and Predictive Analytics, Wiley (2nd Edition)
  • Mirkin, B.  (2019) Core Data Analysis:  Summarization, Correlation, and Visualization, Springer
  • Nascimento, S.  (2005). Fuzzy Clustering via Proportional Membership Model, Frontiers of Artificial Intelligence and Applications, v 119, IOS Press
  • Deep Text: Using Text Analytics to Conquer Information Overload, Get Real Value from Social Media, and Add Bigger GText to Big Data, Information Today, Inc. (2016)
  • Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing
  • Improving LocalMaxs Multiword Expression Statistical Extractor, J. Silva, José Cunha, ICCS 2023

Método de ensino

Nas aulas teóricas são lecionados os tópicos fundamentais da matéria, os quais deverão ser complementados com a leitura da bibliografia adotada. Nas aulas teóricas será dedicado tempo para exposição da matéria e para dúvidas e discussão com os alunos.

As aulas laboratoriais destinam-se à orientação tutorial e realização dos trabalhos práticos sobre tópicos selecionados da matéria.

Método de avaliação

A avaliação desta UC, organizada em dois módulos, é composta por uma componente teórica-prática e uma componente laboratorial ou de projecto, tendo cada componente um peso de 50% na nota final.

As condições de aprovação a esta unidade curricular são:

(i)  nota da componente de projecto (P) superior ou igual a 9.5 valores: P >= 9.5; e

(ii)  nota da componente teórico-prática (T) superior ou igual a 9.5 valores: T >= 9.5

A nota final (F) é calculada pela média aritmética da nota teórica e da nota laboratorial,

F = 0.5×T + 0.5×P

numa escala inteira de 0 a 20 valores.

Componente Laboratorial ou de Projecto

Esta componente consiste na realização de dois mini-projectos, um de cada módulo, realizados em grupo. A nota da componente de projecto envolve discussão e é indivídual.

Cada mini-projecto terá um conjunto de aulas práticas dedicadas à sua realização.

A nota de projecto (P) é calculada pela média dos dois mini-projectos:

P = 0.5×P1 + 0.5×P2

Apenas os estudantes com a componente P >= 9.5 terão possibilidade de fazer exame.


Aviso Importante

No contexto do desenvolvimento de qualquer dos projetos, as ferramentas de IA como os (ChatGPT e Copilot) apenas podem ser usadas como meio de mera consulta e deve ser reportada. Quaisquer uso de outra natureza é considerado plágio, implicando reprovação nesta componente.

 

Componente teórica-prática

Esta componente consiste na realização de dois testes, um de cada módulo. Os dois testes contarão em partes iguais para a nota da componente teórica-prática.

Os alunos com frequência são admitidos a exame de recurso, para obter aprovação ou melhoria de nota na componente teórica (T).

O exame é composto por duas partes (E1/E2) correspondentes a cada um dos módulos.

Para efeitos de cálculo da nota teórica (T), a nota de cada componente do exame de recurso, substitui, se melhor, a classificação obtida no respetivo teste

T= 0.5×max(T1, E1) + 0.5×max (T2, E2)

Os testes e o exame decorrerão em modo presencial com consulta limitada a uma folha A4 manuscrita e devidamente identificada pelo(a) aluno(a).

As notas dos vários elementos de avaliação, numa escala de 0 a 20 valores, são arredondadas às décimas, excepto a nota final que é arredondada às unidades.


Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

  • Modulo I

Compreender os Dados

  • Sumarização e visualização de dados unidimensionais
  • Correlação e visualização de dados bidimensionais
  • Verificação da estrutura dos dados
  • Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

  • Sumarização versus Correlação
  • Decomposição em valores singulares (SVD)
  • PCA como SVD.  Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

  • K‐means, Anomalous clusters, Intelligent K‐Means
  • Clustering espectral
  • Fuzzy Clustering

Interpretação de Modelos Descritivos

  • Abordagem conventional
  • Avaliação da tendência de clustering
  • Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

 

Modulo II Text Mining

Extração de Informação Relevante

  • Expressões relevantes: multi‐palavras  e palavras isoladas
  • Extratores estatísticos vs simbólicos. Algoritmos e métricas
  • Independência relativamente à língua

Análise simbólica e análise estatística de textos

  • TokenizationStemming e etiquetagem morfológica (PartOfSpeech Tagging)
  • Distribuição das palavras nos textos em contexto de Big Data;  lei de  Zipf
  • Métricas para associação de termos e para recuperação (Retrieval)
  • Correlação entre documentos
  • Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

  • Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
  • Âmbito e extensão semânticas dos Documentos
  • Sumarização de documentos

Classificação de documentos

  • Expressões relevantes como atributos caraterizadores  de documentos. Seleção e redução de atributos.
  • Semelhança entre documentos
  • Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
  • Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

  • Extração de Named Entities
  • Filtragem em e-mail
  • Identificação de línguas
  • Extração eficiente de multi-palavras
  • Deteção de polaridade