Prospeção e Análise de Dados

Objetivos

Conhecimentos:

  • Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
  • Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
  • Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

Aptidões:

  • Implementar e adaptar algoritmos de Data Analytics e Text Mining.
  • Modelar experimentalmente dados reais usando esses algoritmos.
  • Avaliar e interpretar resultados experimentais.

Competências:

  • Capacidade de escolher e avaliar a adequação dos métodos a casos de estudo
  • Capacidade de abstração e de generalização
  • Capacidade de análise crítica
  • Capacidade de pesquisa de literatura científica

Caracterização geral

Código

11563

Créditos

6.0

Professor responsável

João Carlos Gomes Moura Pires, Susana Maria dos Santos Nascimento Martins de Almeida

Horas

Semanais - 4

Totais - 54

Idioma de ensino

Português

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

  • Análise Matemática
  • Álgebra Linear e Geometria Analítica
  • Probabilidades e Estatística
  • Inteligência Artificial
  • Aprendizagem Automática

Bibliografia

  • Zaki, M., and Meira Jr, W., (2020), Data Mining and Machine Learning: Fundamental Concepts and Algorithms, Cambridge University Press (2nd Edition)
  • Larose, D. T. , Larose C. D.  (2015), Data Mining and Predictive Analytics, Wiley (2nd Edition)
  • Mirkin, B.  (2019) Core Data Analysis:  Summarization, Correlation, and Visualization, Springer
  • Nascimento, S.  (2005). Fuzzy Clustering via Proportional Membership Model, Frontiers of Artificial Intelligence and Applications, v 119, IOS Press
  • Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing

Método de ensino

Nas aulas teóricas são lecionados os tópicos fundamentais da matéria, os quais deverão ser complementados com a leitura da bibliografia adotada. Nas aulas teóricas será dedicado tempo para exposição da matéria e para dúvidas e discussão com os alunos.

As aulas laboratoriais destinam-se à orientação tutorial e realização dos trabalhos práticos sobre tópicos selecionados da matéria.

Método de avaliação

A avaliação desta UC, organizada em dois módulos, é composta por uma componente teórica-prática e uma componente laboratorial ou de projecto, tendo cada componente um peso de 50% na nota final.

As condições de aprovação a esta unidade curricular são:

(i)  nota da componente de projecto (P) superior ou igual a 9.5 valores: P >= 9.5; e

(ii)  nota da componente teórico-prática (T) superior ou igual a 9.5 valores: T >= 9.5

A nota final (F) é calculada pela média aritmética da nota teórica e da nota laboratorial,

F = 0.5×T + 0.5×P

numa escala inteira de 0 a 20 valores.

Componente Laboratorial ou de Projecto

Esta componente consiste na realização de dois mini-projectos, um de cada módulo, realizados em grupo. A nota da componente de projecto é indivídual.

Cada mini-projecto terá um conjunto de aulas práticas dedicadas à sua realização.

A nota de projecto (P) é calculada pela média dos dois mini-projectos:

P = 0.5×P1 + 0.5×P2

Componente teórica-prática

Esta componente consiste na realização de dois testes, um de cada módulo. Os dois testes contarão em partes iguais para a nota da componente teórica-prática.

Os alunos com frequência são admitidos a exame de recurso, para obter aprovação ou melhoria de nota na componente teórica (T).

O exame é composto por duas partes (E1/E2) correspondentes a cada um dos módulos.

Para efeitos de cálculo da nota teórica (T), a nota de cada componente do exame de recurso, substitui, se melhor, a classificação obtida no respetivo teste

T= 0.5×max(T1, E1) + 0.5×max (T2, E2)

Os testes e o exame decorrerão em modo presencial com consulta limitada a uma folha A4 manuscrita e devidamente identificada pelo(a) aluno(a).

As notas dos vários elementos de avaliação, numa escala de 0 a 20 valores, são arredondadas às décimas, excepto a nota final que é arredondada às unidades.


Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

  • Modulo I

Compreender os Dados

  • Sumarização e visualização de dados unidimensionais
  • Correlação e visualização de dados bidimensionais
  • Verificação da estrutura dos dados
  • Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

  • Sumarização versus Correlação
  • Decomposição em valores singulares (SVD)
  • PCA como SVD.  Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

  • K‐means, Anomalous clusters, Intelligent K‐Means
  • Clustering espectral
  • Fuzzy Clustering

Interpretação de Modelos Descritivos

  • Abordagem conventional
  • Avaliação da tendência de clustering
  • Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

 

Modulo II Text Mining

Extração de Informação Relevante

  • Expressões relevantes: multi‐palavras  e palavras isoladas
  • Extratores estatísticos vs simbólicos. Algoritmos e métricas
  • Independência relativamente à língua

Análise simbólica e análise estatística de textos

  • TokenizationStemming e etiquetagem morfológica (PartOfSpeech Tagging)
  • Distribuição das palavras nos textos em contexto de Big Data;  lei de  Zipf
  • Métricas para associação de termos e para recuperação (Retrieval)
  • Correlação entre documentos
  • Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

  • Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
  • Âmbito e extensão semânticas dos Documentos
  • Sumarização de documentos

Classificação de documentos

  • Expressões relevantes como atributos caraterizadores  de documentos. Seleção e redução de atributos.
  • Semelhança entre documentos
  • Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
  • Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

  • Extração de Named Entities
  • Filtragem em e-mail
  • Identificação de línguas
  • Extração eficiente de multi-palavras
  • Deteção de polaridade