Prospeção e Análise de Dados

Objetivos

Conhecimentos:

  • Compreender os paradigmas e desafios das áreas de Data Analytics e Text Mining
  • Aprender métodos fundamentais e suas aplicações na extracção de padrões relevantes a partir dos dados. Dados, selecção de modelos, e interpretação de resultados.
  • Compreender vantagens e limitações dos métodos de Data Analytics e Text Mining estudados.

Aptidões:

  • Implementar e adaptar algoritmos de Data Analytics e Text Mining.
  • Modelar experimentalmente dados reais usando esses algoritmos.
  • Avaliar e interpretar resultados experimentais.

Competências:

  • Capacidade de escolher e avaliar a adequação dos métodos a casos de estudo
  • Capacidade de abstração e de generalização
  • Capacidade de análise crítica
  • Capacidade de pesquisa de literatura científica

Caracterização geral

Código

11563

Créditos

6.0

Professor responsável

Pedro Manuel Corrêa Calvente Barahona, Susana Maria dos Santos Nascimento Martins de Almeida

Horas

Semanais - 4

Totais - 54

Idioma de ensino

Português

Pré-requisitos

A frequência desta UC assume a aprovação às seguintes UC’s:

  • Análise Matemática
  • Álgebra Linear e Geometria Analítica
  • Probabilidades e Estatística
  • Inteligência Artificial
  • Aprendizagem Automática

Bibliografia

  • Larose, D. T. , Larose C. D.  (2015), Data Mining and Predictive Analytics, Wiley (2nd Edition)
  • Mirkin, B.  (2019) Core Data Analysis:  Summarization, Correlation, and Visualization, Springer
  • Nascimento, S.  (2005). Fuzzy Clustering via Proportional Membership Model, Frontiers of Artificial Intelligence and Applications, v 119, IOS Press
  • Weiss, S.M., Indurkhya, N., Zhang, T., Damerau, F. (2005), Text Mining: Predictive Methods for Analyzing

Método de ensino

Nas aulas teóricas são lecionados os tópicos fundamentais da matéria, os quais deverão ser complementados com a leitura da bibliografia adotada. Nas aulas teóricas será dedicado tempo para exposição da matéria e para dúvidas e discussão com os alunos.

As aulas laboratoriais destinam-se à orientação tutorial e realização dos trabalhos práticos sobre tópicos selecionados da matéria.

Método de avaliação

A avaliação desta UC é composta por uma componente teórica-prática e uma componente laboratorial ou de projecto, tendo cada componente um peso de 50% na nota final.

A nota da componente teórica (NT) é calculada pela média dos dois testes, um em cada módulo, NT = (T1 + T2)/2.

A nota laboratorial (NL) é calculada pela média dos dois trabalhos práticos, um de cada módulo, NL = (P1 + P2)/2.

É necessária a presença a pelo menos 2/3 das aulas práticas.

A obtenção de frequência a esta UC é concedida com nota da componente laboratorial superior ou igual a 8.5 valores: NL >= 8.5

Os alunos com frequência são admitidos a exame, para obter aprovação ou melhoria de nota da componente teórica (NT). O exame é composto por duas partes correspondentes a cada um dos módulos. Para efeitos de cálculo da nota final (NF), a nota de cada componente do exame, substitui, se melhor, a classificação obtida no respetivo teste.

A nota final (NF) é definida pela média da nota teórica e nota laboratorial, i.e. NF = (NT + NL)/2.

Conteúdo

Introduction

Data Analytics

Dados: exemplos de data analytics e suas perspectivas

Text Mining

Informação estruturada ou não-estruturada? Porquê fazer mining em textos?

Que problemas podem ser resolvidos?

  • Modulo I

Compreender os Dados

  • Sumarização e visualização de dados unidimensionais
  • Correlação e visualização de dados bidimensionais
  • Verificação da estrutura dos dados
  • Normalização

Modelação Descritiva I

Análise de Componentes Principais (PCA)

  • Sumarização versus Correlação
  • Decomposição em valores singulares (SVD)
  • PCA como SVD.  Abordagem convencional de PCA’s.

Aplicações de PCA’s

Modelação Descritiva II

  • K‐means, Anomalous clusters, Intelligent K‐Means
  • Clustering espectral
  • Fuzzy Clustering

Interpretação de Modelos Descritivos

  • Abordagem conventional
  • Avaliação da tendência de clustering
  • Items de interpretação pelo método dos mínimos quadrados

Casos de Estudo de Data Analytics

 

Modulo II Text Mining

Extração de Informação Relevante

  • Expressões relevantes: multi‐palavras  e palavras isoladas
  • Extratores estatísticos vs simbólicos. Algoritmos e métricas
  • Independência relativamente à língua

Análise simbólica e análise estatística de textos

  • TokenizationStemming e etiquetagem morfológica (PartOfSpeech Tagging)
  • Distribuição das palavras nos textos em contexto de Big Data;  lei de  Zipf
  • Métricas para associação de termos e para recuperação (Retrieval)
  • Correlação entre documentos
  • Desambiguação do significado de palavras (Word Sense Disambiguation)

Descritores de documentos

  • Extração de palavras-chave (keywords) explícitas e implícitas, de forma independente da língua.
  • Âmbito e extensão semânticas dos Documentos
  • Sumarização de documentos

Classificação de documentos

  • Expressões relevantes como atributos caraterizadores  de documentos. Seleção e redução de atributos.
  • Semelhança entre documentos
  • Agrupamento (Clustering) supervisionado vs não-supervisionado de documentos.
  • Predição e avaliação

Casos de estudo em Text Mining (alguns exemplos)

  • Extração de Named Entities
  • Filtragem em e-mail
  • Identificação de línguas
  • Extração eficiente de multi-palavras
  • Deteção de polaridade

Cursos

Cursos onde a unidade curricular é leccionada: