Recuperação de Informação

Objetivos

Conhecimentos

  • Compreender o conceito de relevância de informação
  • Analisar dados de texto
  • Compreender modelos de ordenação de informação
  • Compreender protocolos de avaliação em recuperação de informação

Aptidões

  • Implementar modelos de recuperação de informação
  • Implementar módulos de um sistema de recuperação de informação
  • Colocar em produção um sistema de recuperação de informação em larga-escala
  • Desenhar um protocolo de avaliação e avaliar um motor de pesquisa

Competências

  • Desenhar um sistema de recuperação de informação
  • Selecionar as técnicas de RI adequadas a cada problema
  • Capacidade de análise critica dos resultados de avaliação

Caracterização geral

Código

12077

Créditos

6.0

Professor responsável

João Miguel da Costa Magalhães

Horas

Semanais - 4

Totais - 2

Idioma de ensino

Português

Pré-requisitos

Conhecimentos de programação, preferêncialmente Python.

Algebra linear e probabilidades e estatística.


Bibliografia

Main reference: Dan Jurafsky and James H. Martin, Speech and Language Processing (3rd ed. draft) https://web.stanford.edu/~jurafsky/slp3/

Complementary reference: C. D. Manning, P. Raghavan and H. Schütze, “Introduction to Information Retrieval”, Cambridge University Press, 2008. https://nlp.stanford.edu/IR-book/information-retrieval-book.html

 

Método de ensino

Nas aulas teóricas é apresentada a matéria, com exemplos e discussão cuidada dos conceitos mais importantes. As aulas laboratoriais destinam-se à realização de 1 projeto com 3 entregas ao longo do semestre.

Será disponibilizada uma página da disciplina onde se mantém informação atualizada sobre o funcionamento da mesma. Os slides da matéria teórica e o guia do projeto estarão disponíveis na página Web da disciplina.

A avaliação da disciplina é composta por 1 teste escrito individual realizado no fim do semestre e trabalhos de laboratório.

 

Método de avaliação

Grading is divided into the theoretical part and a laboratory project:

Theoretical test/exam: 40% of the final grade (minimum grade is 9.0). Students may use a calculator and one A4 page with their own notes. Notes must be handwritten by the student and the page should be handed in at the end of the exame/test.

Laboratory work (minimum grade is 9.0). The laboratory work consists of an introductory project (20%) and a consolidation project to be submitted in two phases (20% for each phase).

Each lab submissions needs to be include a report and the code.

 

Conteúdo

1. Introduction
2. Text processing, NGRAMS, cosine distance
3. Language models
4. Evaluation
5. Pseudo relevance models
6. Classification tasks: sentiment, category, spam
7. Learning to rank
8. Word embeddings
9. Contextual embeddings
10. Information extraction
11. Question answering
12. Ethics in Computational NLP

Cursos

Cursos onde a unidade curricular é leccionada: