Métodos e Ferramentas Computacionais para a Exploração de Textos

Objetivos

- Conhecer, compreender e avaliar os métodos e ferramentas de análise e de extração de informação de grandes conjuntos de dados linguísticos;
- Saber como organizar e utilizar dados linguísticos para extração de informação direcionada e útil para questões de investigação específicas da área das Artes e Humanidades;
- Conhecer métodos de análise e detecção de pistas e traços linguísticos e determinar qual a sua relevância para a extração de informação específica ou para tarefas de mineração de texto para fins não-linguísticos;
- Desenvolver competências para construir e usar corpora textuais de modo analítico e crítico de acordo com metodologias testadas e através de ferramentas de tratamento e análise de corpus;
- Desenvolver competências e estratégias de detecção e utilização de pistas e traços linguísticos para fins de investigação em Artes e Humanidades.

Caracterização geral

Código

02111034

Créditos

10.0

Professor responsável

Raquel Fonseca Amaro

Horas

Semanais - 3

Totais - 280

Idioma de ensino

Português

Pré-requisitos

N/A

Bibliografia

  • Beloso, B. S. (2015). Designing, Describing and Compiling a Corpus for English Architecture. In Procedia - Social and Behavioral Sciences 198. Elsevier. 459-464;
  • Ebensgaard Jensen, K. (2014). Linguistics and the digital humanities: (Computational) corpus linguistics. MedieKultur: Journal of Media and Communication Research, 30, pp. 117-136;
  • McEnery, T. and A. Hardie (2012). Corpus Linguistics: Method, theory and practice. Cambridge University Press;
  • Odebrecht, C., Belz, M., Zeldes, A., Lüdeling, A. & Krause, T. (2017). RIDGES Herbology: Designing a Diachronic MultiLayer Corpus. In: Language Resources and Evaluation 51.3, pp. 695–725;
  • O Keeffe, Anne and Mc Carthy, Michael (eds) (2010). The Routledge Handbook of Corpus Linguistics (Routledge Handbooks in Applied Linguistics). London & New York: Routledge;
  • Sinclair, J. (2004). Trust the text: language corpus and discourse. London and New York: Routledge.

Método de ensino

Aulas teórico-práticas e orientação tutorial, com recurso a estudos de caso e aplicação prática dos conhecimentos adquiridos, incluindo: (i) exposição dos conteúdos por parte do docente; (ii) discussão e análise crítica de bibliografia sobre os conteúdos programáticos; (iii) aplicação prática de conhecimentos adquiridos em trabalhos individuais e em grupo em tarefas específicas, com recurso a ferramentas computacionais.

Método de avaliação

Avaliação Contínua - Participação ativa nas atividades do seminário(30%), Trabalho de projeto(70%)

Conteúdo

1. Linguística de Corpus
1.1. Introdução e enquadramento teóricos;
1.2. Constituição de corpus: critérios, parâmetros e representatividade;
1.3. Ferramentas e procedimentos para tratamento de corpus.

2. De dados linguísticos à extração de informação específica
2.1. Unidades, traços e pistas linguísticas;
2.2. Análise de textos: nível macro vs. micro; análise sintagmática vs. paradigmática;
2.3. Estatística lexical, concordâncias e colocações.

3. Aplicação de estratégias da Linguística de Corpus e de mineração de textos
3.1. Objetivos de investigação, seleção de dados e compliação do corpus;
3.2. Determinação de pistas e traços linguísticos relevantes;
3.3. Extração e análise de resultados.