Métodos e Ferramentas Computacionais para a Exploração de Textos
Objetivos
- Conhecer, compreender e avaliar os métodos e ferramentas de análise e de extração de informação de grandes conjuntos de dados linguísticos;
- Saber como organizar e utilizar dados linguísticos para extração de informação direcionada e útil para questões de investigação específicas da área das Artes e Humanidades;
- Conhecer métodos de análise e detecção de pistas e traços linguísticos e determinar qual a sua relevância para a extração de informação específica ou para tarefas de mineração de texto para fins não-linguísticos;
- Desenvolver competências para construir e usar corpora textuais de modo analítico e crítico de acordo com metodologias testadas e através de ferramentas de tratamento e análise de corpus;
- Desenvolver competências e estratégias de detecção e utilização de pistas e traços linguísticos para fins de investigação em Artes e Humanidades.
Caracterização geral
Código
02111034
Créditos
10.0
Professor responsável
Raquel Fonseca Amaro
Horas
Semanais - 3
Totais - 280
Idioma de ensino
Português
Pré-requisitos
N/A
Bibliografia
- Beloso, B. S. (2015). Designing, Describing and Compiling a Corpus for English Architecture. In Procedia - Social and Behavioral Sciences 198. Elsevier. 459-464;
- Ebensgaard Jensen, K. (2014). Linguistics and the digital humanities: (Computational) corpus linguistics. MedieKultur: Journal of Media and Communication Research, 30, pp. 117-136;
- McEnery, T. and A. Hardie (2012). Corpus Linguistics: Method, theory and practice. Cambridge University Press;
- Odebrecht, C., Belz, M., Zeldes, A., Lüdeling, A. & Krause, T. (2017). RIDGES Herbology: Designing a Diachronic MultiLayer Corpus. In: Language Resources and Evaluation 51.3, pp. 695–725;
- O Keeffe, Anne and Mc Carthy, Michael (eds) (2010). The Routledge Handbook of Corpus Linguistics (Routledge Handbooks in Applied Linguistics). London & New York: Routledge;
- Sinclair, J. (2004). Trust the text: language corpus and discourse. London and New York: Routledge.
Método de ensino
Aulas teórico-práticas e orientação tutorial, com recurso a estudos de caso e aplicação prática dos conhecimentos adquiridos, incluindo: (i) exposição dos conteúdos por parte do docente; (ii) discussão e análise crítica de bibliografia sobre os conteúdos programáticos; (iii) aplicação prática de conhecimentos adquiridos em trabalhos individuais e em grupo em tarefas específicas, com recurso a ferramentas computacionais.
Método de avaliação
Avaliação Contínua - Participação ativa nas atividades do seminário(30%), Trabalho de projeto(70%)
Conteúdo
1. Linguística de Corpus
1.1. Introdução e enquadramento teóricos;
1.2. Constituição de corpus: critérios, parâmetros e representatividade;
1.3. Ferramentas e procedimentos para tratamento de corpus.
2. De dados linguísticos à extração de informação específica
2.1. Unidades, traços e pistas linguísticas;
2.2. Análise de textos: nível macro vs. micro; análise sintagmática vs. paradigmática;
2.3. Estatística lexical, concordâncias e colocações.
3. Aplicação de estratégias da Linguística de Corpus e de mineração de textos
3.1. Objetivos de investigação, seleção de dados e compliação do corpus;
3.2. Determinação de pistas e traços linguísticos relevantes;
3.3. Extração e análise de resultados.
Cursos
Cursos onde a unidade curricular é leccionada: