CORAL - Corpus de diálogo etiquetado

This page is available in English.

Resumo
Consórcio
Equipa
Sumário da proposta inicial (também em inglês)
Sumário dos principais resultados
Tarefas:
- T1 - Especificação do corpus
- T2 - Recolha do corpus falado
- T3 - Transcrição ortográfica
- T4 - Transcrição fonética
- T5 - Etiquetagem prosódica
- T6 - Etiquetagem sintáctica
- T7 - Etiquetagem semântica
- T8 - Mapeamento entre prosódia e sintaxe / semântica
- T9 - Estrutura dos CDROMs
Lista de artigos publicados no âmbito do projecto:
- Spoken Language Corpora for Speech Recognition and Synthesis in European Portuguese, (por ordem alfabética) C. Martins, I. Mascarenhas, H. Meinedo, J. Neto, L. Oliveira, C. Ribeiro, I. Trancoso e C. Viana, RECPAD'98 - Proc. 10th Portuguese Conference on Pattern Recognition, Lisboa, Março de 1998.
- Apresentação do Projecto CORAL - Corpus de Diálogo Etiquetado", C. Viana, I. Trancoso, I. Mascarenhas, I. Duarte, G. Matos, L. Oliveira, H. Campos, C. Correia (apresentado oralmente por I. Trancoso), 1º Workshop de Linguística Computacional, Lisboa, Maio de 1998.
- La Négation en Linguistique - Quelques Configurations Spécifiques, H. Campos, Actas do Colóquio sobre Filosofia da Linguagem, Linguística e Operações Cognitivas, FCSH, Junho de 1998, a publicar no número especial dos Cadernos de Filosofia, do Instituto de Filosofia da Linguagem, da UNL.
- A Negação Polémica num Corpus de Diálogo, H. Campos e C. Correia, Actas do XIV Encontro da Associação Portuguesa de Linguística, Aveiro, Setembro de 1998.
- Mapeamento Sintáctico-Prosódico em PE (Evidência Fornecida por um Corpus de Fala Espontânea), I. Duarte, C. Viana, G. Matos, I. Trancoso, J. Costa e I. Mascarenhas, Resumo da Comunicação Oral ao XIV Encontro Nacional da Associação Portuguesa de Linguística, Aveiro, Setembro de 1998.
- Corpus de Diálogo CORAL, I. Trancoso, C. Viana, I. Duarte e G. Matos, PROPOR'98 - Actas do III Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada, Porto Alegre, Brasil, Novembro de 1998.
Exemplo de anotação ortográfica (diálogo de teste - ver mapas e descrição na Apresentação Oral do Projecto Coral). Dada a sua extensão, não foram incluídos nesta página os ficheiros de anotação a outros níveis.

Consórcio

INESC (Instituto de Engenharia de Sistemas e Computadores), Lisboa
CLUL (Centro de Linguística da Universidade de Lisboa)
FLUL (Faculdade de Letras da Universidade de Lisboa)
FCSH-UNL (Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa)

Sumário da Proposta Inicial

O objectivo deste projecto é a construção de um corpus de diálogo falado, com vários níveis de etiquetagem: ortográfica, fonética, prosódica, sintáctica e semântica. Pretende-se constituir um corpus suficientemente representativo em termos de número de falantes, sobre um único tema escolhido de modo a limitar à partida o vocabulário usado. Este tipo de corpus é essencial para a investigação na área do processamento de fala espontânea, caracterizada por toda uma série de fenómenos que dificultam sobremaneira a sua compreensão por parte de um computador - hesitações, recomeços, más construções, etc. É também essencial para o estudo do diálogo propriamente dito, em particular da sua estruturação e interligação com o reconhecimento de fala. O projecto não visa para já o estudo destes problemas, mas sim a criação de uma infraestrutura linguística que possibilite esse estudo em projectos a definir posteriormente por equipas interdisciplinares. É portanto essencial que, para além de incluir a transliteração do corpus completo, com a indicação de todos os fenómenos para-linguísticos, inclua também etiquetagem a outros níveis - fonético, prosódico, sintáctico e semântico. Apesar da existência de algumas ferramentas automáticas para certos tipos de etiquetagem, a sua fiabilidade com fala espontânea é muito reduzida relativamente a fala lida, pelo que a maior parte deste trabalho é manual, exigindo recursos humanos fora do âmbito do projecto. Por este motivo, só um subconjunto relativamente pequeno do corpus é etiquetado a todos os níveis.

O projecto inicia-se por uma fase de especificação e dimensionamento do corpus, em que será escolhido o tópico e definidos os parâmetros em relação aos quais interessa estudar a variabilidade. Segue-se a recolha propriamente dita e as sucessivas etapas de transcrição com alguma sobreposição entre elas. O projecto termina com o empacotamento do corpus e respectivas etiquetagens em CD-ROM de modo a permitir posteriormente a sua ampla divulgação pela comunidade de investigadores da língua Portuguesa.

Principais Resultados

O projecto CORAL teve como principal resultado a construção de um recurso linguístico que não existia para a nossa língua na altura em que a proposta foi apresentada - um corpus de diálogo falado, com vários níveis de etiquetagem, suficientemente representativo em termos de número de falantes (32, agrupados em 8 quartetos, num total de 64 diálogos) e sobre um tema escolhido de modo a limitar à partida o vocabulário usado (a descrição de trajectos em mapas).

Este tipo de corpus é, de facto, essencial para a investigação na área do processamento de fala espontânea, caracterizada por toda uma série de fenómenos que dificultam sobremaneira a sua compreensão por parte de um computador. É também essencial para o estudo do diálogo propriamente dito, em particular da sua estruturação e interligação com o reconhecimento de fala, no contexto de interfaces Homem-máquina faladas. Pensamos que a criação deste recurso linguístico possibilitará o estudo dos problemas apontados em projectos a definir posteriormente.

Uma exploração sistemática do corpus desde o teste da adequação dos critérios de segmentação e etiquetagem até a um estudo mais aprofundado do mapeamento entre os diferentes níveis de análise, transcende claramente os objectivos propostos.

O corpus está disponível em 5 CDROMs, totalizando 1.6 Gb se contabilizarmos apenas os ficheiros de sinal, a uma frequência de amostragem de 16kHz. A sua disponibilização em formato wav é também possível. Todos os diálogos foram etiquetados ortograficamente. Apenas um subconjunto relativamente pequeno foi etiquetado a vários níveis. A única anotação multinível incluída nos CDROMs é a do diálogo de teste. Para qualquer informação sobre as condições de disponibilidade do corpus, contactar Isabel Trancoso.

Início: 30/12/96

Fim: 30/06/99 (prolongamento de 6 meses relativamente à duração inicialmente planeada de 2 anos)

Isabel Trancoso
03/11/99