O objectivo deste projecto é a construção de um corpus de diálogo falado, com vários níveis de etiquetagem: ortográfica, fonética, prosódica, sintáctica e semântica. Pretende-se constituir um corpus suficientemente representativo em termos de número de falantes, sobre um único tema escolhido de modo a limitar à partida o vocabulário usado. Este tipo de corpus é essencial para a investigação na área do processamento de fala espontânea, caracterizada por toda uma série de fenómenos que dificultam sobremaneira a sua compreensão por parte de um computador - hesitações, recomeços, más construções, etc. É também essencial para o estudo do diálogo propriamente dito, em particular da sua estruturação e interligação com o reconhecimento de fala. O projecto não visa para já o estudo destes problemas, mas sim a criação de uma infraestrutura linguística que possibilite esse estudo em projectos a definir posteriormente por equipas interdisciplinares. É portanto essencial que, para além de incluir a transliteração do corpus completo, com a indicação de todos os fenómenos para-linguísticos, inclua também etiquetagem a outros níveis - fonético, prosódico, sintáctico e semântico. Apesar da existência de algumas ferramentas automáticas para certos tipos de etiquetagem, a sua fiabilidade com fala espontânea é muito reduzida relativamente a fala lida, pelo que a maior parte deste trabalho é manual, exigindo recursos humanos fora do âmbito do projecto. Por este motivo, só um subconjunto relativamente pequeno do corpus é etiquetado a todos os níveis.
O projecto inicia-se por uma fase de especificação e dimensionamento do corpus, em que será escolhido o tópico e definidos os parâmetros em relação aos quais interessa estudar a variabilidade. Segue-se a recolha propriamente dita e as sucessivas etapas de transcrição com alguma sobreposição entre elas. O projecto termina com o empacotamento do corpus e respectivas etiquetagens em CD-ROM de modo a permitir posteriormente a sua ampla divulgação pela comunidade de investigadores da língua Portuguesa.
O projecto CORAL teve como principal resultado a construção de um recurso linguístico que não existia para a nossa língua na altura em que a proposta foi apresentada - um corpus de diálogo falado, com vários níveis de etiquetagem, suficientemente representativo em termos de número de falantes (32, agrupados em 8 quartetos, num total de 64 diálogos) e sobre um tema escolhido de modo a limitar à partida o vocabulário usado (a descrição de trajectos em mapas).
Este tipo de corpus é, de facto, essencial para a investigação na área do processamento de fala espontânea, caracterizada por toda uma série de fenómenos que dificultam sobremaneira a sua compreensão por parte de um computador. É também essencial para o estudo do diálogo propriamente dito, em particular da sua estruturação e interligação com o reconhecimento de fala, no contexto de interfaces Homem-máquina faladas. Pensamos que a criação deste recurso linguístico possibilitará o estudo dos problemas apontados em projectos a definir posteriormente.
Uma exploração sistemática do corpus desde o teste da adequação dos critérios de segmentação e etiquetagem até a um estudo mais aprofundado do mapeamento entre os diferentes níveis de análise, transcende claramente os objectivos propostos.
O corpus está disponível em 5 CDROMs, totalizando 1.6 Gb se contabilizarmos apenas os ficheiros de sinal, a uma frequência de amostragem de 16kHz. A sua disponibilização em formato wav é também possível. Todos os diálogos foram etiquetados ortograficamente. Apenas um subconjunto relativamente pequeno foi etiquetado a vários níveis. A única anotação multinível incluída nos CDROMs é a do diálogo de teste. Para qualquer informação sobre as condições de disponibilidade do corpus, contactar Isabel Trancoso.
Início: 30/12/96
Fim: 30/06/99 (prolongamento de 6 meses relativamente à duração inicialmente planeada de 2 anos)