Corpus paralelo

Origem: Wikipédia, a enciclopédia livre.
A Pedra de Roseta, uma estela gravada com o mesmo decreto tanto nas escritas de manuscritos egípcios quanto nas do grego antigo. Sua descoberta foi a chave para decifrar a língua do Antigo Egito

Um corpus paralelo é um texto colocado ao lado de sua tradução ou traduções.[1][2] O alinhamento do corpus paralelo é a identificação das sentenças correspondentes em ambas as metades do corpus paralelo. A Loeb Classical Library e a Clay Sanskrit Library são dois exemplos de séries de textos em duas línguas. As Bíblias de referência podem conter os idiomas originais e uma tradução, ou várias traduções por si mesmas, para facilitar a comparação e o estudo; a Héxapla de Orígenes (grego para 'seis vezes') colocou seis versões do Antigo Testamento lado a lado. Um exemplo famoso é a Pedra de Roseta, cuja descoberta permitiu que a língua egípcia pudesse começar a ser decifrada. Grandes coleções de corpus paralelos são chamados de corpora paralelos (ver corpus de texto). Alinhamentos de corpora paralelos no nível da frase são pré-requisitos para muitas áreas da pesquisa linguística. Durante a tradução, as frases podem ser divididas, mescladas, excluídas, inseridas ou reordenadas pelo tradutor. Isso torna o alinhamento uma tarefa não trivial.

Bitexto[editar | editar código-fonte]

No campo dos estudos de tradução, um bitexto é um documento mesclado composto por versões de um determinado texto no idioma de origem e de destino. Bitextos são gerados por um software denominado ferramenta de alinhamento, ou ferramenta bitextual, que alinha automaticamente as versões original e traduzida do mesmo texto. A ferramenta geralmente combina esses dois textos frase por frase. Uma coleção de bitextos é chamada de banco de dados bitextual ou corpus bilíngue e pode ser consultada com uma ferramenta de pesquisa.

Bitextos e memórias de tradução[editar | editar código-fonte]

Bitextos têm algumas semelhanças com memórias de tradução. A diferença mais saliente é que uma memória de tradução perde o contexto original, enquanto um bitexto retém a ordem da frase original. Dito isto, algumas implementações de memória de tradução, como Translation Memory eXchange (TMX), um formato XML padrão para troca de memórias de tradução entre programas de tradução assistida por computador (CAT), permitem preservar a ordem original das frases. Bitextos são projetados para serem consultados por um tradutor humano, não por uma máquina. Dessa forma, pequenos erros de alinhamento ou pequenas discrepâncias que poderiam causar a falha de uma memória de tradução não têm importância. Em seu artigo original de 1988, Harris também postulou que o bitexto representa como os tradutores mantêm seus textos fonte e alvo juntos em suas memórias mentais de trabalho à medida que progridem. No entanto, essa hipótese não foi acompanhada.[3] Bitextos online e memórias de tradução também podem ser chamados concordâncias bilíngues online. Vários estão disponíveis online publicamente, incluindo Linguée, Reverso e Tradooit.[4][5][6][7]

Referências

  1. Sin-Wai Chan (13 de novembro de 2014). Routledge Encyclopedia of Translation Technology. [S.l.]: Routledge. ISBN 978-1-317-60815-8 
  2. Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 de agosto de 2016). Syntax-based Statistical Machine Translation. [S.l.]: Morgan & Claypool Publishers. ISBN 978-1-62705-502-4 
  3. Harris, B. Bi-text, a new concept in translation theory, Language Monthly (UK) 54, p. 8-10, March 1988.
  4. Marie Genette, "How reliable are online bilingual concordancers?: An investigation of Linguee, TradooIT, WeBiText and ReversoContext and their reliability through a contrastive analysis of complex prepositions from French to English", M.A. thesis, Université Catholique de Louvain and Universitetet i Oslo, Spring 2016 full text
  5. «TradooIT - Concordancier bilingue» 
  6. Alain Désilets, Benoît Farley, Marta Stojanović, Geneviève Patenaude, "WeBiText: Building Large Heterogeneous Translation Memories from Parallel Web Content", Proceedings of Translating and the Computer 30:27-28 (2008) full text
  7. Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24–26 May 2006 

Ligações externas[editar | editar código-fonte]

Corpora paralelo[editar | editar código-fonte]

Documentação[editar | editar código-fonte]

Ferramentas de alinhamento[editar | editar código-fonte]