MeCab

Origem: Wikipédia, a enciclopédia livre.

O MeCab é uma biblioteca de segmentação de texto de código aberto para uso com texto escrito no idioma japonês originalmente desenvolvido pelo Instituto Nara de Ciência e Tecnologia e atualmente mantido por Taku Kudou (工藤拓) como parte de seu trabalho no projeto Google Japanese Input[1].[2] O nome deriva da comida favorita do desenvolvedor, mekabu (和布蕪), um prato japonês feito de folhas de wakame.[3]

O software foi originalmente baseado no ChaSen e foi desenvolvido com o nome ChaSenTNG, mas depois foi desenvolvido independentemente do ChaSen e reescrito do zero. A precisão da análise do MeCab é comparável ao ChaSen e sua velocidade de análise é de 3 a 4 vezes mais rápida, em média. Em 2007, o Google usou o MeCab para gerar dados em n-gram para um grande corpus de texto em japonês[4], publicado em seu blog do Google Japan.[5] O MeCab também é usado para entrada em japonês no MacOS X 10.5 e 10.6 e no iOS desde a versão 2.1.[6][7]

Exemplo[editar | editar código-fonte]

Entrada:

ウィキペディア(Wikipedia)は誰でも編集できるフリー百科事典です

Resulta em:

ウィキペディア	名詞,一般,*,*,*,*,*
(	記号,括弧開,*,*,*,*,(,(,(
Wikipedia	名詞,固有名詞,組織,*,*,*,*
)	記号,括弧閉,*,*,*,*,),),)
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
誰	名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ
でも	助詞,副助詞,*,*,*,*,でも,デモ,デモ
編集	名詞,サ変接続,*,*,*,*,編集,ヘンシュウ,ヘンシュー
できる	動詞,自立,*,*,一段,基本形,できる,デキル,デキル
フリー	名詞,一般,*,*,*,*,フリー,フリー,フリー
百科	名詞,一般,*,*,*,*,百科,ヒャッカ,ヒャッカ
事典	名詞,一般,*,*,*,*,事典,ジテン,ジテン
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS

Além de segmentar o texto, o MeCab também lista a parte do discurso da palavra e, se aplicável e no dicionário, a sua pronúncia. No exemplo acima, o verbo できる (dekiru, "ser capaz de") é classificado como ichidan (一段) verb (動詞) no tempo infinitivo (基本形). A palavra でも (demo) é identificada como um partícula adverbial (副助詞).Como nem todas as colunas se aplicam a todas as palavras, quando uma coluna não se aplica a uma palavra, um asterisco é usado; isso possibilita formatar as informações após a palavra e a tecla tabuladora como a comma-separated values.

O MeCab também suporta vários formatos de saída; um dos quais, chasen, produz tab-separated values em um formato que os programas escritos para o ChaSen possam usar. Outro formato, yomi (do 読む yomu, ler), produz a pronúncia do texto de entrada como katakana,[8] como mostrado abaixo.

ウィキペディア(Wikipedia)ハダレデモヘンシュウデキルフリーヒャッカジテンデス

Ver também[editar | editar código-fonte]

Referências

  1. «Google 日本語入力の開発版をアップデートしました。(1.13.1650.10x)». Google Developers Japan (em japonês). Consultado em 16 de janeiro de 2020 
  2. «「ググる」の精度を高めるために必要なもの - @IT自分戦略研究所». jibun.atmarkit.co.jp. Consultado em 16 de janeiro de 2020 
  3. «思いどおりの日本語入力 - Google 日本語入力». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020 
  4. Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). «Syntactic clustering of the web». Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7 
  5. «大規模日本語 n-gram データの公開». Google Japan Blog (em japonês). Consultado em 16 de janeiro de 2020 
  6. kazama. «大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google)». Cafe Babe (em japonês). Consultado em 16 de janeiro de 2020 
  7. Zubora (15 de setembro de 2008). «iPhoneの仮名漢字変換はMeCabを利用». yebo blog. Consultado em 16 de janeiro de 2020 
  8. Kudou, Taku. «MeCab: Yet Another Part-of-Speech and Morphological Analyzer». taku910.github.io (em japonês). Consultado em 23 de janeiro de 2018 

Ligações externas[editar | editar código-fonte]

Ícone de esboço Este artigo sobre linguística ou um linguista é um esboço. Você pode ajudar a Wikipédia expandindo-o.