BERT (modelo de linguagem)

Origem: Wikipédia, a enciclopédia livre.

Bidirecional Encoder Representations from Transformers (BERT) é uma família de modelos de linguagem introduzida em 2018 por pesquisadores do Google.[1][2] Uma pesquisa da literatura em 2020 concluiu que "em pouco mais de um ano, o BERT se tornou onipresente em experimentos de Processamento de Linguagem Natural (NLP), contando com mais de 150 publicações".[3]

O BERT foi originalmente implementado para o inglês em dois tamanhos de modelo[1]: (1) BERT BASE : 12 encoders com 12 cabeças de auto-atenção bidirecionais totalizando 110 milhões de parâmetros, e (2) BERT LARGE : 24 encoders com 16 auto-atendimento bidirecionais cabeças de atenção totalizando 340 milhões de parâmetros. Ambos os modelos foram pré-treinados no Toronto BookCorpus[4] (800 milhões de palavras) e na Wikipédia em inglês (2.500 milhões de palavras).

Arquitetura[editar | editar código-fonte]

O BERT é baseado na arquitetura transformer, sendo pré-treinado simultaneamente em duas tarefas: modelagem de linguagem (15% dos tokens foram mascarados e o objetivo do treinamento foi prever o token original, dado seu contexto) e previsão da próxima frase (o objetivo do treinamento foi classificar se dois trechos de texto apareceu sequencialmente no corpus de treinamento).[5] Como resultado desse processo de treinamento, o BERT aprende representações latentes de palavras e frases em contexto. Após o pré-treinamento, é possivél fazer um ajuste fino com menos recursos em conjuntos de dados menores para otimizar seu desempenho em tarefas específicas, como tarefas de PLN (inferência de linguagem, classificação de texto) e tarefas de geração de linguagem baseadas em sequência (resposta a perguntas, geração de resposta conversacional).[1][6] O estágio de pré-treinamento é significativamente mais caro computacionalmente do que o ajuste fino.

Desempenho[editar | editar código-fonte]

Quando o BERT foi publicado, ele alcançou desempenho de estado da arte em várias tarefas de compreensão de linguagem natural :[1]

  • Conjunto de tarefas GLUE ( Avaliação de Compreensão Geral de Linguagem ) (composto por 9 tarefas)
  • SQuAD (Stanford Question Answering Dataset )[7] v1.1 e v2.0
  • SWAG (Situações com Gerações Adversárias )[8]

História[editar | editar código-fonte]

BERT foi originalmente publicado pelos pesquisadores do Google Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. O design tem suas origens em representações contextuais de pré-treinamento, incluindo aprendizado de sequência semi-supervisionado,[9] pré-treinamento generativo, ELMo,[10] e ULMFit.[11] Ao contrário dos modelos anteriores, o BERT é uma representação profunda de linguagem bidirecional e não supervisionada, pré-treinada usando apenas um corpus de texto simples. Modelos livres de contexto, como word2vec ou GloVe, geram uma representação de incorporação de palavra única para cada palavra no vocabulário, onde o BERT leva em consideração o contexto para cada ocorrência de uma determinada palavra. Por exemplo, enquanto o vetor para "rodando" terá a mesma representação do vetor word2vec para ambas as ocorrências nas sentenças "Ele está rodando o programa" e "O pneu está rodando", o BERT fornecerá uma incorporação contextualizada que será diferentes de acordo com a frase.

Em 25 de outubro de 2019, o Google anunciou que havia começado a aplicar modelos BERT para consultas de pesquisa em inglês nos EUA.[12] Em 9 de dezembro de 2019, foi relatado que o BERT havia sido adotado pela Pesquisa do Google em mais de 70 idiomas.[13] Em outubro de 2020, quase todas as consultas em inglês foram processadas por um modelo BERT.[14]

Reconhecimento[editar | editar código-fonte]

O trabalho de pesquisa que descreve o BERT ganhou o Prêmio de Melhor Artigo Longo na Conferência Anual de 2019 do Capítulo Norte-Americano da Associação de Linguística Computacional (NAACL).[15]

Referências

  1. a b c d Devlin, Jacob; Chang, Ming-Wei (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2Acessível livremente [cs.CL] 
  2. «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog (em inglês). Consultado em 27 de novembro de 2019 
  3. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327Acessível livremente. doi:10.1162/tacl_a_00349 
  4. Zhu, Yukun; Kiros, Ryan (2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». arXiv:1506.06724Acessível livremente [cs.CV] 
  5. «Summary of the models — transformers 3.4.0 documentation». huggingface.co. Consultado em 16 de fevereiro de 2023 
  6. Horev, Rani (2018). «BERT Explained: State of the art language model for NLP». Towards Data Science. Consultado em 27 de setembro de 2021 
  7. Rajpurkar, Pranav; Zhang, Jian (10 de outubro de 2016). «SQuAD: 100,000+ Questions for Machine Comprehension of Text». arXiv:1606.05250Acessível livremente [cs.CL] 
  8. Zellers, Rowan; Bisk, Yonatan (15 de agosto de 2018). «SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference». arXiv:1808.05326Acessível livremente [cs.CL] 
  9. Dai, Andrew; Le, Quoc (4 de novembro de 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432Acessível livremente [cs.LG] 
  10. Peters, Matthew; Neumann, Mark (15 de fevereiro de 2018). «Deep contextualized word representations». arXiv:1802.05365v2Acessível livremente [cs.CL] 
  11. Howard, Jeremy; Ruder, Sebastian (18 de janeiro de 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146v5Acessível livremente [cs.CL] 
  12. Nayak, Pandu (25 de outubro de 2019). «Understanding searches better than ever before». Google Blog. Consultado em 10 de dezembro de 2019 
  13. Montti, Roger (10 de dezembro de 2019). «Google's BERT Rolls Out Worldwide». Search Engine Journal. Search Engine Journal. Consultado em 10 de dezembro de 2019 
  14. «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020 
  15. «Best Paper Awards». NAACL. 2019. Consultado em 28 de março de 2020