BERT (modelo de linguagem)

Bidirecional Encoder Representations from Transformers (BERT) é uma família de modelos de linguagem introduzida em 2018 por pesquisadores do Google.^[1]^[2] Uma pesquisa da literatura em 2020 concluiu que "em pouco mais de um ano, o BERT se tornou onipresente em experimentos de Processamento de Linguagem Natural (NLP), contando com mais de 150 publicações".^[3]

O BERT foi originalmente implementado para o inglês em dois tamanhos de modelo^[1]: (1) BERT _BASE : 12 encoders com 12 cabeças de auto-atenção bidirecionais totalizando 110 milhões de parâmetros, e (2) BERT _LARGE : 24 encoders com 16 auto-atendimento bidirecionais cabeças de atenção totalizando 340 milhões de parâmetros. Ambos os modelos foram pré-treinados no Toronto BookCorpus^[4] (800 milhões de palavras) e na Wikipédia em inglês (2.500 milhões de palavras).

Arquitetura[editar | editar código-fonte]

O BERT é baseado na arquitetura transformer, sendo pré-treinado simultaneamente em duas tarefas: modelagem de linguagem (15% dos tokens foram mascarados e o objetivo do treinamento foi prever o token original, dado seu contexto) e previsão da próxima frase (o objetivo do treinamento foi classificar se dois trechos de texto apareceu sequencialmente no corpus de treinamento).^[5] Como resultado desse processo de treinamento, o BERT aprende representações latentes de palavras e frases em contexto. Após o pré-treinamento, é possivél fazer um ajuste fino com menos recursos em conjuntos de dados menores para otimizar seu desempenho em tarefas específicas, como tarefas de PLN (inferência de linguagem, classificação de texto) e tarefas de geração de linguagem baseadas em sequência (resposta a perguntas, geração de resposta conversacional).^[1]^[6] O estágio de pré-treinamento é significativamente mais caro computacionalmente do que o ajuste fino.

Desempenho[editar | editar código-fonte]

Quando o BERT foi publicado, ele alcançou desempenho de estado da arte em várias tarefas de compreensão de linguagem natural :^[1]

Conjunto de tarefas GLUE ( Avaliação de Compreensão Geral de Linguagem ) (composto por 9 tarefas)
SQuAD (Stanford Question Answering Dataset )^[7] v1.1 e v2.0
SWAG (Situações com Gerações Adversárias )^[8]

História[editar | editar código-fonte]

BERT foi originalmente publicado pelos pesquisadores do Google Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. O design tem suas origens em representações contextuais de pré-treinamento, incluindo aprendizado de sequência semi-supervisionado,^[9] pré-treinamento generativo, ELMo,^[10] e ULMFit.^[11] Ao contrário dos modelos anteriores, o BERT é uma representação profunda de linguagem bidirecional e não supervisionada, pré-treinada usando apenas um corpus de texto simples. Modelos livres de contexto, como word2vec ou GloVe, geram uma representação de incorporação de palavra única para cada palavra no vocabulário, onde o BERT leva em consideração o contexto para cada ocorrência de uma determinada palavra. Por exemplo, enquanto o vetor para "rodando" terá a mesma representação do vetor word2vec para ambas as ocorrências nas sentenças "Ele está rodando o programa" e "O pneu está rodando", o BERT fornecerá uma incorporação contextualizada que será diferentes de acordo com a frase.

Em 25 de outubro de 2019, o Google anunciou que havia começado a aplicar modelos BERT para consultas de pesquisa em inglês nos EUA.^[12] Em 9 de dezembro de 2019, foi relatado que o BERT havia sido adotado pela Pesquisa do Google em mais de 70 idiomas.^[13] Em outubro de 2020, quase todas as consultas em inglês foram processadas por um modelo BERT.^[14]

Reconhecimento[editar | editar código-fonte]

O trabalho de pesquisa que descreve o BERT ganhou o Prêmio de Melhor Artigo Longo na Conferência Anual de 2019 do Capítulo Norte-Americano da Associação de Linguística Computacional (NAACL).^[15]

Referências

↑ ^a ^b ^c ^d Devlin, Jacob; Chang, Ming-Wei (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]
↑ «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog (em inglês). Consultado em 27 de novembro de 2019
↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349
↑ Zhu, Yukun; Kiros, Ryan (2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». arXiv:1506.06724 [cs.CV]
↑ «Summary of the models — transformers 3.4.0 documentation». huggingface.co. Consultado em 16 de fevereiro de 2023
↑ Horev, Rani (2018). «BERT Explained: State of the art language model for NLP». Towards Data Science. Consultado em 27 de setembro de 2021
↑ Rajpurkar, Pranav; Zhang, Jian (10 de outubro de 2016). «SQuAD: 100,000+ Questions for Machine Comprehension of Text». arXiv:1606.05250 [cs.CL]
↑ Zellers, Rowan; Bisk, Yonatan (15 de agosto de 2018). «SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference». arXiv:1808.05326 [cs.CL]
↑ Dai, Andrew; Le, Quoc (4 de novembro de 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432 [cs.LG]
↑ Peters, Matthew; Neumann, Mark (15 de fevereiro de 2018). «Deep contextualized word representations». arXiv:1802.05365v2 [cs.CL]
↑ Howard, Jeremy; Ruder, Sebastian (18 de janeiro de 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146v5 [cs.CL]
↑ Nayak, Pandu (25 de outubro de 2019). «Understanding searches better than ever before». Google Blog. Consultado em 10 de dezembro de 2019
↑ Montti, Roger (10 de dezembro de 2019). «Google's BERT Rolls Out Worldwide». Search Engine Journal. Search Engine Journal. Consultado em 10 de dezembro de 2019
↑ «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020
↑ «Best Paper Awards». NAACL. 2019. Consultado em 28 de março de 2020

[:0-1] Devlin, Jacob; Chang, Ming-Wei (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]

[2] «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog (em inglês). Consultado em 27 de novembro de 2019

[3] Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349

[4] Zhu, Yukun; Kiros, Ryan (2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». arXiv:1506.06724 [cs.CV]

[5] «Summary of the models — transformers 3.4.0 documentation». huggingface.co. Consultado em 16 de fevereiro de 2023

[6] Horev, Rani (2018). «BERT Explained: State of the art language model for NLP». Towards Data Science. Consultado em 27 de setembro de 2021

[7] Rajpurkar, Pranav; Zhang, Jian (10 de outubro de 2016). «SQuAD: 100,000+ Questions for Machine Comprehension of Text». arXiv:1606.05250 [cs.CL]

[8] Zellers, Rowan; Bisk, Yonatan (15 de agosto de 2018). «SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference». arXiv:1808.05326 [cs.CL]

[9] Dai, Andrew; Le, Quoc (4 de novembro de 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432 [cs.LG]

[10] Peters, Matthew; Neumann, Mark (15 de fevereiro de 2018). «Deep contextualized word representations». arXiv:1802.05365v2 [cs.CL]

[11] Howard, Jeremy; Ruder, Sebastian (18 de janeiro de 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146v5 [cs.CL]

[12] Nayak, Pandu (25 de outubro de 2019). «Understanding searches better than ever before». Google Blog. Consultado em 10 de dezembro de 2019

[13] Montti, Roger (10 de dezembro de 2019). «Google's BERT Rolls Out Worldwide». Search Engine Journal. Search Engine Journal. Consultado em 10 de dezembro de 2019

[14] «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020

[15] «Best Paper Awards». NAACL. 2019. Consultado em 28 de março de 2020

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]