Rede neural de processo Gaussiano
Este artigo ou secção resulta, no todo ou em parte, de uma tradução do artigo «Neural_network_Gaussian_process» na Wikipédia em inglês, na versão original. |
A rede bayesiana é uma ferramenta de modelagem para atribuir probabilidades a eventos e, assim, caracterizar a incerteza nas previsões de um modelo. Aprendizagem profunda e redes neurais artificiais são abordagens usadas no aprendizado de máquina para construir modelos computacionais que aprendam com exemplos de treinamento. As redes neurais bayesianas mesclam esses campos. Elas são um tipo de Rede neural artificial cujos parâmetros e previsões são probabilísticos.[1][2] Enquanto as redes neurais artificiais padrão geralmente atribuem alta confiança até mesmo para previsões incorretas,[3] as redes neurais bayesianas podem avaliar com mais precisão a probabilidade de suas previsões estarem corretas.
As Redes Neurais de Processo Gaussiano (RNPGs) são equivalentes às redes neurais Bayesianas até um determinado limite,[4][5][6][7][8][9][10][11][12] e fornecem uma forma fechada de avaliar redes neurais bayesianas. Elas são uma distribuição de probabilidade do processo gaussiano que descreve a distribuição sobre as previsões feitas pela rede neural bayesiana correspondente. A computação em redes neurais artificiais é geralmente organizada em camadas sequenciais de neurônios artificiais. O número de neurônios em uma camada é chamado de largura da camada. A equivalência entre RNPGs e redes neurais bayesianas ocorre quando as camadas em uma rede neural bayesiana se tornam infinitamente largas (veja a figura). Este grande limite de largura é de interesse prático, uma vez que as redes neurais de largura finita normalmente funcionam estritamente melhor à medida que a largura da camada é aumentada.[13][14][15]
Referências
- ↑ MacKay, David J. C. (1992). «A Practical Bayesian Framework for Backpropagation Networks». Neural Computation. 4: 448–472. ISSN 0899-7667. doi:10.1162/neco.1992.4.3.448
- ↑ Neal, Radford M. (2012). Bayesian Learning for Neural Networks. Springer Science and Business Media. [S.l.: s.n.]
- ↑ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). «On calibration of modern neural networks». Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599
- ↑ Neal, Radford M. (1996), «Priors for Infinite Networks», Bayesian Learning for Neural Networks, ISBN 978-0-387-94724-2, Lecture Notes in Statistics, 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2
- ↑ Williams, Christopher K. I. (1997). «Computing with infinite networks». Neural Information Processing Systems
- ↑ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). «Deep Neural Networks as Gaussian Processes». International Conference on Learning Representations. Bibcode:2017arXiv171100165L. arXiv:1711.00165
- ↑ G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). «Gaussian Process Behaviour in Wide Deep Neural Networks». International Conference on Learning Representations. Bibcode:2018arXiv180411271M. arXiv:1804.11271
- ↑ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). «Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv181005148N. arXiv:1810.05148
- ↑ Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). «Deep Convolutional Networks as shallow Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv180805587G. arXiv:1808.05587
- ↑ Borovykh, Anastasia. «A Gaussian Process perspective on Convolutional Neural Networks». arXiv:1810.10798
- ↑ Tsuchida, Russell; Pearce, Tim. «Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks». arXiv:2002.08517
- ↑ Yang, Greg (2019). «Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes» (PDF). Advances in Neural Information Processing Systems. Bibcode:2019arXiv191012478Y. arXiv:1910.12478
- ↑ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (15 de fevereiro de 2018). «Sensitivity and Generalization in Neural Networks: an Empirical Study». International Conference on Learning Representations. Bibcode:2018arXiv180208760N. arXiv:1802.08760
- ↑ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (4 de novembro de 2016). «An Analysis of Deep Neural Network Models for Practical Applications». Bibcode:2016arXiv160507678C. arXiv:1605.07678
- ↑ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). «Towards understanding the role of over-parametrization in generalization of neural networks». International Conference on Learning Representations. Bibcode:2018arXiv180512076N. arXiv:1805.12076