O coeficiente de determinação, também chamado de R², é uma medida de ajuste de um modelo estatístico linear generalizado, como a regressão linear simples ou múltipla, aos valores observados de uma variável aleatória. O R² varia entre 0 e 1, por vezes sendo expresso em termos percentuais. Nesse caso, expressa a quantidade da variância dos dados que é explicada pelo modelo linear. Assim, quanto maior o R², mais explicativo é o modelo linear, ou seja, melhor ele se ajusta à amostra. Por exemplo, um R² = 0,8234 significa que o modelo linear explica 82,34% da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.
![{\displaystyle SQ_{\text{tot}}=\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/979bee7f85a21bdc571fe324e7c817cfc3257748)
onde
![{\displaystyle n}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a601995d55609f2d9f5e233e36fbe9ea26011b3b)
é o numero de observações;
Partindo de que
é o valor observado e
é a média das observações, esta equação dá-nos a Soma Total dos Quadrados, ou seja, a soma dos quadrados das diferenças entre a média e cada valor observado.
![{\displaystyle SQ_{\text{res}}=\sum _{i=1}^{n}(y_{i}-{\hat {y_{i}}})^{2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8fe78384e9c77bcc823a2926a1ce0182e45c4c6d)
onde
![{\displaystyle {\hat {y_{i}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/84e9f46b496de85491c3227866df492db14c09fb)
é o valor estimado (previsão) de
![{\displaystyle y_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/67d30d30b6c2dbe4d6f150d699de040937ecc95f)
.
Esta equação é a soma dos quadrados dos resíduos, que calcula a parte que não é explicada pelo modelo.
![{\displaystyle SQ_{\text{exp}}=\sum _{i=1}^{n}({\hat {y_{i}}}-{\bar {y}})^{2},}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e5413829ce720aecfd9992947a508d4e46ac1c9c)
onde
é o valor estimado (previsão) de
.
Esta equação, a soma dos quadrados explicada, indica-nos a diferença entre a média das observações e o valor estimado para cada observação, e soma os respectivos quadrados. Quanto menor for a diferença, maior poder explicativo detém o modelo.
Em alguns casos temos:
![{\displaystyle SQ_{\text{tot}}=SQ_{\text{exp}}+SQ_{\text{res}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b9bfe96cc1d366c8a6a24e43384825f2bc64adc9)
E normalizando a equação de cima, temos que:
![{\displaystyle R^{2}={\frac {SQ_{\text{exp}}}{SQ_{\text{tot}}}}=1-{\frac {SQ_{\text{res}}}{SQ_{\text{tot}}}}.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/278222f68fea19df5ef5c7a374a7ee9294e3140d)
A inclusão de inúmeras variáveis, mesmo que tenham muito pouco poder explicativo sobre a variável dependente, aumentarão o valor de R². Isto incentiva a inclusão indiscriminada de variáveis, prejudicando o princípio da parcimônia (ver de forma mais ampla em navalha de Ockhan). Para combater esta tendência, podemos usar uma medida alternativa do coeficiente de determinação, que penaliza a inclusão de regressores pouco explicativos. Trata-se do R² ajustado:
![{\displaystyle {\bar {R^{2}}}=1-{\frac {n-1}{n-(k+1)}}\left(1-R^{2}\right),}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6789103bf06cb44e01b9332c96d322a19a4273cd)
onde
![{\displaystyle (k+1)\,\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4d5b182dd36f0718e3030ca9134b1b4678254f40)
representa o número de variáveis explicativas mais a constante.
Note que a inclusão de mais variáveis com pouco poder explicativo prejudica o valor do R² ajustado, porque aumenta
uma unidade, sem aumentar substancialmente o
.
Relação entre Coeficiente de Determinação (R²) e Coeficiente de Correlação (R)[editar | editar código-fonte]
Para provarmos que o Coeficiente de Determinação equivale ao quadrado do Coeficiente de Correlação, precisamos provar inicialmente:
Teorema 1:
[editar | editar código-fonte]
Prova:
[editar | editar código-fonte]
Teorema 2:
[editar | editar código-fonte]
Prova: Inicialmente, precisamos reescrever a expressão do valor estimado pela Regressão Linear:
![{\displaystyle =[A.(x_{1}-{\overline {x}})+({\overline {y}}-y_{1})]^{2}+\cdots +[A.(x_{n}-{\overline {x}})+({\overline {y}}-y_{n})]^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6055281ac885c4e6e940a3cdd26a3078a83e0c5d)
![{\displaystyle =A^{2}.(x_{1}-{\overline {x}})^{2}+2.A.(x_{1}-{\overline {x}}).({\overline {y}}-y_{1})+({\overline {y}}-y_{1})^{2}+\cdots +A^{2}.(x_{n}-{\overline {x}})^{2}+2.A.(x_{n}-{\overline {x}}).({\overline {y}}-y_{n})+({\overline {y}}-y_{n})^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/66275cf706f18c06d86f03bf3caaea20f54b33e1)
![{\displaystyle =A^{2}.(x_{1}^{2}-2.x_{1}.{\overline {x}}+{\overline {x}}^{2})+2.A.(x_{1}.{\overline {y}}-x_{1}.y_{1}-{\overline {x}}.{\overline {y}}+{\overline {x}}.y_{1})+({\overline {y}}^{2}-2.{\overline {y}}.y_{1}+y_{1}^{2})+\cdots }](https://wikimedia.org/api/rest_v1/media/math/render/svg/55fed83a6a4dda52e9a87652e0721c63aae46250)
Teorema 3:
Prova:
Teorema 4: (Coeficiente de Correlação)² = Coeficiente de Determinação
Prova: Coeficiente de Correlação =
Para elevá-lo ao quadrado, façamos separadamente numerador e denominador:
Quadrado do numerador:
Agora, façamos o quadrado do denominador:
Juntando, temos:
(Coeficiente de Correlação)² =
= Coeficiente de Determinação (R²) c.q.d.