Regressão linear simples

Em estatística, regressão linear simples é o quadrado mínimo estimador de um modelo de regressão linear com uma única variável explicativa. Em outras palavras, regressão linear simples se encaixa uma linha reta através do conjunto de pontos n de tal forma que faça a soma dos quadrados residuais do modelo ( isto é, as distâncias entre os pontos verticais do conjunto de dados e a linha reta) tão pequena quanto possível .

O adjetivo simples refere-se ao fato de que esta regressão é uma das mais simples na estatística. O declive da linha reta é igual à correlação entre y e x seja corrigida pela relação de desvios padrão destas variáveis. A intercepção da linha reta é tal que passa pelo centro de massa(x,y) dos pontos de dados.

Também existem outros métodos de regressão, além do simples quadrado mínimo ordinário (QMO) (ver modelo de regressão linear). Em particular, quando se quer fazer a regressão por olho , as pessoas geralmente tendem a desenhar uma linha um pouco mais íngreme, mais próximo ao produzido pelo método do quadrado mínimo total. Isso ocorre porque é mais natural para a mente humana considerar as distâncias ortogonais para a linha de regressão, ao invés das verticais como o método QMO faz.

Montagem da linha de regressão

Suponha que há n pontos de dados{y_i, x_i}, onde i = 1, 2, …, n. O objetivo é encontrar a equação da reta

y=\alpha +\beta x,\,

Que proporcionaria o ”melhor” ajuste para os dados. Seja o "melhor" entendido como o quadrado mínimo aborda: a tal linha que minimiza a soma do quadrado dos resíduos do modelo de regressão linear. Em outras palavras, os números α( a intercepção y-) e “β”(a inclinação) resolvem o seguinte problema de minimização :

{\text{Procurar }}\min _{\alpha ,\,\beta }Q(\alpha ,\beta ),{\text{Onde }}Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}\

Ao utilizar o cálculo, a geometria do espaço com produto interno ou simplesmente expandir para obter uma equação quadrática comα e β, pode-se mostrar que os valores de α e “β” que minimizam o objetivo da função Q ^[1] são

{\begin{aligned}{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}{x_{i}y_{i}}-{\frac {1}{n}}\sum _{i=1}^{n}{x_{i}}\sum _{j=1}^{n}{y_{j}}}{\sum _{i=1}^{n}({x_{i}^{2}})-{\frac {1}{n}}(\sum _{i=1}^{n}{x_{i}})^{2}}}\\[6pt]&={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{{\overline {x^{2}}}-{\bar {x}}^{2}}}={\frac {\operatorname {Cov} [x,y]}{\operatorname {Var} [x]}}=r_{xy}{\frac {s_{y}}{s_{x}}},\\[6pt]{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\end{aligned}}

onde $r_{xy}$ é a coeficiente de correlação da amostra entre $x$ e $y$ , $s_{x}$ é o Desvio Padrão de $x$ , e $s_{y}$ é correspondentemente o desvio padrão de $y$ . Uma barra horizontal sobre uma quantidade indica a média da amostra da quantidade. Por exemplo: ${\overline {xy}}={\tfrac {1}{n}}\textstyle \sum _{i=1}^{n}x_{i}y_{i}\ .$ Substituindo as expressões acima para ${\hat {\alpha }}$ e ${\hat {\beta }}$ por

y={\hat {\alpha }}+{\hat {\beta }}x,\,

resulta

{\frac {y-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}

Isso mostra o papel de $r_{xy}$ no desempenho da linha de regressão de pontos de dados padronizados. Às vezes é útil para calcular $r_{xy}$ a partir dos dados independentemente qual seja, usando esta equação:

r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {({\overline {x^{2}}}-{\bar {x}}^{2})({\overline {y^{2}}}-{\bar {y}}^{2})}}}

O coeficiente de determinação (R²) é igual a $r_{xy}^{2}$ quando o modelo é linear com uma única variável independente. Veja coeficiente de correlação da amostra para mais detalhes.

Regressão linear, sem o termo de interceptação

Às vezes, as pessoas consideram um modelo de regressão linear simples, sem o termo de intercepto, $y=\beta x$ . Nesse caso, o estimador QMO para $\beta$ simplifica para

{\hat {\beta }}=({\overline {xy}})/({\overline {x^{2}}})

E o coeficiente de correlação da amostra torna-se

r_{xy}={\frac {\overline {xy}}{\sqrt {({\overline {x^{2}}})({\overline {y^{2}}})}}}

Propriedades numéricas

A linha que passa pelo ponto do “centro de massa” (x, y).
Soma dos resíduos é igual à zero, se o modelo inclui uma constante: $\textstyle \sum _{i=1}^{n}{\hat {\varepsilon }}_{i}=0.$
A combinação linear dos residuais, em que os coeficientes são a valores dex, é igual a zero: $\textstyle \sum _{i=1}^{n}x_{i}{\hat {\varepsilon }}_{i}=0.$

Propriedades do modelo de caso

A descrição das propriedades estatísticas de estimação para regressão linear simples requer o uso de um modelo estatístico. O seguinte é baseado em assumir a validade de um modelo em que as estimativas são ideais. Também é possível avaliar as propriedades em outras hipóteses, como heterogeneidade, mas isso é discutido em outro lugar.

Viés

Os estimadores ${\hat {\alpha }}$ and ${\hat {\beta }}$ são imparcial Isso exige que nós interpretemos os estimadores como variáveis aleatórias e por isso temos que assumir que, para cada valor de x, o valor correspondente de y é gerado como uma resposta média α + βx mais uma variável aleatória adicional ε chamada termo de erro. Este termo de erro tem de ser igual a zero, em média, para cada valor de x. Sob essa interpretação, os estimadores de quadrados mínimos ${\hat {\alpha }}$ and ${\hat {\beta }}$ serão variáveis aleatórias, e vão imparcialmente estimar os “valores reais” α e β.

Os intervalos de confiança

As fórmulas dadas na seção anterior permitem calcular o ”ponto estimado” de α eβ - isto é, os coeficientes da linha de regressão para um dado conjunto de dados. No entanto, essas fórmulas não nos dizem o quão preciso as estimativas são, ou seja, o quanto os estimadores ${\hat {\alpha }}$ e ${\hat {\beta }}$ variam de amostra para amostra para um tamanho especifico. Os chamados “intervalos de confiança” foram concebidos para dar um conjunto plausível de valores que as estimativas podem ter se um experimento for repetido várias vezes. O método padrão de construção de intervalos de confiança para coeficientes de regressão linear baseia-se na suposição de normalidade, o que se justifica se 1)os erros na regressão são normalmente distribuídos (a chamada suposição da regressão clássica) , ou 2) o número de observações n é suficientemente grande, no caso em que o estimador é aproximadamente distribuído normalmente . O último caso é justificada pelo teorema central do limite.

Suposição de normalidade

Na primeira hipótese acima, o da normalidade dos termos de erro, o estimador do coeficiente de inclinação será ele próprio normalmente distribuído com média β e variância $\sigma ^{2}/\sum (x_{i}-{\bar {x}})^{2},$ onde $\sigma ^{2}$ é a variância dos termos de erro (ver Proofs involving ordinary least squares). Ao mesmo tempo, a soma dos quadrados dos resíduos Q é distribuído proporcionalmente ao χ² com (n - 2) graus de liberdade , e independentemente de ${\hat {\beta }}.$ Isso nos permite construir uma t-estatística

t={\frac {{\hat {\beta }}-\beta }{s_{\hat {\beta }}}}\ \sim \ t_{n-2},

where

s_{\hat {\beta }}={\sqrt {\frac {{\tfrac {1}{n-2}}\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

Que tem um Student's t- distribuição com graus de liberdade (n−2). Aqui s_β é o erro padrão do estimador ${\hat {\beta }}.$ Usando este t-estatística podemos construir um intervalo de confiança paraβ:

\beta \in {\Big [}\ {\hat {\beta }}-s_{\hat {\beta }}t_{n-2}^{*},\ {\hat {\beta }}+s_{\hat {\beta }}t_{n-2}^{*}\ {\Big ]}

com nível de confiança (1−γ),

onde $t_{n-2}^{*}$ é o (1−γ/2)-th quantil da t_n–2 distribuição. Por exemplo, se γ = 0.05 então o nível de confiança é 95%. Do mesmo modo , o intervalo de confiança para o coeficiente de intercepçãoα é dado por

\alpha \in {\Big [}\ {\hat {\alpha }}-s_{\hat {\alpha }}t_{n-2}^{*},\ {\hat {\alpha }}+s_{\hat {\alpha }}t_{n-2}^{*}\ {\Big ]}

no nível de confiança (1−γ),

onde

s_{\hat {\alpha }}=s_{\hat {\beta }}{\sqrt {{\tfrac {1}{n}}\textstyle \sum _{i=1}^{n}x_{i}^{2}}}={\sqrt {{\tfrac {1}{n(n-2)}}\left(\textstyle \sum _{j=1}^{n}{\hat {\varepsilon }}_{j}^{\,2}\right){\frac {\sum _{i=1}^{n}x_{i}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}

Os intervalos de confiança para α e β nos dão a idéia geral de onde estes coeficientes de regressão são mais susceptíveis de estar. Por exemplo, na regressão "A lei de Okun" mostrada no início do artigo, as estimativas pontuais são ${\hat {\alpha }}=0.859$ e ${\hat {\beta }}=-1.817.$ Os intervalos de confiança de 95% para estas estimativas são

\alpha \in {\big [}\,0.76,\,0.96\,{\big ]},\quad \beta \in {\big [}\,{-2.06},\,{-1.58}\,{\big ]}

com grau de confiança 95%.

De modo a representar esta informação graficamente, sob a forma de bandas de confiança em torno da linha de regressão, o progresso tem que ser cuidadoso e conta com a distribuição conjunta dos estimadores. Pode ser mostrado ^[^{carece de fontes?]} que, o nível de confiança (1 - γ) tem uma banda de confiança com forma hiperbólica dada pela equação

{\hat {y}}|_{x=\xi }\in {\Bigg [}{\hat {\alpha }}+{\hat {\beta }}\xi \pm t_{n-2}^{*}{\sqrt {\textstyle {\frac {1}{n-2}}\sum {\hat {\varepsilon }}_{i}^{\,2}\cdot {\Big (}{\frac {1}{n}}+{\frac {(\xi -{\bar {x}})^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}{\Big )}}}{\Bigg ]}.

Suposição Assintótica

A segunda hipótese alternativa afirma que, quando o número de pontos no conjunto de dados é "grande o suficiente", o lei dos grandes números e o teorema central do limite tornar-se aplicável, e então a distribuição dos estimadores é de aproximadamente normal. Partindo deste pressuposto todas as fórmulas derivadas da seção anterior permanecem válidas, com a única exceção de que o quantil t* _n−2 da t-Student é substituído pelo quantil q* da distribuição normal. Ocasionalmente, a fração 1⁄(n−2) é substituída por 1⁄n. Quando n é grande essa mudança não altera os resultados consideravelmente.

Exemplo numérico

Este exemplo refere-se o conjunto de dados a partir do Ordinary least squares artigo. Este conjunto de dados dá pesos médios para os seres humanos como uma função da sua altura na população de mulheres americanas de 30-39 anos. Embora o artigo dos Ordinary least squares argumentar que seria mais apropriado para executar uma regressão quadrática, para esses dados, o modelo de regressão linear simples, que é aplicado aqui em vez.

x_i	1.47	1.50	1.52	1.55	1.57	1.60	1.63	1.65	1.68	1.70	1.73	1.75	1.78	1.80	1.83	Altura (m)
y_i	52.21	53.12	54.48	55.84	57.20	58.57	59.93	61.29	63.11	64.47	66.28	68.10	69.92	72.19	74.46	Peso (kg)

Existem n = 15 pontos neste conjunto de dados. Cálculos manuais começariam encontrando as seguintes cinco somas:

{\begin{aligned}&S_{x}=\sum x_{i}=24.76,\quad S_{y}=\sum y_{i}=931.17\\&S_{xx}=\sum x_{i}^{2}=41.0532,\quad S_{xy}=\sum x_{i}y_{i}=1548.2453,\quad S_{yy}=\sum y_{i}^{2}=58498.5439\end{aligned}}

Estas quantidades serão utilizadas para calcular as estimativas dos coeficientes de regressão, e os seus erros padrões.

{\begin{aligned}&{\hat {\beta }}={\frac {nS_{xy}-S_{x}S_{y}}{nS_{xx}-S_{x}^{2}}}=61.272\\&{\hat {\alpha }}={\tfrac {1}{n}}S_{y}-{\hat {\beta }}{\tfrac {1}{n}}S_{x}=-39.062\\&s_{\varepsilon }^{2}={\tfrac {1}{n(n-2)}}{\big (}nS_{yy}-S_{y}^{2}-{\hat {\beta }}^{2}(nS_{xx}-S_{x}^{2}){\big )}=0.5762\\&s_{\beta }^{2}={\frac {ns_{\varepsilon }^{2}}{nS_{xx}-S_{x}^{2}}}=3.1539\\&s_{\alpha }^{2}=s_{\beta }^{2}{\tfrac {1}{n}}S_{xx}=8.63185\end{aligned}}

O quantil de 0.975 “t-“Student com 13 graus de liberdade é t^*₁₃ = 2.1604, e portanto, os intervalos de confiança de 95% para α e β são

{\begin{aligned}&\alpha \in [\,{\hat {\alpha }}\mp t_{13}^{*}s_{\alpha }\,]=[\,{-45.4},\ {-32.7}\,]\\&\beta \in [\,{\hat {\beta }}\mp t_{13}^{*}s_{\beta }\,]=[\,57.4,\ 65.1\,]\end{aligned}}

O coeficiente de correlação produto-momento também pode ser calculado:

{\hat {r}}={\frac {nS_{xy}-S_{x}S_{y}}{\sqrt {(nS_{xx}-S_{x}^{2})(nS_{yy}-S_{y}^{2})}}}=0.9945

Este exemplo também demonstra que os cálculos sofisticados não irão superar a utilização de dados de mal preparados. As alturas foram originalmente dadas em polegadas, e foram convertidas para centímetros. Uma vez que o fator de conversão de uma polegada é 2,54 cm, isto é “não” uma conversão correta. As polegadas originais podem ser recuperadas por Round (x/0.0254 ) e , em seguida, re- convertido para metros: se isso for feito , os resultados tornam-se

{\begin{aligned}&{\hat {\beta }}=61.6746\\&{\hat {\alpha }}=-39.7468\\\end{aligned}}

Assim, uma aparentemente pequena variação nos dados tem um efeito real.

Referências

↑ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285

Links

Wolfram MathWorld's explanation of Least Squares Fitting, and how to calculate it

Predefinição:Statistics

[1] Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252-285

[1]