Principais tipos de regressão: Qual usar?

Portanto, regressão ... além de outros algoritmos e modelos estatísticos, é mais um componente básico sobre o qual o Machine Learning funciona com sucesso. Em sua essência, a regressão visa encontrar o relacionamento entre variáveis ​​e, para o Machine Learning, é necessário para prever o resultado com base nesse relacionamento.
Obviamente, qualquer engenheiro de ML que se preze deve ser bem orientado nesse assunto. Mas espere, há uma série de regressões. Regressões lineares e logísticas são normalmente os primeiros algoritmos que as pessoas aprendem. Mas, a verdade é que algumas formas inúmeras de regressões podem ser realizadas. Cada formulário tem sua própria importância e uma condição específica onde é mais adequado para sua aplicação. Então, qual usar?
Neste artigo, expliquei as formas de regressão mais usadas de uma maneira compreensível, para que você possa calcular o que é mais adequado para sua tarefa específica.
Vamos rolar.

1. Regressão linear

Igualmente conhecido como mínimos quadrados ordinários (OLS) e mínimos quadrados lineares - o tipo “mais clássico”, que apareceu quase 250 anos atrás (você pode imaginar?). Você pode empregá-lo para realizar cálculos em pequenos conjuntos de dados, mesmo que manualmente. Os casos de uso atuais incluem interpolação, mas a regressão linear não é adequada para previsões do mundo real e análises proativas.
Além disso, ao trabalhar com dados modernos caracterizados por uma estrutura muito caótica, esse tipo de regressão é propenso a "atraso": excesso de precisão de regressão linear, quando um modelo funciona muito bem em um conjunto de dados e muito mal em outro, enquanto deve descrever padrões gerais, torna instável em quase todos os casos.

2. Regressão de Ridge

É uma melhoria na regressão linear com maior tolerância a erros, que impõe restrições aos coeficientes de regressão para obter um resultado muito mais realista. Além disso, esse resultado é muito mais fácil de interpretar. O método é usado para combater a redundância de dados quando variáveis ​​independentes se correlacionam (multicolinearidade).
A regressão de Ridge envolve a estimativa de parâmetros usando a seguinte fórmula:

3. Regressão do laço

É semelhante ao cume, exceto que os coeficientes de regressão podem ser zero (alguns dos sinais são excluídos do modelo).

4. Mínimos quadrados parciais (PLS)

É uma regressão útil quando você tem muito poucas observações em comparação com o número de variáveis ​​independentes ou quando suas variáveis ​​independentes são altamente correlacionadas. O PLS diminui as variáveis ​​independentes para um número menor de componentes não correlacionados, semelhante à Análise de Componentes Principais. Em seguida, o procedimento executa regressão linear nesses componentes, em vez dos dados originais. O PLS enfatiza o desenvolvimento de modelos preditivos e não é usado para rastrear variáveis. Ao contrário do OLS, você pode incluir várias variáveis ​​dependentes contínuas. O PLS usa a estrutura de correlação para identificar efeitos menores e modelar padrões multivariados nas variáveis ​​dependentes.

5. Regressão logística

É amplamente utilizado em ensaios clínicos, quantificação e, por exemplo, fraude quando a resposta pode ser obtida em forma binária (sim / não) para uma droga de teste ou transação com cartão de crédito. Ele tem algumas desvantagens inerentes à regressão linear - baixa tolerância a erros, dependência do conjunto de dados, mas, em geral, funciona melhor e pode ser reduzido a um tipo de regressão linear para simplificar os cálculos. Algumas versões - por exemplo, regressão de Poisson - são aprimoradas para uso em caso de necessidade de obter uma resposta não binária - classificação, faixas etárias e até árvores de regressão.

6. Regressão Ecológica

É usado nos casos em que os dados são divididos em camadas ou grupos razoavelmente grandes (a regressão é aplicada a cada um deles separadamente) - por exemplo, esse tipo de regressão é usado na ciência política para avaliar o comportamento de grupo dos eleitores com base em resumo dados. No entanto, deve-se tomar cuidado com a “maldição do big data”: se milhões de regressões forem contadas, alguns dos modelos podem ser completamente imprecisos e os modelos de sucesso serão “esmagados” por modelos ruidosos com um alto (e naturalmente artificial) grau de acordo. Portanto, esse tipo de regressão não é adequado para prever eventos extremos (terremotos) e estudar relações causais (aquecimento global).

7. Regressão linear bayesiana

É semelhante à regressão de crista, mas se baseia na suposição de que todos os erros possíveis terão uma distribuição normal. Portanto, supõe-se que já exista um entendimento geral da estrutura de dados, e isso possibilite a obtenção de um modelo mais preciso (especialmente em comparação com a regressão linear).
No entanto, na prática, se estamos lidando com big data, o conhecimento inicial sobre os dados não pode se vangloriar de precisão, portanto, a suposição é baseada em valores conjugados, ou seja, é artificial em sua essência - e isso é uma desvantagem significativa de esse tipo de regressão.
A variável observada é calculada como:
o erro é distribuído normalmente:

8. Regressão quantílica

É usado em conexão com eventos extremos - esse tipo envolve a introdução deliberada de viés no resultado, aumentando a precisão do modelo.

9. Desvios mínimos absolutos (DAE)

Também conhecido como erro mínimo absoluto (LAE), valor mínimo absoluto (LAV), valor residual absoluto (LAR), soma dos desvios absolutos ou condição da norma L1, é o método do módulo mais pequeno) para estimar valores desconhecidos das medições contendo erros aleatórios, bem como aproximar a representação de uma determinada função mais simples (aproximação). Parece regressão linear, mas usa valores absolutos em vez de quadrados - como resultado, a precisão do modelo aumenta sem complicar os cálculos.

10. Reamostragem do canivete (uma faca dobrável compacta)

É um novo tipo de regressão usado para cluster e redução de dados. Ao mesmo tempo, a faca dobrável não apresenta os inconvenientes dos tipos clássicos, fornecendo uma solução aproximada, mas muito precisa e resistente a erros para problemas de regressão, funciona bem com variáveis ​​"independentes" que correlacionam ou não podem "gabar-se" do normal. distribuição. Esse tipo de regressão é considerado ideal para algoritmos de previsão do tipo caixa preta - aproxima-se perfeitamente da regressão linear sem perda de precisão e funciona mesmo nos casos em que suposições de regressão tradicionais (variáveis ​​não correlacionadas, distribuição normal de dados, variação condicional constante) não podem ser aceito devido à natureza dos dados.
Suponha que a amostra seja a seguinte:
Na teoria estatística probabilística, assumimos que este é um conjunto de variáveis ​​aleatórias independentes distribuídas de forma idêntica. Suponha que estamos interessados ​​nessas estatísticas:
A idéia que John Tukey propôs em 1949 (este é o “método da faca dobrável”) é fazer muito de uma amostra, excluindo uma observação (e retornando as que foram excluídas anteriormente). Listamos as amostras obtidas do original:
Total de n novas amostras (multiplicadas) de tamanho (n-1) cada. Para cada um deles, é possível calcular o valor das estatísticas de interesse para a econometria (com um tamanho de amostra reduzido em 1):
Os valores obtidos das estatísticas permitem julgar sobre sua distribuição e sobre as características da distribuição - sobre expectativa, mediana, quantil, dispersão, desvio quadrado médio.

Conclusão: Que tipo de regressão escolher?

  • No caso de modelos que requerem uma variável dependente contínua:
A regressão linear é a mais comum e mais simples de usar. Se você tem uma variável dependente contínua, a regressão linear é provavelmente o primeiro tipo que você deve considerar. No entanto, você deve prestar atenção a várias fraquezas da regressão linear, como sensibilidade a valores extremos e multicolinearidade. Nesse caso, é melhor usar variantes mais avançadas da regressão linear, como regressão de Ridge, regressão de laço e mínimos quadrados parciais (PLS).
  • No caso de modelos que requerem variáveis ​​dependentes categóricas:
Preste atenção à regressão logística. Este modelo é o mais popular para variáveis ​​dependentes binárias. É altamente recomendável iniciar a partir dessa configuração de modelo antes da realização de modelagem categórica mais sofisticada. Uma variável categórica possui valores que você pode colocar em um número contável de grupos distintos com base em uma característica. A regressão logística transforma a variável dependente e, em seguida, usa a Estimativa de máxima verossimilhança, em vez de mínimos quadrados, para estimar os parâmetros.
  • No caso de modelos que requerem variáveis ​​dependentes de contagem:
Use regressão de Poisson. Os dados de contagem seguem frequentemente a distribuição de Poisson, o que torna a Regressão de Poisson uma boa possibilidade. Com uma variável Poisson, você pode calcular e avaliar uma taxa de ocorrência.
…………………………………

Comentários

Postar um comentário

Postagens mais visitadas deste blog

SQL em escala com o Apache Spark SQL e DataFrames - conceitos, arquitetura e exemplos

Cerimônia Ayahuasca