Avalados por :

Compreensão do Algoritmo de Regressão Linear na Modelagem de Dados: Um Guia Passo a Passo com Exemplos

  • Creado 01/03/2024
  • Modificado 01/03/2024
  • 1 Vistas
0
Cargando...
Este blog explicará o algoritmo de Regressão Linear, uma maneira de alcançar a modelagem de dados (quarto passo no modelo CRISP-DM)

CRISP-DM: O Processo Padrão da Indústria Cruzada para Mineração de Dados fornece uma abordagem estruturada para planejar um projeto de mineração de dados. Este modelo é uma sequência idealizada dos eventos mencionados abaixo:

  1. Compreensão do Negócio

  2. Compreensão dos Dados

  3. Preparação dos Dados

  4. Modelagem de Dados

  5. Avaliação do Modelo

  6. Implantação do Modelo


A Modelagem de Dados usa algoritmos de aprendizado de máquina, nos quais a máquina aprende com os dados. É como os humanos aprendem com sua experiência.

Os modelos de Aprendizado de Máquina são classificados em duas categorias:

  1. Método de aprendizado supervisionado: Este método possui dados históricos com rótulos. Algoritmos de Regressão e Classificação estão sob esta categoria.

  2. Métodos de aprendizado não supervisionado: Nenhum rótulo pré-definido é atribuído aos dados históricos. Algoritmos de Agrupamento estão sob esta categoria.


Por exemplo, prever o desempenho de uma empresa em termos de receita com base em dados históricos é um problema de regressão e classificar se uma pessoa é provável de não pagar um empréstimo é um problema de classificação.

Como a regressão funciona?

Vamos considerar um exemplo, uma empresa poderia prever suas vendas com base no dinheiro que investem em publicidade.

Dados anteriores de gastos com publicidade e vendas reais

Gastos com publicidade (em milhares) Vendas (em lakhs)
20 11
30 23
11 6
14 7
45 44.4


Gostaria de saber se está gastando X quantidade em publicidade, então qual seria sua vendas.

Lembre-se sempre que a expertise de domínio ajuda a encontrar os resultados de previsão corretos. Além disso, a expertise de domínio da equipe de publicidade da empresa pode dar uma ideia aproximada sobre o efeito da mudança nos gastos com publicidade na mudança nas vendas. Mas para descobrir exatamente qual montante de vendas seria gerado e saber se existe ou não uma relação entre os gastos com publicidade e as vendas; você pode usar o algoritmo de regressão para construir um modelo e fazer uma previsão.

Vamos tentar plotar um gráfico de Gastos com Publicidade versus Vendas



Variável Independente: Variável no eixo X que é usada para previsão é variável independente.

Variável Dependente: Variável no eixo Y que queremos prever é uma variável dependente.

Equação de uma linha reta y = mx + c, onde m é a inclinação da linha e c é a interceptação.

Qual é a importância de m e c na equação de uma linha reta?

‘m’ significa a força da relação entre X e Y.

‘c’ no exemplo acima significa a quantidade de Vendas quando nenhum dinheiro é gasto em Publicidade, ou seja, quando X = 0.

Linha de Melhor Ajuste: A linha que melhor se ajusta ao gráfico de dispersão. O que significa melhor ajuste e como determinar se uma linha é de melhor ajuste ou não?

Residual: Residual é usado para encontrar a linha de melhor ajuste. Cada ponto de dados tem um valor residual que é a diferença entre o valor real e o valor previsto (o valor do ponto na linha). Vamos denotar isso por E (erro)

E = Real – Previsto (para cada ponto de dados)

Minimize o quadrado do erro total, ou seja, minimize e1 2 + e2 2 + …… + en 2 .

Isso também é chamado de Soma dos Quadrados dos Resíduos (RSS). Portanto, escolha o valor de m e c de tal forma que reduza o valor de RSS.

Vamos escrever E em termos de m e c.

E = e i = y i (real) – ypred

ei = y i – mx i – c

Em modelos de Aprendizado de Máquina, uma função de custo é definida para um problema e então é minimizada ou maximizada de acordo com a necessidade. No caso da regressão descrita acima, a função de custo é a Soma dos Quadrados dos Resíduos.

Como minimizar uma função de custo?

  • Diferencie a função de custo e a iguale a zero.

  • Descida do Gradiente; comece com algum valor de ‘m’ e ‘c’ e, em seguida, mova iterativamente para valores melhores de ‘m’ e ‘c’ para minimizar a função de custo.
Pedro Pascal
Se unió el 07/03/2018
Pinterest
Telegram
Linkedin
Whatsapp

Sin respuestas

No hay respuestas para mostrar No hay respuestas para mostrar Se el primero en responder

contacto@primeinstitute.com

(+51) 1641 9379
(+57) 1489 6964

© 2024 Copyright. Todos los derechos reservados.

Desarrollado por Prime Institute

¡Hola! Soy Diana, asesora académica de Prime Institute, indícame en que curso estas interesado, saludos!
Hola ¿Puedo ayudarte?