Este blog explicará o algoritmo de Regressão Linear, uma maneira de alcançar a modelagem de dados (quarto passo no modelo CRISP-DM)
CRISP-DM:
O Processo Padrão da Indústria Cruzada para Mineração de Dados fornece uma abordagem estruturada para planejar um projeto de mineração de dados. Este modelo é uma sequência idealizada dos eventos mencionados abaixo:
-
Compreensão do Negócio
-
Compreensão dos Dados
-
Preparação dos Dados
-
Modelagem de Dados
-
Avaliação do Modelo
-
Implantação do Modelo
A Modelagem de Dados usa algoritmos de aprendizado de máquina, nos quais a máquina aprende com os dados. É como os humanos aprendem com sua experiência.
Os modelos de Aprendizado de Máquina são classificados em duas categorias:
-
Método de aprendizado supervisionado: Este método possui dados históricos com rótulos. Algoritmos de Regressão e Classificação estão sob esta categoria.
-
Métodos de aprendizado não supervisionado: Nenhum rótulo pré-definido é atribuído aos dados históricos. Algoritmos de Agrupamento estão sob esta categoria.
Por exemplo, prever o desempenho de uma empresa em termos de receita com base em dados históricos é um problema de regressão e classificar se uma pessoa é provável de não pagar um empréstimo é um problema de classificação.
Como a regressão funciona?
Vamos considerar um exemplo, uma empresa poderia prever suas vendas com base no dinheiro que investem em publicidade.
Dados anteriores de gastos com publicidade e vendas reais
Gastos com publicidade (em milhares)
|
Vendas (em lakhs)
|
20
|
11
|
30
|
23
|
11
|
6
|
14
|
7
|
45
|
44.4
|
Gostaria de saber se está gastando X quantidade em publicidade, então qual seria sua vendas.
Lembre-se sempre que a expertise de domínio ajuda a encontrar os resultados de previsão corretos. Além disso, a expertise de domínio da equipe de publicidade da empresa pode dar uma ideia aproximada sobre o efeito da mudança nos gastos com publicidade na mudança nas vendas. Mas para descobrir exatamente qual montante de vendas seria gerado e saber se existe ou não uma relação entre os gastos com publicidade e as vendas; você pode usar o algoritmo de regressão para construir um modelo e fazer uma previsão.
Vamos tentar plotar um gráfico de Gastos com Publicidade versus Vendas
Variável Independente:
Variável no eixo X que é usada para previsão é variável independente.
Variável Dependente:
Variável no eixo Y que queremos prever é uma variável dependente.
Equação de uma linha reta y = mx + c, onde m é a inclinação da linha e c é a interceptação.
Qual é a importância de m e c na equação de uma linha reta?
m significa a força da relação entre X e Y.
c no exemplo acima significa a quantidade de Vendas quando nenhum dinheiro é gasto em Publicidade, ou seja, quando X = 0.
Linha de Melhor Ajuste:
A linha que melhor se ajusta ao gráfico de dispersão. O que significa melhor ajuste e como determinar se uma linha é de melhor ajuste ou não?
Residual:
Residual é usado para encontrar a linha de melhor ajuste. Cada ponto de dados tem um valor residual que é a diferença entre o valor real e o valor previsto (o valor do ponto na linha). Vamos denotar isso por E (erro)
E = Real Previsto (para cada ponto de dados)
Minimize o quadrado do erro total, ou seja, minimize e1
2
+ e2
2
+
+ en
2
.
Isso também é chamado de Soma dos Quadrados dos Resíduos (RSS). Portanto, escolha o valor de m e c de tal forma que reduza o valor de RSS.
Vamos escrever E em termos de m e c.
E = e
i
= y
i
(real) ypred
ei = y
i
mx
i
c
Em modelos de Aprendizado de Máquina, uma função de custo é definida para um problema e então é minimizada ou maximizada de acordo com a necessidade. No caso da regressão descrita acima, a função de custo é a Soma dos Quadrados dos Resíduos.
Como minimizar uma função de custo?
-
Diferencie a função de custo e a iguale a zero.
-
Descida do Gradiente; comece com algum valor de m e c e, em seguida, mova iterativamente para valores melhores de m e c para minimizar a função de custo.