Aprendizado de máquina supervisionado: o que é, algoritmos com exemplos

O que é aprendizado de máquina supervisionado?

Aprendizado de máquina supervisionado é um algoritmo que aprende com dados de treinamento rotulados para ajudá-lo a prever resultados para dados imprevistos. No aprendizado supervisionado, você treina a máquina usando dados que estão bem 'rotulados'. Isso significa que alguns dados já estão marcados com respostas corretas. Pode ser comparado a aprender na presença de um supervisor ou professor.

Construir, dimensionar e implantar com sucesso preciso modelos de aprendizado de máquina supervisionados consomem tempo e conhecimento técnico de uma equipe de cientistas de dados altamente qualificados. Além disso, Dados o cientista deve reconstruir modelos para garantir que os insights fornecidos permaneçam verdadeiros até que seus dados sejam alterados.

Neste tutorial, você aprenderá:

Como funciona a aprendizagem supervisionada

O aprendizado de máquina supervisionado usa conjuntos de dados de treinamento para alcançar os resultados desejados. Esses conjuntos de dados contêm entradas e a saída correta que ajuda o modelo a aprender mais rápido. Por exemplo, você deseja treinar uma máquina para ajudá-lo a prever quanto tempo levará para voltar do local de trabalho para casa.

Aqui, você começa criando um conjunto de dados rotulados. Esses dados incluem:

  • Condições do tempo
  • Hora do dia
  • Feriados

Todos esses detalhes são suas entradas neste exemplo de aprendizado supervisionado. A saída é a quantidade de tempo que levou para dirigir de volta para casa naquele dia específico.

Você sabe instintivamente que, se estiver chovendo lá fora, demorará mais para dirigir para casa. Mas a máquina precisa de dados e estatísticas.

Vamos ver alguns exemplos de aprendizagem supervisionada sobre como você pode desenvolver um modelo de aprendizagem supervisionada deste exemplo que ajuda o usuário a determinar o tempo de deslocamento. A primeira coisa que você precisa para criar é um conjunto de treinamento. Este conjunto de treinamento conterá o tempo total de deslocamento e fatores correspondentes, como clima, tempo, etc. Com base neste conjunto de treinamento, sua máquina pode ver que há uma relação direta entre a quantidade de chuva e o tempo que você levará para chegar em casa.

Assim, ele verifica que quanto mais chover, mais tempo você estará dirigindo para voltar para sua casa. Ele também pode ver a conexão entre o tempo em que você sai do trabalho e o tempo em que estará na estrada.

Quanto mais perto você estiver das 18h00 mais tempo você leva para chegar em casa. Sua máquina pode encontrar algumas das relações com seus dados rotulados.

Trabalho de Aprendizado de Máquina Supervisionado

Este é o início do seu modelo de dados. Começa a impactar como a chuva afeta a maneira como as pessoas dirigem. Ele também começa a perceber que mais pessoas viajam durante um determinado período do dia.

Tipos de algoritmos de aprendizado de máquina supervisionados

A seguir estão os tipos de algoritmos de aprendizado de máquina supervisionado:

Regressão:

A técnica de regressão prevê um único valor de saída usando dados de treinamento.

Exemplo : Você pode usar a regressão para prever o preço da casa a partir dos dados de treinamento. As variáveis ​​de entrada serão localidade, tamanho de uma casa, etc.

Forças : As saídas sempre têm uma interpretação probabilística e o algoritmo pode ser regularizado para evitar sobreajuste.

Fraquezas : A regressão logística pode ter um desempenho inferior quando há limites de decisão múltiplos ou não lineares. Este método não é flexível, portanto, não captura relacionamentos mais complexos.

Regressão Logística:

Método de regressão logística usado para estimar valores discretos com base em um determinado conjunto de variáveis ​​independentes. Ajuda a prever a probabilidade de ocorrência de um evento ajustando os dados a uma função logit. Portanto, também é conhecido como regressão logística. Como ele prevê a probabilidade, seu valor de saída fica entre 0 e 1.

Aqui estão alguns tipos de algoritmos de regressão

Classificação:

Classificação significa agrupar a saída dentro de uma classe. Se o algoritmo tenta rotular a entrada em duas classes distintas, isso é chamado de classificação binária. A seleção entre mais de duas classes é chamada de classificação multiclasse.

Exemplo : Determinar se alguém será ou não inadimplente do empréstimo.

Forças : A árvore de classificação funciona muito bem na prática

Fraquezas : As árvores individuais sem restrições estão sujeitas a sobreajuste.

Aqui estão alguns tipos de algoritmos de classificação

Classificadores Naïve Bayes

O modelo Naïve Bayesian (NBN) é fácil de construir e muito útil para grandes conjuntos de dados. Este método é composto de gráficos acíclicos diretos com um dos pais e vários filhos. Ele assume independência entre os nós filhos separados de seus pais.

Árvores de decisão

As árvores de decisão classificam a instância classificando-as com base no valor do recurso. Nesse método, cada modo é o recurso de uma instância. Deve ser classificado, e cada ramo representa um valor que o nó pode assumir. É uma técnica amplamente utilizada para classificação. Nesse método, a classificação é uma árvore conhecida como árvore de decisão.

Ajuda a estimar valores reais (custo de aquisição de um carro, número de chamadas, vendas mensais totais, etc.).

Máquina de vetores de suporte

Máquina de vetores de suporte (SVM) é um tipo de algoritmo de aprendizagem desenvolvido em 1990. Este método é baseado em resultados da teoria de aprendizagem estatística introduzida por Vap Nik.

As máquinas SVM também estão intimamente conectadas às funções do kernel, que é um conceito central para a maioria das tarefas de aprendizagem. A estrutura do kernel e o SVM são usados ​​em uma variedade de campos. Inclui recuperação de informações multimídia, bioinformática e reconhecimento de padrões.

Técnicas de aprendizado de máquina supervisionadas x não supervisionadas

Baseado em Técnica de aprendizado de máquina supervisionado Técnica de aprendizado de máquina não supervisionado
Dados de entradaOs algoritmos são treinados usando dados rotulados.Algoritmos são usados ​​contra dados que não são rotulados
Complexidade computacionalA aprendizagem supervisionada é um método mais simples.A aprendizagem não supervisionada é computacionalmente complexa
PrecisãoMétodo altamente preciso e confiável.Método menos preciso e confiável.

Desafios no aprendizado de máquina supervisionado

Aqui estão os desafios enfrentados no aprendizado de máquina supervisionado:

  • Dados de treinamento presentes de recurso de entrada irrelevante podem fornecer resultados imprecisos
  • A preparação e o pré-processamento de dados são sempre um desafio.
  • A precisão é prejudicada quando valores impossíveis, improváveis ​​e incompletos são inseridos como dados de treinamento
  • Se o especialista em questão não estiver disponível, a outra abordagem é 'força bruta'. Isso significa que você precisa pensar nos recursos certos (variáveis ​​de entrada) para treinar a máquina. Pode ser impreciso.

Vantagens da aprendizagem supervisionada

Aqui estão as vantagens do aprendizado de máquina supervisionado:

  • O aprendizado supervisionado no aprendizado de máquina permite que você colete dados ou produza uma saída de dados da experiência anterior
  • Ajuda a otimizar os critérios de desempenho usando a experiência
  • O aprendizado de máquina supervisionado ajuda a resolver vários tipos de problemas de computação do mundo real.

Desvantagens da aprendizagem supervisionada

Abaixo estão as desvantagens do aprendizado de máquina supervisionado:

  • O limite de decisão pode estar sobrecarregado se seu conjunto de treinamento não tiver exemplos que você deseja ter em uma aula
  • Você precisa selecionar muitos bons exemplos de cada classe enquanto treina o classificador.
  • Classificando big data pode ser um verdadeiro desafio.
  • O treinamento para aprendizagem supervisionada requer muito tempo de computação.

Melhores práticas para aprendizagem supervisionada

  • Antes de fazer qualquer outra coisa, você precisa decidir que tipo de dados será usado como um conjunto de treinamento
  • Você precisa decidir a estrutura da função aprendida e do algoritmo de aprendizagem.
  • Obtenha resultados correspondentes de especialistas humanos ou de medições

Resumo

  • Em algoritmos de aprendizagem supervisionada, você treina a máquina usando dados que estão bem 'rotulados'.
  • Você quer treinar uma máquina que o ajude a prever quanto tempo levará para voltar do local de trabalho para casa é um exemplo de aprendizagem supervisionada.
  • A regressão e a classificação são duas dimensões de um algoritmo de aprendizado de máquina supervisionado.
  • O aprendizado supervisionado é um método mais simples, enquanto o aprendizado não supervisionado é um método complexo.
  • O maior desafio no aprendizado supervisionado é que os dados de treinamento do presente recurso de entrada irrelevante podem fornecer resultados imprecisos.
  • A principal vantagem do aprendizado supervisionado é que ele permite que você colete dados ou produza uma saída de dados da experiência anterior.
  • A desvantagem desse modelo é que o limite de decisão pode ser sobrecarregado se seu conjunto de treinamento não tiver exemplos que você deseja ter em uma aula.
  • Como prática recomendada para supervisionar o aprendizado, primeiro você precisa decidir que tipo de dados deve ser usado como um conjunto de treinamento.