Matriz de confusão em aprendizado de máquina com EXEMPLO

O que é Matriz de confusão?

Uma matriz de confusão é uma técnica de medição de desempenho para classificação de aprendizado de máquina. É uma espécie de tabela que ajuda a conhecer o desempenho do modelo de classificação em um conjunto de dados de teste para que sejam conhecidos os verdadeiros valores. O termo matriz de confusão em si é muito simples, mas sua terminologia relacionada pode ser um pouco confusa. Aqui, algumas explicações simples são fornecidas para esta técnica.

Neste tutorial, você aprenderá,

Quatro resultados da matriz de confusão

A matriz de confusão visualiza a precisão de um classificador comparando as classes reais e previstas. A matriz de confusão binária é composta por quadrados:

Mesa de confusão

  • TP: Verdadeiro positivo: valores previstos corretamente previstos como positivos reais
  • FP: Os valores previstos previram incorretamente um positivo real. ou seja, valores negativos previstos como positivos
  • FN: Falso Negativo: Valores positivos previstos como negativos
  • TN: Verdadeiro negativo: valores previstos corretamente previstos como um negativo real

Você pode calcular o teste de precisão da matriz de confusão:

Exemplo de matriz de confusão:

O Confusion Matrix é um método útil de aprendizado de máquina que permite medir o recall, a precisão, a exatidão e a curva AUC-ROC. Abaixo é fornecido um exemplo para conhecer os termos Verdadeiro positivo, Verdadeiro negativo, Falso negativo e Verdadeiro negativo.

Verdadeiro positivo:

Você projetou algo positivo e acabou sendo verdade. Por exemplo, você previu que a França venceria a copa do mundo e venceu.

Verdadeiro negativo:

Quando você previu negativo, e é verdade. Você previu que a Inglaterra não ganharia e perdeu.

Falso positivo:

Sua previsão é positiva e falsa.

Você previu que a Inglaterra iria ganhar, mas perdeu.

Falso negativo:

Sua previsão é negativa e o resultado também é falso.

Você previu que a França não venceria, mas venceu.

Você deve se lembrar que descrevemos os valores previstos como Verdadeiro ou Falso ou Positivo e Negativo.

Como calcular uma matriz de confusão

Aqui está o processo passo a passo para calcular uma matriz de confusão em mineração de dados

  • Etapa 1) Primeiro, você precisa testar o conjunto de dados com seus valores de resultado esperados.
  • Etapa 2) Prever todas as linhas no conjunto de dados de teste.
  • Etapa 3) Calcule as previsões e resultados esperados:
  1. O total de previsões corretas de cada classe.
  2. O total de previsões incorretas de cada classe.

Depois disso, esses números são organizados nos métodos fornecidos abaixo:

  • Cada linha da matriz está ligada a uma classe prevista.
  • Cada coluna da matriz corresponde a uma aula real.
  • As contagens totais de classificação correta e incorreta são inseridas na tabela.
  • A soma das previsões corretas para uma classe vai para a coluna prevista e linha esperada para esse valor de classe.
  • A soma das previsões incorretas para uma classe vai para a linha esperada para esse valor de classe e a coluna prevista para esse valor de classe específico.

Outros termos importantes usando uma matriz de confusão

  • Valor preditivo positivo (PVV): Isso está muito próximo da precisão. Uma diferença significativa entre os dois termos é que o PVV considera a prevalência. Na situação em que as classes estão perfeitamente balanceadas, o valor preditivo positivo é igual à precisão.
  • Taxa de erro nulo: Este termo é usado para definir quantas vezes sua previsão estaria errada se você pudesse prever a classe majoritária. Você pode considerá-la uma métrica de linha de base para comparar seu classificador.
  • Pontuação F: A pontuação F1 é uma pontuação média ponderada do verdadeiro positivo (recuperação) e da precisão.
  • Curva de Roc: A curva Roc mostra as taxas de verdadeiros positivos contra a taxa de falsos positivos em vários pontos de corte. Também demonstra uma compensação entre sensibilidade (recall e especificidade ou a taxa negativa verdadeira).
  • Precisão: A métrica de precisão mostra a exatidão da classe positiva. Ele mede a probabilidade de a previsão da classe positiva estar correta.

A pontuação máxima é 1 quando o classificador classifica perfeitamente todos os valores positivos. A precisão por si só não é muito útil porque ignora a classe negativa. A métrica geralmente é emparelhada com a métrica Recall. A recuperação também é chamada de sensibilidade ou taxa positiva verdadeira.

  • Sensibilidade : A sensibilidade calcula a proporção de classes positivas detectadas corretamente. Essa métrica mostra o quão bom o modelo é para reconhecer uma classe positiva.

Por que você precisa da matriz de confusão?

Aqui estão os prós / benefícios de usar uma matriz de confusão.

  • Mostra como qualquer modelo de classificação fica confuso ao fazer previsões.
  • A matriz de confusão não apenas fornece uma visão dos erros cometidos por seu classificador, mas também os tipos de erros que estão sendo cometidos.
  • Essa divisão ajuda a superar a limitação de usar apenas a precisão da classificação.
  • Cada coluna da matriz de confusão representa as instâncias dessa classe prevista.
  • Cada linha da matriz de confusão representa as instâncias da classe real.
  • Ele fornece uma visão não apenas dos erros cometidos por um classificador, mas também dos erros que estão sendo cometidos.