Auteur: Dong Wenhui
longueur présente 4500 mots lecture recommandée 10+ minutes
Cet article résume la fonction de perte commune et l'évaluation pour vous.
Remarque: Dans ce démarquage papier à écrire, l'effet d'affichage ouvert peut être obtenu avec une meilleure démarquage ~
## 1. La fonction de perte:
### 1.1 Régression:
#### 1. La fonction de coût quadratique (méthode des moindres carrés):
$$ L (Y, f (x)) = \ sum_ {i = 1} ^ n (Y-f (X)) ^ 2 $$
La régression utilisée par la fonction de perte, la régression linéaire, peut être obtenue par l'estimation du maximum de vraisemblance (MLE). Calculer une distance entre la valeur prédite et la valeur réelle de la place. Il est plus courant le réel ** erreur quadratique moyenne (MSE) **:
$$ L (Y, f (x)) = \ frac {1} {m} \ sum_ {i = 1} ^ n (Y-f (X)) ^ 2 $$
#### 2 erreur absolue moyenne (L1) - MAE:
$$ L (Y, f (x)) = \ sum_ {i = 1} ^ n | Y-f (x) | $$
** MAE est la différence entre la valeur cible et la valeur prédite La somme des valeurs absolues ** il peut être utilisé pour mesurer la distance par rapport à la valeur prédite et la valeur réelle. ** Mais il ne peut être donné, les valeurs prédites du modèle est petite ou grande que la valeur réelle. **
#### 3 MAE (L1) VS MSE (L2):
* ** Calcul de la MSE est simple, mais il y a plus robuste aux valeurs aberrantes MAE: **
Quand il y a une anomalie dans le point de données, en utilisant le modèle de calcul de la perte sera au détriment des erreurs de RMSE au détriment des autres échantillons, la direction de réduction de l'erreur de mise à jour des valeurs aberrantes. Cependant, cela réduira la performance globale du modèle.
> Peut-être compris intuitivement: Si nous réduisons l'erreur quadratique moyenne est donnée uniquement à une valeur prédite pour tous les points d'échantillonnage, cette valeur doit être la moyenne de toute la valeur cible. Mais si elle est réduite MAE, cette valeur sera la médiane de l'échantillon cible de tous les points. Il est bien connu pour les valeurs aberrantes, la médiane est plus robuste que la moyenne, donc aux valeurs aberrantes est MAE plus stable que le MSE.
* ** NN en gradient de mise à jour est toujours le MAE même, alors que le MSE est différent **:
Avec un gradient de MSE augmente la perte de la perte, alors qu'il réduira la perte tend à zéro.
* ** perte recommandations sélectionnez: **
* ** MSE: ** Si le point anormal représente une exception très importante dans les affaires et les besoins à détecter.
* ** MAE: ** Si seulement les valeurs aberrantes que des données corrompues.
4. Perte Huber ####:
$$
L _ {\ delta} (y, f (x)) = \ left \ {\ begin {array} {ll} {\ frac {1} {2} (YF (x)) ^ {2}} et {\ text {for} | YF (x) | \ leq \ delta} \ {\ delta | YF (x) | - \ frac {1} {2} \ delta ^ {2}} et {\ texte {sinon}} \ end {array} \ right.
$$
perte de Huber est une erreur absolue, mais l'erreur est faible, il devient une erreur quadratique. Lorsque la perte Huber $ Est entre $, ce qui équivaut à l'erreur quadratique moyenne, tandis que $ $ Et $ Lorsque le $ est MAE.
### 1.2 Classification:
1. LogLoss ####:
$$
J (\ theta) = - \ frac {1} {m} \ sum_ {i = 1} ^ {m} \ left
$$
** dichotomique ** fonction de perte de tâche couramment utilisée dans le LR, obtenu par la fonction log-vraisemblance prend. Autrement dit, ** entropie croisée ** Fonction de perte.
2. Indice fonction de #### perte:
$$ L (y, f (x)) = \ frac {1} {m} \ sum_ {i = 1} ^ n {exp } $$
fonction de perte utilisée dans AdaBoost dans.
## 2. Évaluation:
Comment évaluer le modèle d'algorithme d'apprentissage de la machine est tout projet une partie très importante. Classification choisissent généralement la précision (Précision) ou de l'ASC en tant que mesure, les problèmes de régression en utilisant MSE, mais ces indicateurs ne suffit pas de juger de la qualité d'un modèle, ce qui suit, je vais inclure l'évaluation individuelle possible. La plupart des fonctions ci-dessus de la perte peut être directement utilisé comme un indice d'évaluation était apparu brièvement ci-dessus.
### 2.1 régression:
. ** 1 MAE:
** L'erreur absolue moyenne (moyenne d'erreur absolue), la plage $