Amélioration de la performance des réseaux de neurones

Lei Note du réseau Feng: Cet article est une compilation du blog de la technologie de groupe de Lei Feng, le titre original Améliorer la performance d'un réseau de neurones, auteur Rohith Gandhi.

Traduction | Jia Yi Ping Zhao Xingyu si la finition | Jiang Fan

Un réseau de neurones est un algorithme d'apprentissage automatique, la précision de l'État de fournir un grand nombre des exemples. Cependant, de nombreuses fois, la précision de notre réseau construit peut ne pas être satisfaisant ou non peuvent nous conduire dans le haut du classement de la compétition des données scientifiques. Nous sommes donc toujours à la recherche de meilleures façons d'améliorer la performance du modèle. Il existe de nombreuses techniques qui peuvent nous aider à atteindre cet objectif. Suivez ces technologies pour les comprendre, et d'établir leur réseau de neurones exact.

raccord vérifié

Assurez-vous que le réseau de neurones pour fonctionner correctement sur les données de test première étape consiste à vérifier le réseau de neurones est pas trop bonne forme. Bon, arrêt, ce qui est surajustement? valeur surapprentissage se produit au début du modèle de données de formation de mémoire plutôt que d'apprendre d'eux. Par conséquent, lorsqu'une rencontre de modèle de données jamais vu avant, il peut ne pas fonctionner correctement. Pour vous donner une meilleure compréhension, penchons-nous sur une analogie: nous aurons une bonne récitation des étudiants, et d'assumer sur le point d'avoir un test de mathématiques. Les bons souvenirs pour vous et vos amis commencent à apprendre d'un manuel. Vos amis se souviendront toutes les formules manuels, questions et réponses, mais d'autre part, vous êtes plus intelligent que lui, alors vous décidez basée sur l'intuition pour résoudre les problèmes, et de comprendre comment ces formules jouent un rôle. Jour de l'examen à. Si les documents de la question directement à partir du manuel, alors vous pouvez vous attendre à vos amis de faire mieux la mémoire forte, mais si la question porte sur les nouveaux aspects du problème de l'intuition, alors vous faire mieux aux examens, forte mémoire amis échouent lamentablement.

Comment déterminer si le modèle surajustement? Vous pouvez recouper l'exactitude de la précision du test et de la formation. Si la précision de la formation est beaucoup plus élevé que la précision du test, vous pouvez supposer que le modèle a été équipé. Vous pouvez également dessiner point de prévision sur la carte pour vérifier. Il y a quelques trucs pour éviter surajustement:

  • Les données de régularisation (L1 ou L2)

  • Abandons - connexions interrompues au hasard entre les neurones, ce qui oblige le réseau à trouver un nouveau chemin et conclut

  • Arrêt précoce - réduire la formation du réseau de neurones, ce qui réduit les erreurs dans le jeu de test.

ajustement de paramètre Ultra

Super paramètres doivent être initialisées à la valeur du réseau, ces valeurs ne peuvent pas être apprises par le réseau au cours de la formation. Par exemple, dans les réseaux de neurones convolutionnels, un paramètre ultra est la taille du noyau, les couches du réseau de neurones, la fonction d'activation, fonction de perte, optimisé pour une utilisation (descente de gradient, RMSprop), la taille du lot, le nombre de fois de la formation et ainsi de suite.

Chacun aura son réseau de neurones pour optimiser l'ensemble hyper, ce jeux de paramètres auront la plus grande précision. Vous pourriez demander, « il y a tellement de hyper-paramètres d'un réseau de neurones Comment puis-je choisir de l'utiliser? » Malheureusement, il n'y a pas de façon claire pour spécifier un ensemble optimal de paramètres pour chaque super-réseau de neurones, de sorte que le jeu optimal de paramètres est habituellement obtenue par essais et erreurs (essai et erreur). Ensuite, nous citerons une convention générale sur les paramètres super:

  • le taux d'apprentissage (Learning Rate) - sélectionner un taux d'apprentissage optimal est très important, car il détermine si votre réseau converge au minimum global. Choisissez un taux d'apprentissage élevé est d'obtenir presque pas le minimum global, parce que vous avez une grande probabilité directement au-dessus du minimum. Par conséquent, il a été en vol stationnaire à proximité du minimum global mais jamais convergent sur ce point. Sélectionnez un faible taux d'apprentissage peut aider un réseau de neurones converge au minimum global, mais il en coûterait beaucoup de temps. Par conséquent, nous devons utiliser beaucoup de temps pour former le réseau. Un taux d'apprentissage petits peuvent tomber dans le réseau d'optimum local. En d'autres termes, en raison du faible taux d'apprentissage, le réseau convergent vers un minimum local et ne peut sauter. Par conséquent, lors du réglage du taux d'apprentissage, vous devez être prudent.

  • Architecture de réseau (Network Architecture) - Maintenant n'est pas une architecture standard generera à un degré élevé de précision dans tous les cas de test. Vous avez besoin d'expérimenter, essayer différentes architectures, obtenir des conclusions à partir des résultats et essayer à nouveau. Une méthode que je recommande est: utiliser une architecture éprouvée pour remplacer votre propre création. Par exemple: pour les tâches de reconnaissance d'image, vous avez réseau VGG, Resnet (réseau résiduel), Google (Google) des réseaux Inception. Ceux-ci sont open source, et a été démontré un haut degré de précision, de sorte que vous pouvez réutiliser leur architecture pour affiner les selon vos besoins.

  • méthodes d'optimisation et la perte de fonction (optimiseurs et la fonction de perte) - Pour une manière optimisée et la perte de fonction, nous avons beaucoup d'options à choisir. En fait, le cas échéant, vous pouvez même personnaliser la fonction de perte. Mais la méthode la plus commune est l'algorithme d'optimisation RMSprop, descente de gradient stochastique (Stochastic gradient descente) algorithme Algorithme et Adam. Ces méthodes d'optimisation peuvent être appliquées à la plupart des situations. Pour la fonction générale de la perte, si elle est utilisée dans la tâche de classification, vous pouvez utiliser la classification de l'entropie croisée (croix entropie catégorique). Si la tâche est dans la régression, la fonction de perte est couramment utilisée dans l'erreur quadratique moyenne (MSE). Multi-paramètres pour déboguer ces méthodes ultra-optimisation, mais aussi essayer une combinaison de différentes méthodes d'optimisation et la perte de fonction.

  • Le nombre de la taille des lots (lots de taille) et l'intégrité des données de formation (Nombre de Époques) - Encore une fois, la taille des lots et des temps de formation ne sont pas efficaces pour tous les cas de valeurs communes. Vous avez besoin d'expérimenter et d'essayer différentes valeurs. Dans des circonstances normales, la valeur de la taille des lots sont mis à 8,16,32. temps de formation pour laquelle des données complètes sont déterminées par les préférences du développeur et la puissance de calcul lui-même.

fonction d'activation RELU

  • Fonction d'activation (activation de la fonction) - peut être ajoutée à la fonction de mappage non-linéaire par l'activation de la sortie. la fonction d'activation est très important de choisir une fonction d'activation appropriée peut vous aider à mieux modèle d'apprentissage. Maintenant, la fonction d'activation Relu est le plus largement utilisé, car il résout le problème de la disparition du gradient. Les premières années, la fonction sigmoïde et Tanh est la plus fonction d'activation commune. Cependant, ils sont dégradés problématiques disparaît. Autrement dit, dans le procédé de rétropropagation, lorsqu'il est multiplié à la couche initiale, un gradient disparaît en valeur. Cela empêche réseau de neurones est étendu à un plus grand plusieurs couches d'Etat. Relu surmonter efficacement ce problème et donc le réseau de neurones peut avoir une plus grande échelle.

algorithmes intégrés

Si la précision d'un seul réseau de neurones est pas ce que vous voulez, vous pouvez également créer et intégrer un réseau de neurones pour prédire leur performance ensemble. Vous pouvez sélectionner des architectures de réseaux de neurones, différentes parties des données pour les former, après quoi ils « assemblés » ainsi que la performance prédite de son acquisition en commun avec une grande précision sur l'ensemble de test. Supposons que vous construisez un chats et les chiens, les chats classificateur 0 pour 1 pour les chiens. Lorsque les chats différents classificateurs combinent algorithme d'intégration de précision conformément à la corrélation de Pearson, il sera le classificateur unique respectif (corrélation de Pearson) ascenseur. look Let un exemple, le test trois modèles et d'évaluer leur exactitude.

Pearson corrélation est élevée entre les trois modèles. , Ils ne sont donc pas intégrés pour améliorer la précision. Si nous intégrons ces trois modèles par vote à la majorité, nous obtenons les résultats suivants.

Maintenant, regardons les trois autres modèles, qui permettent de prévoir la corrélation de Pearson entre les résultats est très faible.

Lorsque nous avons des résultats combinés de ces trois « Les élèves du secondaire sont les suivants.

Vous pouvez voir les trois mêmes « moyenne - » l'intégration, la performance du parti de corrélation de Pearson à être plus bas que le côté élevé.

Le manque de données

Après avoir utilisé toutes les techniques décrites ci-dessus, si votre modèle n'a toujours pas de meilleurs résultats sur votre jeu de test, il peut être attribué à un manque de données de formation. Lorsque le nombre de données de formation disponibles est limité, il y a beaucoup de cas d'utilisation. Si vous ne pouvez pas recueillir plus de données, vous pouvez avoir recours à des données améliorées (augmentation des données) technologie.

La technologie d'amélioration des données

Si vous étudiez les ensembles de données d'image, vous pouvez couper à travers les images, en feuilletant, le recadrage et si aléatoire pour ajouter de nouvelles images pour l'ensemble de la formation. Cela peut fournir différents exemples de formation du réseau de neurones.

conclusion

Ces technologies sont considérées comme les meilleures pratiques, et ont tendance à regarder très efficace sur les caractéristiques du modèle pour améliorer les performances d'apprentissage. Cet article peut sembler long, je vous remercie d'avoir lu tout au long, si l'une de ces techniques pour vous aider, je suis très heureux de partager avec vous.

Blog site: https: //towardsdatascience.com/how-to-increase-the-accuracy-of-a-neural-network-9f5d1c6f407d

Ajouter des légendes Lei signaux micro-groupe Feng (leiphonefansub) comme ami

Remarques « Je veux rejoindre », Pour une IA bénévole! Lei Feng réseau (numéro public: Lei Feng réseau) Lei Feng réseau

Lei Feng Lei Feng net net

10 Go de mémoire pour exécuter le ministère des téléphones de l'industrie à venir, mais il ne peut pas être le OPPO de départ!
Précédent
Octobre Lenovo à la force, non seulement l'écran coulissant phare, ainsi que téléphone mobile flexible!
Prochain
Surface Go-- Panos Panay, directeur de produit de Microsoft d'un pari
Qui a insisté podium pour devenir un vrai grand?
« Les gens soutiennent leurs familles, » la famille bimoteur affiche ultime et la remorque est le plus des armes tranchantes
Rui Bao Wei Lang Mai comment l'élection? « Sélectionner voiture nuit à neuf » examen
E-reader peut aussi être « trois »! Dangdang publier lecteur Light version HD
Mercedes-Benz quatre portes GT63S AMG est maintenant la première montagne, 900 Nm bête avec voix vous serez en mesure de conquérir
état Sony XZ3 version en ligne bientôt publié, le prix devrait encore maintenir plus de 5000!
informatique Edge: la plus grande transformation numérique « mot à la mode » a fait son côté sombre
Logo classique avec la liberté! Ronnie Fieg a New Balance tripartite Zaibao commune nouvelle couleur
« Excès de vitesse vie » étude a rapporté classes Shen Teng « 2019 argent secret » pour devenir riche, et finit par être une mauvaise fosse
L'or bleu avec un passionné très: Nubian Z17mini Aurora visites Blueprint
sociétés cotées chinoises la meilleure liste de PDG: Ma première, deuxième, non! Ma