« Percée » la consommation de calcul d'apprentissage profond de 95%, la recherche de hachage KDD2017 pour accélérer l'évolution des réseaux de neurones

Ji-won nouveau rapport

Rice University (Université Rice) de informaticien américain de trouver rapidement les données en utilisant largement les technologies utilisées pour réduire considérablement la quantité de calcul nécessaire à l'apprentissage en profondeur, ce qui permet d'économiser du temps et de l'énergie.

informaticiens Rice University ont adopté l'utilisation généralisée de la technologie de données rapide pour réduire la quantité de calcul, ce qui réduit le temps et l'énergie nécessaire à l'apprentissage en profondeur, ce qui est une forme puissante d'apprentissage machine informatique.

« Il peut être appliqué à toute architecture d'étude approfondie et ses compétences sont sous-linéaire évolutivité, qui est, plus l'utilisation des réseaux de neurones, sera plus de ressources informatiques d'économie d'énergie, » Rice University Computer Science professeur adjoint, premier auteur de l'étude Anshumali Shrivastava dit.

Étude paraîtra à la réunion KDD 2017, la réunion aura lieu en Août à Halifax la Nouvelle-Écosse. Cette étude vise à répondre à la Google, Facebook et Microsoft, ces brouillage de vouloir construire l'un des plus pressants besoins de la formation et le déploiement du réseau de neurones à grande échelle de profondeur de géants de la technologie. Ils espèrent utiliser la profondeur de l'apprentissage pour répondre à la demande croissante de produits, tels que des véhicules autonomes, la traduction et e-mail de réponse intelligente.

Shrivastava et Rice University étudiant diplômé Ryan printemps prouvé que la technologie « hachage » (Hashage) est une véritable méthode d'indexation des données peut réduire considérablement le coût de calcul de l'apprentissage en profondeur. « Hash » implique l'utilisation de la fonction de hachage intelligent pour convertir les données en décimales gérables, appelé un hachage. Hash est stocké dans une table qui fonctionne comme juste un index d'un livre papier.

« Notre approche est un hybride de deux technologies: une variable intelligente localité sensible et hash un clairsemés afin que nous puissions inverser la propagation de grandes quantités sans réduire la précision, ce qui réduit la consommation de calculs nécessaires .Spring dit. » par exemple, dans des essais à petite échelle, nous avons constaté que dans les méthodes standard, peut être contrôlée à 1% de la perte de précision, calculer la consommation d'énergie sera réduite de 95%. "

Apprentissage en profondeur des blocs de construction de base d'un réseau de neurones artificiels. Bien que les années 1950, des neurones biologiques ont d'abord été découvert, cependant, neurone artificiel est seulement fonctions et équations mathématiques, en fonction de la grande quantité de données peuvent être transformées en sortie.

Dans l'apprentissage de la machine, tous les neurones sont feuille de papier propre « vide » état commence à devenir une technologie spécifique (spécialisée) dans le processus de formation. Au cours de la formation, le réseau est « donné » beaucoup de données, chaque donnée d'identification des neurones sont devenus un expert dans un modèle spécifique. Au plus bas niveau, les neurones exécutent des tâches les plus simples. Par exemple, dans les applications photo-identification, les bords inférieurs des neurones peuvent reconnaître des objets claires ou foncées. La sortie du neurone est transmis aux neurones dans la couche réseau, ces neurones fouillaient sa façon unique, ils ont reconnu les caractéristiques.

Seules plusieurs couches du réseau de neurones peuvent apprendre à reconnaître des visages humains, toutes sortes de chiens, des panneaux d'arrêt et autobus scolaire.

Shrivastava a dit: « l'ajout de neurones à chaque réseau peut améliorer son expression (puissance expressive), et combien nous voulons que ce réseau n'a pas de limite supérieure. »

Selon les rapports, Google tente de former un a 137 milliards de neurones du réseau. En revanche, la formation et le déploiement de ces réseaux ont besoin de puissance de calcul est limitée.

Shrivastava a dit que la plupart des algorithmes d'apprentissage machine sont actuellement utilisés il y a 30-50 ans, développé dans la conception ne tient pas compte de la complexité des calculs. Cependant, l'arrivée des grandes données pour la période de calcul, les ressources énergétiques et de la mémoire pour, il y a une limite fondamentale, et « notre laboratoire axé sur faire face à ces limites. »

Ledit ressort que, dans la profondeur des réseaux à grande échelle, le calcul et l'efficacité énergétique apportera plus de hachage.

Spring a dit que parce qu'ils utilisent de grandes données sparsity inhérente, de sorte que les économies d'énergie augmenteront à mesure que la taille du réseau augmente. « Supposons un réseau profond a un milliard de neurones, pour une entrée donnée - est activée seulement quelques neurones - comme une image d'un chien.

En termes de données scientifiques, que l'on appelle la parcimonie (parcimonie), mais précisément à cause de la rareté des économies d'énergie sera leur approche avec l'expansion de la taille du réseau augmente.

« Ainsi, les réseaux de neurones 1000, nous pouvons économiser 95%, basé sur la déduction mathématique, un milliard de neurones dans le réseau, nous pouvons économiser 99%. »

Original: https: //phys.org/news/2017-06-scientists-slash-deep.html#jCp

Ryan printemps (à gauche) et Anshumali Shrivastava.

hachage aléatoire évolutive, l'apprentissage en profondeur durable

Le document « est atteint par évolutive de hachage aléatoire, l'apprentissage en profondeur durable » (évolutive et durable apprentissage en profondeur par répartition aléatoire Hashage), KDD 2017 a été reçue par voie orale.

Bien que cela peut être la version révisée par des pairs du document est de présenter à l'KDD tenu par des informations en ligne, nous pouvons voir la prépublication du papier (adresse arXiv à la fin du téléchargement Spring: https: //arxiv.org/pdf/1602.08194. pdf).

Ce qui suit est un résumé du document.

Afin de se concentrer sur l'apprentissage des données complexes du cadre de l'apprentissage de la profondeur actuelle est de plus en plus. Ces cadres doivent être une énorme multiplication de matrice pour former des millions de paramètres. En revanche, une autre a montré une tendance à la hausse est l'étude de la profondeur dans les systèmes embarqués de faible puissance. calcul de la matrice de corrélation afin de former et de tester le réseau et pour la profondeur et l'angle est calculée à partir de la consommation d'énergie est aspect très coûteux. Nous présentons une nouvelle technique basée sur Hashage, réduit considérablement la quantité de calcul nécessaire formation et tester le réseau de neurones. Notre approche combine les deux notion récemment proposé, à savoir l'abandon d'adaptation et de recherche interne maximale (MIPS) Aléatoire Hashage, noeud de choix efficace dans le réseau avec le plus actif.

Cette nouvelle profondeur dans l'algorithme d'apprentissage (le nombre de sensiblement moins) noeuds creuses en cours d'exécution, avant la réduction du coût total du calcul de l'étape de propagation et après. Par conséquent, notre algorithme, tout en maintenant une moyenne de 1% de la précision du modèle d'origine, en utilisant seulement 5% de la multiplication totale.

Hachant l'algorithme de rétropropagation la base des documents présentés, une mise à jour d'attribut unique est toujours rare. Et parce que la mise à jour de gradient clairsemée, notre algorithme est très approprié pour parallèle hétérogène et la formation. Grâce à l'évaluation expérimentale rigoureuse sur plusieurs jeux de données réelles, nous montrons que l'algorithme proposé a l'évolutivité et la durabilité (haute efficacité énergétique).

ANN hachage aléatoire de visualisation

Figure 1: vu le nombre de paramètres du réseau de neurones est supposé bas rang nécessite naturellement moins de la figure.

Figure 2: le réseau de neurones hachage aléatoire de visualisation. construire une table de hachage, le procédé est approprié pour chaque couche cachée (première itération) hachage de rétablissement. utiliser cette couche fonction de hachage aléatoire Hash faire la couche d'entrée. Cette couche de table de hachage de requête, obtenir les ensembles de données d'activation AS. seulement faire propager vers l'avant et vers l'arrière sur les neurones actifs. AS poids et mettre à jour la table de hachage.

56 performances du processeur central Intel Xeon ES-2697 Comparaison

Figure 7 Un réseau en utilisant notre méthode standard (de hachage aléatoire) et des isomères à l'aide de algorithme du gradient stochastique, le noyau 56 sur la performance comparative processeur Intel Xeon ES-2697. Nous, à son tour ont été testés sur MNIST, noRb, Convex et ensembles de données Rectangles. Les valeurs initiales de tous les réseaux sont créés égaux.

Figure 8 : New Method (LSH-5%) avec le temps d'horloge de paroi hétérogène algorithme du gradient stochastique par étape (par époque) obtenu. Nous avons un réseau avec une couche cachée de trois couches, à son tour, testé sur MNIST, noRb, Convex et ensembles de données Rectangles. Sur Rectangles Convex et moins des ensembles de données supplémentaires, parce que pas assez est disponible dans tout le cours d'échantillons de formation. expérience standard seulement 5% de la quantité de calcul de réseau.

En savoir plus, voir la prépublication papier (adresse: https: //arxiv.org/pdf/1602.08194.pdf)

Tang: Les petits changements invisibles dans un individu, je ne peux pas comprendre les grands changements dans l'entreprise
Précédent
ferroviaire à grande vitesse chinois présenté à la fin de « papier cadeau »
Prochain
Magasin 4S parler de la voiture, vérifiez ces trois endroits, aux voitures éviter d'achat et stock essai routier de voiture
94 ans de la mort de M. Jin Yong: ce monde, les plus hauts arts martiaux, est le temps ......
Date limite pour envoyer la proposition: les parents qui me accompagner mes devoirs? Ha ha ha ha ha ha ha ha ha ha
Vie, pourquoi avez-vous aller à un Myanmar?
Pourquoi Ali pulsée croissance explosive? Zeng Ming mettre à nu le secret
« Mon père laisse la recherche en IA de perdre leur emploi » pour obtenir l'IA étroite, à vous soucier de super-intelligente
Chauffage n'a pas ouvert, la consommation de carburant est deux fois plus élevé? Hiver consommation élevée de carburant, vous pouvez être dû à une erreur de l'opérateur!
Rouge économie canadienne, la dette, les médias étrangers: le Canada ou la Grande Dépression est sur le développement du script
Aller à l'étranger pour commettre le crime tout droit? D'après capture n'est pas mal!
M. Ye: le marketing de première classe, créer des conflits, un conflit se trouve la commercialisation de second ordre, le marketing pour trouver troisième conflit
Après avoir lu ces hôtels, je veux aussi me marier!
Le feu endommage la réputation des martyrs sera étudiée par! Suprême a parlé Procurature!