étude approfondie Mise en route: 25 débutants doivent connaître le concept de

Wang Hanchen compilé à partir Vidhya Analytics

Qubit produit | Numéro public QbitAI

l'intelligence artificielle, de la profondeur de l'apprentissage, l'apprentissage machine ...... peu importe quel genre de travail que vous êtes, nous devons comprendre ces concepts. Sinon, dans les trois ans, vous deviendrez un dinosaure. - Mark Cuban

Les paroles de Cuba, certains peuvent sembler extrême, mais « si une manipulation brutale pas difficile, » nous sommes maintenant au milieu d'un torrent de réforme par le grand calcul intensif et les données déclenchées.

Tout d'abord, nous imaginons, si une personne vivant dans le pouvoir au début, mais ne sais pas pourquoi la question du 20e siècle, quelle expérience. Au cours des dernières années, il a utilisé une méthode particulière pour résoudre le problème, tous un coup les choses ont changé de façon spectaculaire autour. Ancien exige beaucoup de main-d'uvre et des ressources au travail, et maintenant seulement besoin d'une personne pour compléter le pouvoir.

Et dans le contexte actuel, l'apprentissage de la machine, l'apprentissage en profondeur est le nouveau « pouvoir ».

Donc, si vous ne connaissez pas la profondeur de l'apprentissage la puissance, nous pourrions aussi bien commencer par cet article. Dans cet article, les auteurs Dishashree Gupta que les gens veulent connaître la profondeur de l'apprentissage, des listes et explique les 25 termes les plus couramment utilisés dans ce domaine.

25 Ce terme est divisé en trois groupes:

  • Le concept de base du réseau de neurones (y compris une fonction d'activation commun)

  • Convolution réseau de neurones

  • Réseaux de neurones récurrents

Concept de base:

(1) neurone (neurone)

Comme l'unité de base de notre cerveau, les neurones sont composés d'une infrastructure de réseau de neurones. Imaginez quand il est exposé à de nouvelles informations, notre corps traite, et enfin de générer une réaction spécifique.

De même, dans le réseau neuronal, après avoir reçu le signal d'entrée, le neurone fournit en sortie le résultat à d'autres neurones, soit directement en tant que sortie finale par le traitement.

(2) le poids / poids (poids)

Lorsque le signal d'entrée dans les neurones, est multipliée par le facteur de pondération correspondant. Par exemple, si un neurone a deux signaux d'entrée, chaque entrée, il y aura un facteur de pondération correspondant à celui-ci. Dans l'initialisation du réseau, ces poids seront fixés au hasard, puis change constamment au cours du modèle de formation.

Après le réseau de neurones formés, l'entrée a un facteur de pondération plus élevé, souvent, cela signifie plus son importance, plus l'effet sur la sortie. D'autre part, lorsque le facteur de pondération de 0 signifie que l'entrée est sans valeur.

Ci-dessous est supposé que l'une d'entrée, le poids approprié est W1. Ensuite, la souche d'entrée correspondant d'un * W1 en donnant le noeud.

(3) de décalage / polarisation (Bias)

En plus de l'ajout de poids, besoin de passer par l'entrée supplémentaire d'un processus linéaire, appelé décalage. En polarisant le signal d'entrée pondéré avec un b * W1 ajoutés directement, en tant que fonction du signal d'entrée est actif.

(4) la fonction d'activation

Le signal d'entrée avant et après le processus de transformation linéaire effectué par la fonction d'activation non linéaire pour obtenir un signal de sortie. À savoir, le signal final de sortie ayant le f (a + b * W1) sous la forme où f () est la fonction d'activation.

Dans l'illustration ci-dessous, il est supposé X1 ... Xn et similaires correspondent à l'entrée de n WK1 ... WKN facteur de pondération et la b1 de polarisation respective ... bn. Les résultats que nous avons le droit d'entrée Xi est multipliée par le facteur de pondération correspondant wki plus de bi est appelé u.

u = w * x + b

La fonction d'activation f u agit sur, à savoir le neurone de sortie finale est yk = f (u)

Ensuite, nous parlons une partie de la fonction d'activation utilisée: fonction sigmoïde, une fonction linéaire du redresseur (Relu) et la fonction softmax

(A) fonction sigmoïde

Une des plus couramment utilisé comme la fonction d'activation, qui est défini comme suit:

 Source: Wikipedia

fonction sigmoïde pour la plage comprise entre 0 et 1 fonction lisse, quand il est nécessaire d'observer un léger changement dans la valeur du signal d'entrée, par rapport à une fonction en escalier, la fonction de lissage (telle que la fonction sigmoïde) obtenu de meilleurs résultats.

(B) la rectification d'une fonction linéaire (RELU-rectifiées linéaire Unités)

Récemment, les réseaux de neurones ont tendance à utiliser alternatif perdu fonction sigmoïde RELU que la fonction d'activation de la couche cachée, qui est définie comme suit:

f (x) = max (x, 0).

Lorsque x est supérieur à 0, la sortie de la fonction X, le reste de la sortie est égal à zéro. fonctions de l'image sont les suivantes:

 Source: cs231n

Les avantages de l'utilisation de la fonction RELU est, pour toutes les entrées est supérieure à zéro, le dérivé est une constante, ce qui peut accélérer la formation du réseau.

(C) fonction softmax

softmax fonction d'activation est généralement utilisée pour le classement de la couche de sortie.

Il est similaire à la fonction sigmoïde, la seule différence étant fonction de la sortie est normalisée. fonction sigmoïde peut fonctionner lorsque la double sortie, mais face à de nombreux types de problèmes de classification, fonction de probabilité softmax peuvent facilement être calculées directement chaque catégorie apparaissent.

(5) réseau de neurones

Un réseau neuronal est composé d'un système d'apprentissage de la profondeur d'image. tâche de réseau de neurones est de trouver une expression approchée d'une fonction inconnue, qui est relié à l'autre élément neural composé de ces neurones pour modifier les poids et les erreurs de polarisation dans le procédé selon la formation du réseau. La fonction d'activation non linéaire varie linéairement avec le changement représenté par une combinaison, pour produire le résultat final.

A propos de la meilleure définition du réseau de neurones est donnée par Matthew Mayo:

Les réseaux de neurones sont reliés par un grand nombre de transferts de données avec un autre conceptualisation de neurones artificiels de la composition, de ces neurones les uns aux autres, également avec le poids correspondant du réseau neuronal subit des ajustements. Neurones ont été activés avec un seuil, quand ils rencontrent seront activés lorsque les données correspondantes, ainsi que le poids, ces neurones sont activés en combinaison conduit à la création « appris » le comportement.

(6) / couche de sortie / couche cachée

Peut être vu à partir du nom, la couche d'entrée représentant des données d'entrée de la couche réceptrice, la première couche est sensiblement réseau; couche de sortie produire la couche de sortie, ou de la couche finale du réseau, les couches de traitement de réseau intermédiaire appelée la couche cachée.

La couche cachée de données d'entrée pour le traitement spécifique, et ensuite entrée dans la couche suivante. des couches d'entrée et de sortie sont visibles, et la couche intermédiaire sont habituellement masquées.

 Source: cs231n

(7) Le perceptron multicouche (MLP-Perceptron multicouche)

Une tâche complexe de neurone unique ne peut pas être terminé, il est nécessaire de les empiler et produire une sortie de travail utile.

Le plus simple réseau de neurones comprend une couche d'entrée, une couche cachée et une couche de sortie. Chaque couche est constituée d'une pluralité de neurones, chaque neurone de chaque couche sont connectés à tous les neurones de la couche suivante. De tels réseaux peuvent être appelés réseau entièrement connecté .

(8) de propagation vers l'avant (propagation vers l'avant)

Elle se réfère à un signal se propageant à travers la transmission vers l'avant de la couche de sortie à partir de la couche d'entrée vers la couche cachée. Dans la propagation vers l'avant, le signal se propage dans une seule direction, à savoir, la couche d'entrée vers la couche cachée pour fournir l'entrée, et de produire ainsi en fin de compte une sortie correspondante.

(9) fonction de coût (fonction des coûts)

Lors de la construction du réseau de neurones, le résultat des constructeurs qui veulent être en mesure de fermer la sortie possible de la valeur réelle, et donc la fonction de coût pour décrire la précision du réseau.

réseau de neurones cible est d'augmenter la précision de l'erreur de prédiction de manière à réduire, à savoir minimiser la fonction de coût. En règle générale, la sortie de l'optimisation correspondent souvent au minimum de la fonction de coût.

Si une erreur erreur quadratique moyenne en tant que coût, à savoir est exprimée en C = 1 / m (y - a) 2, où m est le nombre de données d'entrée du processus de formation, a est la valeur de prédiction correspondante, y représente la valeur réelle.

Modèle de processus d'apprentissage tourne autour des coûts réduisant au minimum effectué.

(10) de descente de gradient (descente de gradient)

Est l'algorithme gradient d'optimisation de descente afin de minimiser la fonction de coût.

En descente de gradient, les x commence à partir d'un point de départ, un petit mouvement, comme le mouvement du delta h, puis remplacer les informations d'emplacement h x-delta, répété jusqu'à ce que la valeur atteint un minimum local, auquel cas cette valeur minimale est l'emplacement des coûts minimum.

Ledit Mathématiquement, la fonction peut être obtenue selon les fonctions de mouvement de gradient de négatif minimum local.

(11) le taux d'apprentissage (taux d'apprentissage)

Le taux d'apprentissage est défini comme étant le nombre de fois pour minimiser la fonction de coût à chaque itération. Autrement dit, le taux d'apprentissage se réfère au taux de décroissance vers la fonction de coût minimum. Sélectionnez le taux d'apprentissage requis très prudent, traversé l'Assemblée générale pourrait conduire à la solution optimale, est trop faible conduira à la convergence prend trop de temps.

(12) rétro-propagation (propagation arrière)

Dans le processus de définition d'un réseau de neurones, chaque noeud sera poids et de polarisation réparties au hasard. Après la première itération, on peut calculer l'écart en fonction du résultat de l'ensemble du réseau, puis combiné avec le gradient de variation de la fonction de coût, facteurs de pondération correspondant au processus d'ajustement de sorte que la prochaine itération de la déviation devient plus petite. Un tel gradient de la fonction de coût en liaison avec le processus d'ajustement du facteur de pondération est appelée la propagation arrière.

Dans rétropropagation, le signal de direction est transmis, en même temps que l'erreur de gradient de fonction de coût propagé à partir de la couche de sortie vers l'arrière le long de la couche cachée, accompagnée par l'ajustement des facteurs de pondération.

(13) par portions (lots)

Quand un temps de formation du réseau de neurones, en une seule fois par rapport à l'ensemble de l'entrée de données dans, il y a une meilleure façon: les premières données aléatoires dans plusieurs blocs de données de même taille, puis les lots d'entrée. Par rapport au modèle de la formation à usage unique, la formation en lots permettent une meilleure application du modèle.

(14) cycles (époques)

Une période à l'égard de tous les lots de données ont réalisé la première itération, y compris un temps de propagation de propagation et à l'arrière vers l'avant, de sorte que des moyens de période / ère que toutes les données d'entrée pour effectuer une propagation de propagation et à l'arrière vers l'avant, respectivement.

Le nombre de cycle de formation du réseau est facultative, souvent plus le nombre de cycles, plus la précision du modèle, cependant, prend souvent plus. De même, vous devez également considérer si le nombre de cycles / ère est trop élevé, il y a eu des cas pourraient s'adapter.

(15) Procédé d'abandon

Abandon est un procédé ordinaire peut éviter une sur-ajustement du réseau. Comme son nom l'indique, caché dans le processus de formation de certains neurones seront ignorés (drop). Cela signifie que le réseau de la formation se fait dans plusieurs configurations différentes.

Cela ressemble à une sorte d'ensemble décrochage, une pluralité de combinaisons différentes de la structure de réseau de sortie produit la sortie finale.

 Source: papier Hinton « L'amélioration des réseaux de neurones en empêchant la co-adaptation des détecteurs de caractéristique »

Adresse: https: //arxiv.org/pdf/1207.0580.pdf

(16) normalisé par lots (batch Normalisation)

Lot normalisation comme les gens pour surveiller les stations de surveillance du niveau d'eau dans le même fleuve. Est de faire en sorte que la couche suivante des données du réseau ont été la distribution appropriée. Au cours de la formation du réseau de neurones, après chaque descente de gradient des facteurs de pondération seront modifiés, ce qui va changer la structure de données correspondante.

Cependant, la couche suivante peut être obtenue avec les souhaits de réseau distribués à des données similaires avant que les données sont nécessaires et donc un processus de régularisation avant chaque transfert de données.

Convolution réseau de neurones

(17) le filtre / filtre (le filtre)

Le filtre CNN, se réfère spécifiquement à une matrice de poids, on le multiplie avec une partie de l'image d'entrée, la convolution produit un signal de sortie correspondant.

Par exemple, pour un 28 × 28 image du filtre d'image et le 3 × 3 matrice 3 × 3 est multiplié séquentiellement, pour donner la sortie de convolution correspondant. Taille du filtre est généralement plus petite que l'image originale, avec un poids similaire, la minimisation des coûts rétropropagation, le filtre sera mis à jour.

Comme l'image ci-dessous, à travers un filtre, multiplier successivement chaque bloc d'image de 3 × 3, produisant ainsi le résultat de la convolution.

(18) CNN (réseau de neurones à convolution)

réseau neuronal convolutif est généralement utilisé pour traiter les données d'image, les données d'entrée est supposé que la forme de 28 × 28 × 3 (x les 28pixels de 28pixels valeur RVB), puis pour les réseaux de neurones traditionnels, il y aura 2352 (28 × 28 × 3) les variables. Avec l'augmentation de la taille de l'image, le nombre de variables augmente rapidement.

Par conséquent, la convolution de l'image, le nombre de variables peut être réduite. Comme le coulisseau de filtre le long de deux directions de la largeur et la hauteur de l'image, il va produire une carte d'activation 2 dimensions correspondant, et enfin l'ensemble de la cartographie d'activation longitudinalement empilées, génère la sortie finale.

Vous pouvez consulter le schéma suivant.

 Source: cs231n

(19) mis en commun (mise en commun)

Afin de réduire encore le nombre de variables tout en empêchant surapprentissage, une pratique courante consiste à introduire la couche cellulaire (couche mise en commun) dans la couche de convolution. Comme on le voit ci-dessous, le fonctionnement de la plupart réservoir commun de chaque couche est de 4 × 4 blocs prend la valeur maximale dans l'image originale pour former une nouvelle matrice, qui est appelé une valeur maximale de la piscine (de mise en commun max).

 Source: cs231n

Bien sûr, certaines personnes essaient de la mode, comme moyen commun (mise en commun moyenne) et similaires, mais pour maximiser la mise en commun ont de meilleurs résultats dans des situations pratiques.

(20) rembourrage (rembourrage)

Comme cela est représenté ci-dessous, le remplissage (padding) désigne généralement le bord de l'image du flan additionnel, de sorte que l'image d'entrée est l'image convoluée en accord avec la taille de la sortie, qui est également fait référence à la même rembourrage (Padding même).

rembourrage efficace (Rembourrage valide) fait référence à chaque pixel sur le maintien de l'image réelle, ne pas augmenter l'écart, de sorte que la taille des données après l'expérience de convolution continuera à devenir plus petit. (Note du traducteur: désigne un rembourrage particulièrement efficace est mis au rebut chaque point de temps d'une dernière convolution du pixel ne peut être satisfaite, par exemple un filtre 3 * 3, les données de pixel 32 pour une ligne après avoir été soumis à une convolution pixel va perdre les deux derniers, même à travers le rembourrage, placez un blanc à augmenter, de sorte que chaque ligne 33 pixels, la taille des données après la convolution ne devient pas plus petit.

(21) (Enhanced Data de données d'augmentation)

amélioration des données (données d'augmentation) fait référence à la création de nouvelles données à partir des données existantes, en augmentant la quantité de la formation à attendre à améliorer la précision de la prévision.

Par exemple, dans ladite identification numérique, les chiffres que nous rencontrions peut être incliné ou tourné, si la formation est une rotation modeste de l'image, ce qui augmente la quantité de formation, pourrait être amélioré la précision du modèle. En opérant la « rotation », la qualité des données de formation est améliorée, ce processus est appelé des données améliorées.

Réseaux de neurones récurrents

(22) neurones récursifs (réseau de neurones récurrents)

Pour les neurones récurrents, via ses propres données traitées deviendront leur entrée prochaine, ce processus sera un total de temps t. Comme indiqué ci-dessous, l'équivalent de neurones récursive expansion t neurones différents en série, les avantages de ce neurone est capable de produire une sortie plus complète.

 Source: cs231n

(23) Recurrent Neural Network (RNN-récurrente Neural Network)

les réseaux de neurones récurrent sont couramment utilisés pour traiter une séquence de données, à savoir, la sortie de la précédente est utilisée pour prédire la prochaine.

La présence de la structure cyclique du réseau neuronal récurrent, la structure cyclique de telle sorte que ces temps de neurones avant que leurs données peuvent être stockées, de sorte que la sortie peut être prédite.

neurones récursifs similaires dans la couche cachée sortie RNN est entrée comme la prochaine fois, et ainsi de suite fois l'expérience t, puis afficher les résultats transmis à la couche suivante de réseau. De cette façon, les résultats de la production finale sera plus complète, et l'information est tenue avant que le temps de formation sera plus longue.

(24) gradient de disparition

Lorsque la fonction d'activation de gradient est faible gradient se produira de disparaître. Au cours de l'arrière-propagation, le facteur de pondération sera multiplié plusieurs fois ces petits gradient, obtenant ainsi de plus en plus petits, comme la profondeur de récursivité ont tendance à « disparaître » de sorte que le réseau de neurones a perdu sa fiabilité à long terme. Ce problème est plus fréquent dans le réseau de neurones récurrents.

(25) explosion de gradient

correspond à gradient avec la disparition du problème, lorsque le gradient de la fonction d'activation est grande, l'explosion se produit à gradient. Dans le procédé de propagation arrière, la grande partie du gradient du noeud de telle sorte que leur poids devient extrêmement grande, ce qui affaiblit l'effet des résultats des autres noeuds, le problème peut être tronquée (par exemple, définir un gradient maximal admissible) de manière efficacement évité.

[Fin]

recrutement

Nous recherchons des rédacteurs en chef et les journalistes, les opérateurs et les autres postes, basé à Zhongguancun de Beijing, nous réjouissons de votre arrivée, à l'expérience de l'intelligence artificielle en pleine progression.

Détails, le numéro de l'interface de dialogue public, réponses: mot « recrutement ».

Encore une chose ...

Qu'est-ce que la préoccupation de la communauté AI d'aujourd'hui? En bit quantique (QbitAI) Interface séance publique n ° réponse « Aujourd'hui » pour voir l'industrie et la recherche AI collecte dynamique de notre réseau. recharge ~

Sur le port habituel « balle a chuté » a été changé, Capello était habituellement le blâme! Shanghai exposition médiatique gagner de détails
Précédent
N'a épargné aucune dépense, toute l'équipe composée par les meilleurs joueurs, a créé un record de 40 défaites du monde?
Prochain
Jiujiang Rocket! Célèbre que KD! ABC Mingsu! Même dans 10 à trois points, pas un homme de soupe Dieu
Marque longue histoire de réussite encore ous, l'utilisateur doit façonner A800 Auchan
Relégation, il n'a jamais quitté! Jagged aide étrangère Jianye a inspiré ses coéquipiers à se battre, les commandants visite Kalan Jia
Roi de gloire la plus grande mise à jour cette année, non seulement ajusté le 12 héros, même les règles du canyon ont changé!
202 minutes sans une aide, Harden est trop rapide? D'Antoni encore trop têtu?
Festival Eco-pêche popularité de poly! Guangyuan embrayage puissance de fusion de la brigade de l'agriculture écologique Kang pour élever le nom du bâtiment de la ville
Le cur de la ligne pour rendre la vie plus grande liberté des actions du nouvel homme de la liberté
Peut l'ancien patron du parti super bataille? assez profond Pro Cheng pour avoir le droit de décider! Fans: refrain Xiemoshalv
Zhou Qi a centre souffert de mauvaises nouvelles 4 étagères, grand diable Houston Doué mais aussi un voyage futile
Ne portez pas de trois têtes ne pas laisser l'Internet! Ce thème café Jedi pour survivre même les conteneurs sont restaurés!
Cette surprise de Noël Ganai Ambassadeur
Hengda regret de perdre la Triple Couronne, Cannavaro doit assumer la pleine responsabilité! Wu Lei, expliquant la clé de la victoire