Comment traiter les probl�mes � la fronti�re avec la prise de d�cision des r�seaux de neurones artificiels de? Voici une simple r�f�rence de code

Essentiellement, le r�seau de neurones artificiels (ANN) est un paradigme de traitement de l'information, qui a �t� inspir�e par le processus de traitement de l'information du cerveau humain, qui est actuellement une tr�s large gamme d'applications dans le domaine de l'apprentissage machine.

, Beaucoup de gens ne peuvent pas savoir cependant est que, ANN d�s les ann�es 1940, il a �t� pr�sent�. Dans ces premi�res ann�es, ANN a suscit� des inqui�tudes dans l'industrie dans une certaine mesure, mais il n'y a pas de puissance de calcul de mat�riel puissant et actuel algorithme de formation de mod�le efficace, donc ANN bient�t disparu. Mais avec les progr�s de d�veloppement des temps, la technologie est devenu presque synonyme de l'intelligence artificielle ANN actuelle, en particulier avec l'encodeur automatique, les r�seaux de convolution, r�gularisation Dropout (r�gularisation de d�crochage scolaire) et une vari�t� d'autres technologies voient le jour, l'ANN la performance a �t� consid�rablement am�lior�e.

recherches m�dicales montrent que: le r�seau de neurones du cerveau humain des neurones, qui sont reli�s entre eux par des synapses, des signaux d'�mission. En g�n�ral, seulement lorsque la valeur du signal re�u d'un neurone d�passe un certain seuil, il transmet ce signal aux autres neurones connect�s � celui-ci. De plus, le r�seau de neurones du cerveau humain peut �tablir une connexion entre les neurones de la relation, et m�me eux-m�mes et leurs connexions. Si vous copiez cette structure de liaison du cerveau humain, il sera difficile de former le r�seau de neurones artificiels, donc dans la plupart des sc�narios d'application pratique, les chercheurs ont g�n�ralement � faire des r�seaux de neurones artificiels � Streamline et les restrictions (telles que leur propre et ne peut pas propres connexions, etc.).

Dans le cas o� le MLP (en perceptrons multi-couches), les neurones sont dispos�s en couches, chaque neurone et le neurone peut transmettre un signal � la couche suivante. Une premi�re couche compos�e de la donn�e d'entr�e, la sortie finale de la derni�re couche de la valeur pr�dite, dite couche de sortie. Ici, tous les neurones sont reli�s par un synapses soi-disant (synapses).

Quand une personne avec un signal de seuil correspondant � un r�seau de transport du cerveau typiquement utilis� dans la fonction sigmo�de pour calculer ANN neurone de sortie. Expression et fonction de l'image repr�sent�e sur la Fig.

En g�n�ral, le processus de formation ANN peut �tre divis� en deux �tapes comme suit:

1. face, par l'interm�diaire du ANN aux donn�es de sortie provenant de l'entr�e de la transmission, est appel� pr�compensation (feed forward).

2. Le transfert inverse, � partir de la sortie de chaque neurone est calcul�e erreur, alors le r�sultat de calcul pour ajuster les poids de r�seau est appel� propagation arri�re (r�tropropagation).

Dans ce qui suit, nous allons d'abord essayer de traiter les questions transfrontali�res avec d�cision l'algorithme de r�gression logistique traditionnelle, suivie par l'introduction de ANN, en revanche, nous verrons ANN puissant. Il convient de noter, ici nous ne mis en place une structure simple � trois ANN (� savoir la figure ci-dessus la couche cach�e a 3 couches), et, nous avons omis quelques-unes des bases des math�matiques et de l'introduction � l'apprentissage de la machine, y compris la classification, la r�gularisation descente de gradient, et autres. De plus, nous avons �galement utilis� une partie de la biblioth�que d'apprentissage de la machine pr�te � l'emploi en Python.

La r�gression logistique

Nous passons d'abord aux questions limites de d�cision avec la m�thode de r�gression logistique, qui est la formation d'un classificateur de r�gression logistique. Ici, les valeurs d'entr�e du classificateur est x ou y de l'ensemble de donn�es, la sortie est le r�sultat de la classification nous pr�disons (dans le pr�sent exemple est �gal � 0 ou 1, repr�sentant les deux couleurs de rouge et bleu).

Le code suivant d�clare les biblioth�ques de soutien nous avons besoin.

# les importations de l'emballage

matplotlib.pyplot importation comme plt

importer numpy comme np

importation sklearn

sklearn.datasets d'importation

importation sklearn.linear_model

importation matplotlib

Le code suivant g�n�re une limite des besoins d'ensemble de donn�es de d�cision par la m�thode de nombres al�atoires.

# G�n�rer un jeu de donn�es et le tracer

np.random.seed (0)

X, y = sklearn.datasets.make_moons (200, bruit = 0,20)

plt.scatter (X , X , s = 40, c = y, cmap = plt.cm.Spectral)

plt.show

Le point semblable � la distribution de l'ensemble de donn�es est trac�e ci-dessous.

Avec l'aide de scikit-learn la biblioth�que, nous utilisons cette formation de donn�es classificateur de r�gression logistique, le code est suit comme.

# Former le classificateur de r�gression logistique

NSI = sklearn.linear_model.LogisticRegressionCV

clf.fit (X, y)

# Tracer la limite de d�cision (le proc�d� est dans la principale liaison de code fourni � la fin)

plot_decision_boundary (lambda x: clf.predict (x))

plt.title ( "r�gression logistique")

Les r�sultats de la sortie finale sont les suivantes.

On peut voir la classification des donn�es en ligne droite occasion de r�gression logistique est divis�e en deux rouges et bleues cat�gories, bien que les r�sultats ont �t� tout � fait satisfaisante (vous pouvez voir la plupart du rouge, le point bleu a �t� d�connect�), mais si nous voulons pour obtenir des r�sultats plus pr�cis (c.-�-compl�tement rouge, point bleu s�par�ment), de toute �vidence, il a besoin d'une solution plus puissante, qui doit �tre r�alis� plus tard ANN.

Artificial Neural Network

La construction de laisser un trois ANN pour r�soudre le probl�me, et voir les r�sultats tout diff�rents par rapport � la r�gression logistique.

Le premier choix de la dimension couche cach�e (couche cach�e) (� savoir le nombre de nuds), g�n�ralement consid�r�s comme plus noeuds, nous pouvons r�aliser des fonctions plus complexes. Mais la dimension �lev�e n�cessite une formation �norme mod�le de puissance de calcul et de soutien dans le temps et pr�dire les r�sultats, mais aussi un grand nombre de param�tres peut �galement causer surapprentissage (surapprentissage) probl�me. Alors, comment choisir la taille de la dimension de la couche cach�e, ou d�pendre du probl�me sp�cifique � r�soudre, mais il est plus d'un art plut�t que de la science. Ci-dessous, nous verrons comment la dimension affecte la sortie de la couche cach�e de ANN, dimensions ANN donn�e ici d'abord toutes les r�gles les plus �l�mentaires de quelques-uns.

1. ANN a une couche d'entr�e, en g�n�ral, une couche cach�e et une couche de sortie.

2. Le nombre de noeuds dans la couche d'entr�e est d�termin�e par les dimensions des donn�es d'entr�e.

3. Le nombre de noeuds dans la couche de sortie est d�termin�e par le nombre de classes de sortie. (Dimensions dans le pr�sent mode de r�alisation 2 est la couche de sortie, �tant donn� que nous avons seulement deux r�sultats 0 et 1).

Maintenant, nous devons �galement s�lectionner une fonction d'activation de la couche cach�e (fonction d'activation) est. Une fonction d'activation de la couche est responsable de l'entr�e en un signal de sortie, g�n�ralement fonction non lin�aire utilis�e pour ajuster la non-lin�arit� est suppos�e. La option la plus commune � activer les fonctions comprennent: la fonction tangente hyperbolique (tanh), la fonction sigmo�de Relu (Rectifi� unit�s lin�aires) et d'autres fonctions. Dans le pr�sent mode de r�alisation utilise une fonction de tangente hyperbolique tanh.

Parce que nous voulons que le r�sultat final est la probabilit�, et donc la fonction d'activation couche de sortie fonction de s�lection Softmax serait plus appropri�, ce qui est la meilleure fa�on de convertir un r�sultat num�rique brut de probabilit�. Ici, la fonction Softmax peut �tre consid�r�e comme une g�n�ralisation fonction logistique pour la classification multiple (g�n�ralisation).

Comment pr�diction ANN?

Comme d�crit ci-dessus, l'exercice entier peut �tre divis� en deux processus. Tout d'abord, avant la transmission, � savoir les donn�es de sortie de formation de flux � partir de la borne d'entr�e, pour obtenir une valeur de pr�diction finale, qui est un proc�d� d'alimentation avant. Deuxi�me passage inverse, � savoir le param�tre d'apprentissage (apprentissage les param�tres), trouve un ensemble de plus combinaison appropri�e de param�tres tels que l'erreur de formation ANN est r�duite au minimum. Nous allons g�n�ralement appelions la fonction de mesure de la perte de fonction d'erreur (fonction de perte), puisque nous Softmax ci-dessus fonction d'activation en fonction de la couche de sortie, selon ainsi � la pratique g�n�rale, o� la perte d'entropie crois�e (perte de la fonction d'entropie crois�e) comme une perte fonction.

la mise en uvre ANN

Tout d'abord, nous d�finissons des variables et des param�tres pour le processus ult�rieur de descente de gradient, comme suit.

num_examples = len (X) # la taille de l'ensemble de la formation

nn_input_dim = 2 # dimension de la couche d'entr�e

nn_output_dim = 2 # dimension de la couche de sortie

# Param�tres descente de gradient

epsilon = 0,01 # le taux d'apprentissage pour une descente de gradient

reg_lambda = 0,01 # la force de r�gularisation

fonction de perte est alors d�finie.

def calculate_loss (mod�le):

sortie de pr�diction des d�finitions de fonctions auxiliaires (fonction auxiliaire) (0 ou 1).

def pr�dire (mod�le, x):

Enfin, on d�finit la fonction de formation ANN, qui utilise un d�riv� de r�tro-propagation tel que d�fini ci-dessus pour la descente en gradient discontinu (de descente de gradient discontinu).

def build_model (nn_hdim, nombre_passes = 20000, print_loss = Faux):

Les pr�dictions de ANN

Ici, nous utilisons le point de donn�es mentionn�e ci-dessus pour commencer la formation ANN.

# Construire un mod�le avec une couche cach�e 3 dimensions

model = build_model (3, print_loss = True)

# Tracer la limite de d�cision

plot_decision_boundary (lambda x: pr�dire (mod�le, x))

plt.title ( � D�cision limite pour la taille de la couche cach�e 3 �)

On peut voir � partir des r�sultats ci-dessus, avec l'augmentation du nombre de la formation, plus les pr�visions du mod�le. couche cach�e de faible dimension peut bien saisir les donn�es sur les tendances g�n�rales et les dimensions sup�rieures peut-�tre parce que l'effet m�moire et produit un ajustement, mais la forme g�n�rale est toujours correcte. Si nous voulons tester le mod�le sur d'autres ensembles de donn�es, puis masquer le mod�le de dimension plus petite couche peut obtenir de meilleurs r�sultats parce qu'ils sont mieux g�n�ralisation. En outre, bien que plus peut �tre utilis� pour compenser la grande dimension de r�gularisation due � une sur-ajustement, mais le choix d'une dimension appropri�e de la couche cach�e est une solution plus �conomique.

Le code source complet: https: //github.com/NSAryan12/nn-from-scratch/blob/master/nn-from-scratch.ipynb

Source: moyenne, Lei Feng r�seau compil� article Lei Feng r�seau copyright

Lei Feng r�seau de lecture connexe:

Interpr�tation de l'ing�nieur logiciel Google: �tude approfondie Fort de la fonction d'activation qui?

�tude lourde MIT: Artificial Neural Network, explorer l'importance biologique de l'inhibition des neurones

Comment l'intelligence artificielle mat�riel r�seau de neurones pour optimiser la conception?