Vous apprendre � utiliser TensorFlow et Keras pour cr�er l'APP "Hot Dog Recognition" dans la s�rie t�l�vis�e am�ricaine "Silicon Valley"

Source : Poulet m�canique

Auteur : Yaoyao

La longueur de cet article est 10000 mots , lecture recommand�e 20 min+

Cet article vous apprend � d�velopper votre propre application~

L'�mission � succ�s de HBO "Silicon Valley" a r�cemment lanc� une application d'intelligence artificielle qui peut faire la distinction entre "hot dog" et "pas un hot dog" (comme Jian Yang dans la quatri�me saison de l'�mission, �pisode 4), l'application Il est actuellement disponible sur Android et iOS, mais uniquement pour les utilisateurs aux �tats-Unis et au Canada.

Lorsque vous prenez une photo de la nourriture (ou que vous pouvez utiliser la photo sur votre t�l�phone), il vous dira que l'objet est "Hotdog or Not Hotdog", c'est tout ce qu'il fait, toute l'application est tr�s simple.

Pour identifier avec pr�cision les hot-dogs, les auteurs ont d�velopp� une architecture de r�seau neuronal qui s'ex�cute directement sur les t�l�phones mobiles et l'a form�e avec les GPU TensorFlow, Keras et Nvidia.

Bien que la fonctionnalit� soit ridicule, l'application est un exemple concret d'exploitation de l'apprentissage en profondeur et de l'informatique de pointe. Tous les programmes d'intelligence artificielle s'ex�cutent � 100 % sur l'appareil de l'utilisateur et les photos prises peuvent �tre trait�es sans quitter le t�l�phone.

Cela permet aux utilisateurs de profiter d'une meilleure exp�rience (pas besoin d'aller vers et depuis le cloud), de capacit�s d'utilisation hors ligne et d'une meilleure protection de la vie priv�e. Cela nous permet �galement d'ex�cuter des applications sans frais g�n�raux avec des millions d'utilisateurs, ce qui nous permet d'�conomiser beaucoup d'argent par rapport � l'IA traditionnelle bas�e sur le cloud.

L'�quipement utilis� par l'auteur pour d�velopper l'application (l'eGPU sur la photo sert � entra�ner l'IA qui n'est "pas un hot-dog")

L'application a �t� d�velopp�e par un d�veloppeur utilisant un ordinateur portable et un GPU pour modifier manuellement les donn�es. Cet exemple nous dit qu'avec la technologie actuelle, nous n'avons pas besoin du soutien des entreprises technologiques, Les d�veloppeurs individuels et les amateurs peuvent �galement d�velopper des applications int�ressantes avec des ressources limit�es. Sans plus tarder, apprenons � d�velopper votre propre application.

Table des mati�res

1. Application

2. Du prototype au produit

1. Prototype

2. TensorFlow, structure initiale et apprentissage par transfert

3. Keras et SqueezeNet

3. Architecture DeepDog

1. Formation

2. Ex�cution du r�seau de neurones sur votre t�l�phone

3. Utilisation des r�seaux de neurones pour modifier le comportement de l'application

4. Exp�rience utilisateur, exp�rience d�veloppeur et l'Uncanny Valley of AI

1. Application

L'application vous permet d'abord de prendre une photo, puis vous indique si vous prenez un hot-dog. Cette fonctionnalit� est simple et un clin d'il aux applications d'IA r�centes comme ImageNet. Alors que nous investissons plus de ressources d'ing�nierie dans les hot-dogs que quiconque, l'application a ses moments idiots.

Il parait que tant qu'il y a du ketchup, c'est un hot-dog

Au contraire, parfois, il peut aussi montrer son c�t� spirituel dans des situations compliqu�es. Comme l'a rapport� Engadget : "Incroyable ! Mon exp�rience avec cette application en 20 minutes est meilleure que mon exp�rience avec Shazam (une application qui peut deviner les titres des chansons) en deux ans."

Il ne semble pas pouvoir tromper 'ce n'est pas un hot-dog'.

2. Du prototype au produit

Je ne sais pas si vous avez d�j� v�cu cette exp�rience : lorsque vous lisez Hacker News (un site d'actualit�s sociales sur les pirates informatiques et les startups), vous pensez : "Ils ont fait �a pour 10 millions de dollars en financement de s�rie A ? J'en suis un. Pouvez-vous le faire ce week-end�?��

Eh bien, cette application vous donnera le m�me sentiment, et elle a vraiment �t� prototyp�e en un seul week-end � l'aide de l'API Vision de Google Cloud Platform et de React Native.

Mais la version finale de l'App Market est ce que nous avons pass� quelques mois (� temps partiel) � peaufiner. Nous avons fait quelques optimisations que les profanes ne peuvent pas comprendre. Nous avons pass� des semaines � maximiser la pr�cision des applications, le temps de formation de l'IA, le temps de test et � it�rer notre configuration et nos outils, ce qui a rendu notre d�veloppement it�ratif plus efficace.

De plus, nous avons pass� tout un week-end � optimiser l'exp�rience utilisateur sur iOS et Android

Habituellement, la plupart des articles de blog techniques et des articles acad�miques ignorent cette partie et montrent directement leur solution finale. Mais afin de vous donner une le�on du pass�, nous avons ici abr�g� les solutions irr�alisables que nous avons essay�es. Apr�s cela, nous pr�senterons la solution finale r�ussie.

1. Prototype

Exemple d'image et sortie d'API correspondante de la documentation Google Cloud�Vision

Nous avons choisi d'utiliser React Native pour le prototypage car, d'une part, c'�tait un bon terrain d'essai, et d'autre part, cela nous a permis de supporter tr�s rapidement de nombreux appareils. Les faits ont prouv� que notre choix �tait correct.

Nous avons gard� React Native pour le reste du projet : m�me si cela ne simplifiait pas toujours notre charge de travail, et que nous avons d�lib�r�ment limit� le design de l'application, React Native a finalement fait le travail.

L'API Vision dans Google Cloud, que nous utilisions lors du prototypage, a �t� rapidement abandonn�e par nous. Il y a trois raisons :

Sa pr�cision dans l'identification des hot-dogs est m�diocre. Bien qu'il soit bon pour reconna�tre beaucoup d'objets, vous avez du mal � le faire reconna�tre une seule chose. Il y a eu beaucoup d'�checs lorsque nous l'avons essay� en 2016.
Comme il s'agit d'un service cloud, il sera beaucoup plus lent que sur un appareil (Internet�! Trop�! Lent�!) Et il ne prend pas en charge la fonctionnalit� hors ligne. Et une fois que la photo quitte l'appareil, elle d�clenche des consid�rations juridiques et de confidentialit�.
Enfin, une fois qu'une application est en ligne, l'utilisation de Google Cloud Services peut s'av�rer co�teuse.

Avec ces facteurs � l'esprit, nous avons entrepris d'exp�rimenter ce qui est d�sormais populaire "l'informatique de pointe", ce qui signifie dans ce cas former le r�seau de neurones sur nos propres ordinateurs portables avant de le transf�rer et de l'int�grer directement dans nos appareils mobiles. De cette fa�on, le r�seau de neurones peut effectuer des inf�rences et s'ex�cuter directement sur le t�l�phone de l'utilisateur.

2. TensorFlow, structure initiale et apprentissage par transfert

Apr�s une conversation fortuite avec Pete Warden de l'�quipe TensorFlow, nous avons r�alis� la capacit� de TensorFlow � fonctionner directement sur un appareil iOS, nous avons donc commenc� � explorer dans cette direction. Apr�s React Native, TensorFlow est devenu notre deuxi�me outil de d�veloppement finalis�.

Il ne nous a fallu qu'une journ�e pour int�grer l'exemple de cam�ra Objective C++ de TensorFlow dans notre biblioth�que React Native, et il a fallu un peu plus de temps pour utiliser leur script d'apprentissage par transfert.

Le script d'apprentissage par transfert peut vous aider � recycler la structure Inception pour g�rer des probl�mes d'image plus sp�cifiques. Inception est le nom d'un ensemble de structures neuronales que Google utilise pour r�soudre les probl�mes de reconnaissance d'images. Certaines Inceptions sont form�es et pond�r�es. Dans la grande majorit� des cas, les r�seaux de reconnaissance d'images sont entra�n�s sur ImageNet.

ImageNet organise un concours annuel pour exploiter la structure du r�seau neuronal qui peut le mieux reconna�tre plus de 20000 articles diff�rents, y compris les hot-dogs. Mais tout comme l'API Vision dans Google Cloud, bien que cette concurrence soit filtr�e horizontalement et verticalement, face � la reconnaissance de 20000 articles, l'algorithme fait encore d�faut. Dans ce cas, l'apprentissage par transfert consiste � prendre un r�seau de neurones enti�rement form� et � le recycler en un outil capable de mieux effectuer une seule t�che sp�cifique.

Cela implique un certain degr� "d'oubli", soit en coupant directement toute la couche de la pile, soit en effa�ant lentement la capacit� du r�seau de neurones � distinguer d'autres objets (tels que des chaises) et en se concentrant plut�t sur l'identification de ce dont vous avez besoin (dans ce cas, un Hot-dog).

Le r�seau de neurones (Inception) mentionn� ci-dessus a �t� form� avec 14 millions d'images dans ImageNet. Nous n'avons utilis� que quelques milliers d'images de hot-dogs, ce qui a grandement am�lior� sa capacit� � reconna�tre les hot-dogs.

Le plus grand avantage de l'apprentissage par transfert est que vous pouvez obtenir de meilleurs r�sultats plus rapidement que de partir de z�ro sans utiliser beaucoup de donn�es. Un ensemble de formation complet n�cessite non seulement plusieurs GPU et des millions d'images, mais prend �galement des mois. L'apprentissage par transfert peut g�n�ralement se faire en quelques heures avec un ordinateur portable et deux ou trois mille images.

L'un des grands d�fis que nous avons est de d�terminer lesquels sont des hot-dogs et lesquels ne le sont pas.

D�finir "qu'est-ce qu'un hot-dog" est �tonnamment difficile (est-ce que la saucisse en tranches compte�? Si oui, quel type de saucisses compte�?), et cela implique �galement diff�rentes compr�hensions culturelles et g�ographiques des hot-dogs.

De m�me, l'environnement ouvert d'une application signifie que nous devons g�rer une quantit� presque infinie d'entr�es d'utilisateurs. Bien que certains probl�mes d'identification informatique soient relativement limit�s (comme la v�rification des boulons pour les d�fauts de qualit� avec les rayons X), nous aurons affaire � des selfies, des photos de paysage et de nombreuses photos de nourriture.

On peut dire que cette m�thode de d�veloppement est bonne et qu'elle apporte des r�sultats d'optimisation. Cependant, nous avons d�conseill� cette approche pour deux raisons�:

Premi�rement, nos donn�es d'entra�nement doivent �tre gravement d�s�quilibr�es, car il y a beaucoup plus d'exemples "pas un hot-dog" que "est un hot-dog".

Cela signifie que si vous entra�nez votre algorithme avec 3 images de hot-dogs et 97 images de non-hot-dogs, m�me s'il reconna�t 0% de hot-dogs et 100% de non-hot-dogs, il sera pr�cis par d�faut Toujours jusqu'� 97�%�! Ce n'est pas simple � r�soudre m�me avec TensorFlow pour l'apprentissage par transfert. En d'autres termes, cela nous indique essentiellement que nous devons utiliser le mod�le d'apprentissage en profondeur pour contr�ler la formation et importer des poids � partir de z�ro.

� ce moment-l�, nous avons d�cid� de mordre la balle et de recommencer avec Keras (une biblioth�que logicielle d'apprentissage en profondeur qui fournit des abstractions plus belles et plus pratiques bas�es sur TensorFlow).

Keras est livr� avec des outils d'entra�nement tr�s puissants, ainsi qu'une option de cat�gorie de poids, qui correspond parfaitement � la situation o� nos donn�es d'entra�nement sont s�rieusement d�s�quilibr�es. Nous en avons profit� pour essayer d'autres architectures neuronales populaires telles que VGG, mais un probl�me restait non r�solu : aucune de ces architectures ne fonctionnait bien avec l'iPhone.

Ils occupent trop de m�moire et font planter d'autres applications. Un autre point est qu'ils prennent parfois plus de 10 secondes pour calculer et traiter, ce qui est tr�s mauvais du point de vue de l'exp�rience utilisateur. Nous avons essay� de nombreuses fa�ons d'essayer d'att�nuer ce probl�me, mais au final, ces structures neuronales sont trop grandes pour le t�l�phone.

3. Keras et SqueezeNet

Figure�: SqueezeNet SqueezeNet et AlexNet (le cr�ateur de l'architecture de vision par ordinateur)

Pour vous donner une id�e du temps, c'est probablement vers le milieu de notre projet. � ce stade, l'interface utilisateur est termin�e � 90�% et, fondamentalement, aucune modification ne sera apport�e. Mais avec le recul, le r�seau de neurones � l'�poque n'en faisait au mieux que 20 %.

Nous avons une certaine compr�hension de la difficult� et un bon ensemble de donn�es, mais le code d'architecture neuronale final n'est m�me pas une seule ligne de code. � l'�poque, notre code neuronal n'�tait pas suffisamment stable pour fonctionner sur les t�l�phones, et notre pr�cision ne s'am�liorerait m�me pas de mani�re significative au cours des prochaines semaines.

Le probl�me le plus imm�diat auquel nous sommes confront�s est simple, si Inception et VGG sont trop gros, existe-t-il un r�seau de neurones plus simple et form� que nous pouvons utiliser pour l'apprentissage par transfert�?

Nous avons explor� Xception, Enet et SqueezeNet. Nous avons rapidement d�cid� d'utiliser SqueezeNet.

SqueezeNet dispose d'une fonction de localisation explicite, qui peut �tre utilis�e comme solution d'apprentissage en profondeur int�gr�e. En outre, il existe des mod�les Keras form�s disponibles sur GitHub (yay�! Site open source�!)

Alors, quelle diff�rence cela peut-il faire? Une structure comme VGG doit utiliser pr�s de 138 millions de param�tres (les nombres n�cessaires pour simuler les valeurs entre neurones et neurones). Inception a �t� grandement am�lior�, avec seulement 23 millions de param�tres. SqueezeNet n'a besoin que de 1,25 million de param�tres en comparaison.

Cela apporte deux avantages :

Pendant la formation, il est beaucoup plus rapide d'utiliser un petit r�seau. Ne pas avoir autant de param�tres en m�moire � mapper signifie que vous pouvez vous entra�ner simultan�ment (augmentant la taille du lot) et le r�seau de neurones convergera (estimer les calculs) plus rapidement.
Au cours du d�veloppement, ce mod�le �tait plus petit et plus rapide. SqueezeNet n'a besoin que de moins de 10 Mo de RAM, tandis que quelque chose comme Inception aura besoin de plus de 100 Mo de RAM. Cet �cart est �norme, et il est particuli�rement important car certains appareils mobiles ne disposent pas de 100 Mo de RAM. Les petits r�seaux de neurones fonctionnent �galement plus rapidement que les plus grands.

Bien s�r, puisqu'il y a des gains et des pertes :

La ��m�moire�� d'un petit syst�me nerveux ne fonctionnera pas�: il ne peut pas g�rer des t�ches complexes (comme reconna�tre 20�000�objets diff�rents), ni m�me des d�pendances complexes (comme faire la distinction entre un hot-dog � la new-yorkaise et un hot-dog � la Chicago- style hot-dog).
En corollaire, les petits r�seaux de neurones seront g�n�ralement moins pr�cis que les grands r�seaux de neurones. En essayant d'identifier les 20000 objets diff�rents d'ImageNet, SqueezeNet n'�tait pr�cis qu'� 58 %, contre 72 % pour VGG.
Il est �galement un peu plus difficile d'utiliser l'apprentissage par transfert sur de petits r�seaux de neurones. En th�orie, nous pouvons traiter SqueezeNet de la m�me mani�re que nous traitons Inception et VGG�: laissez-le d'abord oublier certaines informations, puis recyclez-le pour qu'il reconnaisse les hot-dogs et les non-hot-dogs.

Mais dans le processus de candidature proprement dit, nous avons constat� que cette m�thode rend difficile pour nous d'ajuster les progr�s d'apprentissage, et les r�sultats obtenus ne sont toujours pas aussi bons que la formation SqueezeNet � partir de z�ro. Ce probl�me peut �galement provenir de l'ouverture de notre projet (les utilisateurs prennent des photos et t�l�chargent eux-m�mes des photos).

En g�n�ral, les petits r�seaux de neurones sur-adaptent rarement, mais nous avons rencontr� ce probl�me lors de l'utilisation de plusieurs "petites" structures. Le surajustement signifie que votre r�seau de neurones est trop sp�cifique et ne peut reconna�tre que les photos de hot-dogs sur lesquelles vous l'avez form� et ne peut pas le g�n�raliser.
Utiliser l'exemple humain comme analogie, c'est comme une personne qui vient de m�moriser l'image du hot-dog que vous lui avez montr�e sans abstraire le concept pour se rendre compte qu'un hot-dog est une saucisse dans un petit pain, parfois du mat�riel assaisonn� et ainsi de suite. Si vous lui montrez une toute nouvelle photo d'un hot-dog (diff�rente de l'originale), il dira que ce n'est pas un hot-dog.
Puisqu'un petit r�seau de neurones a g�n�ralement une "m�moire" moins bonne, il n'est pas difficile de voir pourquoi il serait plus difficile pour eux de se sp�cialiser dans un �l�ment. Mais il y a eu des moments o� notre petit r�seau de neurones a atteint une pr�cision de 99�%, puis n'a soudainement pas pu reconna�tre les images qui n'�taient pas l� lors de la formation pr�c�dente.
Ce probl�me dispara�t une fois que nous avons ajout� suffisamment de jeux de donn�es. L'ensemble de donn�es ici signifie que nous apportons des modifications al�atoires appropri�es (�tirement ou d�formation) aux images import�es, donc au lieu de s'entra�ner cent fois pour chacune des milliers d'images, nous utilisons la fonction Apporter des modifications significatives au graphique afin que le r�seau de neurones ne fonctionne pas. t se contente de m�moriser l'image, mais m�morise la composition du hot-dog (pain, saucisse, assaisonnement, etc.), tout en restant flexible (au lieu de m�moriser des pixels sp�ciaux dans une certaine image).

Exemple de donn�es du blog Keras

Pendant ce temps, nous avons commenc� � essayer d'affiner la structure du r�seau neuronal. En particulier, nous avons commenc� � utiliser la nomenclature par lots et exp�riment� diff�rentes fonctions d'activation.

La normalisation par lots peut aider votre r�seau de neurones � apprendre plus rapidement en "lissant" les valeurs de la pile. La raison exacte pour laquelle la normalisation par lots a cette fonctionnalit� n'est pas enti�rement comprise, mais elle permet � votre r�seau de neurones d'atteindre une plus grande pr�cision avec moins de formation, ou d'obtenir une plus grande pr�cision en m�me temps avec la m�me quantit� de formation.
Une fonction d'activation est une fonction interne qui d�tecte si votre "neurone" est activ�. ReLU (Rectified Linear Unit) est encore utilis� dans de nombreux articles acad�miques, mais nous avons obtenu les meilleurs r�sultats avec ELU.

Apr�s avoir ajout� la normalisation par lots et l'ELU � SqueezeNet, nous avons form� un r�seau de neurones avec une pr�cision de plus de 90�% � partir de z�ro. Cependant, notre r�seau de neurones est encore relativement fragile, ce qui signifie que le m�me r�seau sera parfois surajust� et sous-ajust� lorsqu'il sera test� dans la pratique. M�me ajouter plus d'exemples � l'ensemble de donn�es et augmenter les donn�es de formation n'a pas r�pondu � nos attentes.

Ainsi, bien que cette �tape ait bien fonctionn� et cr�� une application enti�rement compatible avec l'iPhone, nous sommes pass�s � notre quatri�me et derni�re structure en un instant.

3. Structure DeepDog

depuis keras.applications.imagenet_utils importer _obtain_input_shape

de keras importer le backend en tant que K

de keras.layers importer Input, Convolution2D, SeparableConvolution2D, \

GlobalAveragePooling2d \

Dense, Activation, Normalisation par lots

� partir de keras.models importer le mod�le

depuis keras.engine.topology importer get_source_inputs

depuis keras.utils importer get_file

depuis keras.utils importer layer_utils

def DeepDog(input_tensor=Aucun, input_shape=Aucun, alpha=1, classes=1000):

input_shape = _obtain_input_shape(input_shape,

default_size=224,

taille_min=48,

data_format=K.image_data_format(),

include_top=Vrai)

si input_tensor vaut None�:

img_input = Entr�e(forme=input_shape)

autre:

sinon K.is_keras_tensor(input_tensor):

img_input = Input(tenseur=input_tensor, shape=input_shape)

autre:

img_input = input_tenseur

x = Convolution2D(int(32*alpha), (3, 3), foul�es=(2, 2), padding='same')(img_input)