Google et Nvidia ont uni leurs forces pour apporter une version optimis�e tensorflow 1.7

Lei Feng r�seau de presse AI Yanxishe, il y a quelques jours, Google et NVIDIA annonce la NVIDIA TensorRT int�gr� dans tensorflow 1.7. Dans Google blog des d�veloppeurs, apr�s avoir introduit la performance de la coop�ration et l'int�gration des informations d�taill�es, Lei Feng r�seau compil� AI Yanxishe r�sum�es comme suit:

TensorRT est un apprentissage en profondeur peut �tre utilis� pour optimiser le mod�le de raisonnement, et cr�er une biblioth�que pour l'environnement d'exploitation de l'environnement de production de GPU. Il est optimis� tensorflow FP16 virgule flottante et entier INT8, et peut choisir automatiquement le noyau pour une plate-forme sp�cifique afin de maximiser le d�bit et r�duire le d�lai maximum pendant le raisonnement du GPU. Le nouveau flux de travail int�gr� simplifie les �tapes pour utiliser TensorRT dans tensorflow tout en tensorflow a atteint un niveau de classe mondiale de performance.

Test� sur le noyau Volta NVIDIA Tensor, le TensorRT int�gr� tensorflow ex�cut� rapport ResNet-50 ne soit pas int�gr� vitesse d'ex�cution TensorRT tensorflow a augment� de 8 fois.

Optimisation de la figure tensorflow sous-processus

Dans le tensorflow 1,7, TensorRT �tre utilis� pour optimiser la sous-vue et tensorflow ex�cuter la partie restante non optimis�e. Cette approche permet aux d�veloppeurs de non seulement �tre en mesure d'utiliser de nombreuses fonctionnalit�s tensorflow pour construire rapidement des mod�les, mais peut aussi utiliser l'acc�s TensorRT aux capacit�s d'optimisation puissants dans la mise en uvre du raisonnement. Si vous avez essay� d'utiliser TensorRT avant que le mod�le de tensorflow, vous devez savoir que pour utiliser une couche tensorflow non pris en charge, vous devez importer manuellement, dans certains cas, peut prendre beaucoup de temps.

Du point de vue des flux de travail, les d�veloppeurs peuvent utiliser pour optimiser chaque sous TensorRT tensorflow de la figure.

Dans le processus d'inf�rence, tensorflow premi�re mise en uvre de la carte tous les domaines de soutien, apr�s avoir appel� TensorRT pour ex�cuter ces noeuds par optimis�s TensorRT. Par exemple, si vous �tes sur la figure, comprenant A, B, C trois sections, dans lequel le bloc B est optimis�e TensorRT, B est remplac�e par un noeud. Ensuite, le processus de raisonnement, tensorflow la premi�re mise en uvre de A, apr�s avoir appel� TensorRT ex�cution B, C. derni�re ex�cution tensorflow

Cela permet d'optimiser l'tensorflow API TensorRT nouvellement ajout�e pour geler l'image tensorflow montre l'entr�e, est optimis� pour le sous-graphe, et enfin optimis� raisonnement sous-graphe envoy� tensorflow avant.

Voici un exemple extrait de code:

# La m�moire de r�serve pour le moteur d'inf�rence TensorRT

gpu_options = tf.GPUOptions (per_process_gpu_memory_fraction = number_between_0_and_1)

...

trt_graph = trt.create_inference_graph (

input_graph_def = frozen_graph_def,

sorties = output_node_name,

max_batch_size = batch_size,

max_workspace_size_bytes = workspace_size,

precision_mode = pr�cision) # Get Optimized graphique

Ce param�tre d�finit le rapport per_process_gpu_memory_fraction tensorflow permis m�moire GPU, la m�moire restante est allou�e � TensorRT. Ce param�tre doit �tre mis en place lorsque le processus tensorflow-TensorRT a commenc�. Par exemple, per_process_gpu_fraction = 0,67, puis 67% est affect�e � la tensorflow de m�moire, les 33% restant est affect� � moteur TensorRT.

Create_inference_graph fonction de cong�lation en direct tensorflow figure comme entr�e et retourne un TensorRT de noeud optimis�e gr�ce � la Fig. Nous examinons les param�tres de cette fonction:

Input_graph_def: live gel carte tensorflow
Sorties: liste de noms noeud cha�ne de sortie, tels que:
Max_batch_size: nombre entier, l'entr�e de la taille du lot, par exemple, 16
Max_workspace_size_bytes: nombre entier, peut �tre affect� � TensorRT maximale taille de la m�moire GPU
Precision_mode: string, valeur facultative "FP32", "FP16", "INT8"

Par exemple, si le GPU dispose d'une m�moire de 12 Go, vous voulez moteur TensorRT alloue 4 Go de m�moire, vous devez d�finir per_process_gpu_memory_fraction � (12-4) /12=0.67,max_workspace_size_bytes=4,000,000,000.

Essayons de nouvelles applications de l'API sur ResNet-50, jetez un oeil au mod�le optimis� dans les regards TensorBoard est quoi. L'image de gauche est optimis�e sans TensorRT ResNet-50, le c�t� droit est optimis�e. Dans ce cadre, la plus optimis�e figure TensorRT, et remplac� par un noeud unique (partie a mis en �vidence la figure).

Apr�s INT8 raisonnement l'optimisation des performances

TensorRT compatible avec simple pr�cision (FP32) et demi-pr�cision (FP16) mod�le form� (qui peut �tre quantifi�e comme INT8), tout en r�duisant la pr�cision des r�sultats de la pr�cision a diminu� aussi bas que possible. mod�le INT8 capable de calculer plus rapidement, alors que la demande de bande passante sera r�duite, mais parce que la gamme dynamique disponible est r�duite, ce qui est juste sur les poids du r�seau de neurones et des moyens actifs pr�sente un grand d�fi.

Pour r�soudre ce probl�me, TensorRT � l'aide d'un processus d'�talonnage, afin de minimiser la perte d'informations FP32 approxim�e au r�seau lorsque la repr�sentation enti�re 8 bits. Apr�s optimisation � l'aide TensorRT figure tensorflow, la commande suivante peut �tre transmise � TensorRT �talonnage figure, comme suit:

trt_graph = trt.calib_graph_to_infer_graph (calibGraph)

En plus du r�seau inf�rence processus n'a pas chang�. La sortie de cette �tape est un diagramme de gel peut �tre ex�cut� tensorflow.

Tenseur automatiquement noyau sur GPU NVIDIA Volta

mod�le d'inf�rence de tensorflow demi-pr�cision par Tensor TensorRT sur le noyau GPU NVIDIA Volta, il est possible de fournir huit fois la pr�cision du mod�le par rapport � un seul d�bit. Par rapport � la plus pr�cise FP32 ou FP64, les donn�es de demi-pr�cision (FP16) peut r�duire la quantit� de m�moire du r�seau de neurones, ce qui permet aux d�veloppeurs de d�ployer plus grande et l'apprentissage du r�seau de neurones, et par rapport � FP32 et FP64 FP16 plus moins de temps de transmission.

Si chaque ex�cution noyau Tensor est D = A * B + C, o� A et B sont des demi-pr�cision 4 * 4 matrice, D, et C est une simple pr�cision ou demi-pr�cision 4 * 4 matrice, puis le cas V100 de base Tensor le rendement de cr�te est une double pr�cision (FP64) 10 fois le rendement de simple pr�cision (FP32) 4 performances fois.

Google a publi� un tensorflow 1.7, nous travaillerons plus �troitement avec NVIDIA. Nous esp�rons que cette nouvelle solution peut atteindre tout en offrant les meilleures performances, en gardant la facilit� de tensorflow d'utilisation et flexibilit�. Avec TensorRT soutenir un nombre croissant de structure du r�seau, tant que vous mettez � jour, vous pouvez profiter de ces avantages sans avoir � r��crire le code.

Vous pouvez utiliser le pip installation standard mises � jour de tensorflow 1.7:

pip installer tensorflow-gpu r1.7

instructions d'installation d�taill�es sont disponibles sur:

https://github.com/tensorflow/tensorflow/tree/r1.7/tensorflow/contrib/tensorrt

via: Google D�velopper Blog

Lei Feng r�seau de compilateur de finition AI Yanxishe.

Route de la soie

Apprenez � conna�tre la Chine

Google et Nvidia ont uni leurs forces pour apporter une version optimis�e tensorflow 1.7