Temple Yun dans le fond de la non concave

rapports Qubit | Num�ro public QbitAI

paddle Fly (de PaddlePaddle) pour fournir aux utilisateurs une technologie de pointe, facile � utiliser, en tenant compte de la r�cup�ration de la m�moire et des strat�gies d'optimisation de la m�moire r�utilisation, Max Lot propri�t�s de taille sup�rieure � cadre standard ouvert source, dans YOLOv3, Mask- Transformateur, BERT, DeepLab V3 + sur sur les performances de la m�moire mod�le RCNN avec cadre standard ouvert source pour la foire, les �tudiants int�ress�s peuvent essayer sur un ensemble de aper�u des donn�es.

Conditions d'essai Comme suit:

Version Paddle: 1.5.0
Version tensorflow: 1.12.0, 1.14.0
Version Pytorch: 1.0.1, 1.1.0
GPU: Tesla V100-SXM2
CPU: Intel (R) Xeon (R) Or 6148 CPU @ 2.40GHz, 38 noyau
conducteur NVIDA: 418,39
NCCL VERSION: 2.4.2
CUDNN VERSION: 7.4.2.24,7.5.0.56
CUDA VERSION: 9.0.176, mode mono-carte

1. Strat�gie d'allocation m�moire pagaie mouche

Parce que les appels syst�me CUDA natif cudaMalloc et cudaFree sont des op�rations synchronis�es est beaucoup de temps. Afin d'acc�l�rer la m�moire de la mouche de la strat�gie d'allocation de m�moire pr�-allou� d�taillent comme indiqu� ci-dessous:

(1) lorsque l'allocation m�moire la taille de l'requested_size, d�finir la taille d'une cellule de m�moire, d�nomm� chunk_size, chunk_size FLAGS_fraction_of_gpu_memory_to_use d�termin� par la variable d'environnement, caract�ris� en ce chunk_size partagent la m�moire, la valeur par d�faut est de 0,92, � savoir, cadre pr�-allou� graphiques 92 % de la m�moire.

Si requested_size < = Chunk_size, le cadre pool de m�moire pr�-allou� taille de bloc de chunk_size, et s�par�s des rendements de blocs requested_size la taille de segment. Apr�s chaque application sera allou�e � partir du bloc de m�moire.
Si requested_size > �chunk_size, le cadre appelle directement la taille de requested_size de distribution cudaMalloc de m�moire retourn�e.

(2) la taille de la dur�e de free_size de lib�ration de la m�moire,

Si free_size < = Chunk_size, la trame sera pr�-allou� bloc de m�moire dans le dos, au lieu de retourner directement au CUDA.
Si free_size > �chunk_size, le cadre sera un cudaFree d'appel direct l'arri�re de la m�moire � CUDA.

REMARQUE: Si la m�moire occup�e par d'autres t�ches, la proportion du morceau peut �tre ajust�e de mani�re appropri�e pour faire en sorte que le cadre peut �tre pr�-affect� au correpondante, comme il peut �tre allou� 40% de la carte m�moire peut �tre dispos� sur le GPU:

pr�-export FLAGS_fraction_of_gpu_memory_to_use = 0,4 # m�moire GPU 40%

rappeler : Chunk devrait �tre pris en compte aussi grande que possible, que si vous voulez mesurer la quantit� d'utilisation de la m�moire r�elle du r�seau, vous pouvez d�finir la comptabilisation de 0, occupation de la m�moire observ�e nvidia-smi AFFICHE.

2. palette de strat�gie d'optimisation de la m�moire Fly

En plus de pr�-allouer de la m�moire, volant offre palette une vari�t� de fins g�n�rales des m�thodes d'optimisation de la m�moire afin que l'utilisation de la m�moire sous le m�me mod�le de r�seau et la configuration aussi petite que possible, afin de soutenir la formation d'une taille de lot plus important, pour am�liorer l'efficacit� de la formation, voici les plus importants les deux m�thodes, � savoir, les politiques et les strat�gies GC (Collection de d�chets) iNPLACE

2.1 Strat�gie GC: r�cup�ration rapide des d�chets de m�moire

Principe GC (Collection de d�chets) est la lib�ration rapide de l'espace m�moire des variables inutiles dans la phase d'exploitation, pour atteindre l'objectif de la m�moire d'�conomie. GC prennent effet sur l'utilisation de l'Ex�cuteur, quand ParallelExecutor faire le mod�le de formation / pr�voir.

environnement politique GC est contr�l�e par trois variables:

(1) �FLAGS_eager_delete_tensor_gb

strat�gies GC permettent commutateur, type double, la valeur par d�faut est -1. la politique GC accumule une certaine quantit� de d�chets de m�moire apr�s la sortie de la r�unification, le contr�le FLAGS_eager_delete_tensor_gb des ordures de m�moire de seuil, l'unit� est GB. Il recommande aux utilisateurs de d�finir FLAGS_eager_delete_tensor_gb = 0.

Si FLAGS_eager_delete_tensor_gb = 0, puis une fois la m�moire est imm�diatement le recyclage des d�chets, �conomiser le plus de m�moire.
Si FLAGS_eager_delete_tensor_gb = 1, la m�moire � ordures 1G accumul�e apr�s la r�cup�ration de d�clenchement.
Si FLAGS_eager_delete_tensor_gb < 0, la politique GC ferm�e.

(2) �FLAGS_memory_fraction_of_eager_deletion

GC drapeau de strat�gie d'ajustement, de type double, la valeur par d�faut est 1, l'intervalle de , ou seulement pour une utilisation ParallelExecutor CompiledProgram + with_data_parallel occasions. GC variable interne en fonction de la taille de la m�moire occup�e par les variables dans l'ordre d�croissant, et avant la r�cup�ration que variable grande m�moire FLAGS_memory_fraction_of_eager_deletion. Il a recommand� de maintenir les valeurs par d�faut, � savoir: FLAGS_memory_fraction_of_eager_deletion = 1.

Si FLAGS_memory_fraction_of_eager_deletion = 0,6, indique que la reprise seulement 60% d'une grande utilisation de la m�moire de la variable de m�moire.
Si FLAGS_memory_fraction_of_eager_deletion = 0, cela signifie que la m�moire n'est pas r�cup�r� toute strat�gie variable GC ferm�e.
Si FLAGS_memory_fraction_of_eager_deletion = 1, il indique que la r�cup�ration de la m�moire de toutes les variables.

(3) FLAGS_fast_eager_deletion_mode

Commutateur strat�gie de GC rapide, type bool, la valeur par d�faut est vrai, exprim� � l'aide de la politique GC rapide. politique rapide de GC ne sera pas attendre la fin de la lib�ration directe de CUDA La m�moire du noyau. Il recommande aux utilisateurs de maintenir la valeur par d�faut, ce qui FLAGS_fast_eager_deletion_mode = True.

2.2 Strat�gie Inplace: Op Sortie d'entr�e interne complexe

Inplace strat�gie principe est la sortie de l'espace m�moire avec entr�e multiplex�s Op Op. Par exemple, les op�rations d'entr�e et de sortie remod�lent un m�me espace m�moire r�utilisable.

la politique INPLACE peut prendre effet ou utiliser ParallelExecutor CompiledProgram plus de with_data_parallel faire mod�le de formation et de pr�vision, par le r�glage BuildStrategy.

mani�re sp�cifique:

build_strategy = fluid.BuildStrategy () build_strategy.enable_inplace = True # strat�gie INPLACE ouverte compiled_program = fluid.CompiledProgram (train_program) .with_data_parallel (loss_name = loss.name, build_strategy = build_strategy)

En raison de certains probl�mes sur la conception actuelle, apr�s ouverture politique inplace variable doit assurer le suivi chercher pour var.persistable = True, c'est parce que quand il est ouvert de strat�gie Inplace, espace m�moire non persistable de variables peuvent �tre multiplex�es avec d'autres variables, entra�nant erreur chercher un r�sultat, afin d'�viter que le r�glage persistable variables sont multiplex�s vont chercher, pour assurer l'exactitude de la sortie.

C'est la suivante: Si vous suivez les variables doivent chercher pour la perte et acc, vous devez d�finir:

loss.persistable = True acc.persistable = True

Nous fixons activement le probl�me et un correctif dans la prochaine version, et la strat�gie de Inplace ouverte par d�faut.

3. Optimisation m�moire des meilleures pratiques (meilleures pratiques)

Nous recommandons la meilleure strat�gie d'optimisation de la m�moire sont les suivants:

(1) Piscine en m�moire pr�allou�s :

FLAGS_fraction_of_gpu_memory_to_use = 0,92

(2) politique ouverte GC, cadre :

FLAGS_eager_delete_tensor_gb = 0. FLAGS_memory_fraction_of_eager_deletion = 1 FLAGS_fast_eager_deletion_mode = True

(3) param�tre de strat�gie ouverte Inplace :

build_strategy.enable_inplace = True, en fetch_list loss.persistable = True acc.persistable = True

4. Les r�sultats de la strat�gie d'optimisation trouv�

Plus t�t, nous avons appris, la politique GC comme les principales strat�gies d'optimisation de la m�moire pour voler paddle, Inplace est une strat�gie secondaire, le mod�le peut �tre encore r�duite dans la strat�gie d'utilisation de la m�moire GC bas�e sur l'aide � augmenter encore la taille du lot maximale. En g�n�ral, l'utilisation de la strat�gie d'optimisation de la m�moire GC pour r�pondre aux besoins de la grande majorit� de votre mod�le, si vous voulez continuer � am�liorer votre taille de lot, nous vous recommandons d'ouvrir la strat�gie Inplace comme un suppl�ment.

Nous mod�le Transformer comme un exemple pour examiner l'effet pratique des strat�gies d'optimisation:

4.1. Transformer le mod�le introduit le principe de

Transformer est dans le document � L'attention est tout ce qu'il faut � pour terminer la traduction automatique propos�e (la traduction automatique, MT) et une autre s�quence � la s�quence (s�quence � la s�quence, Seq2Seq) une nouvelle t�che d'apprentissage structure du r�seau. Qui utilise �galement un codeur t�che Seq2Seq typique - structure de trame d�codeur (encodeur d�codeur), mais par rapport au cycle pr�c�dent r�seau de neurones largement utilis� (Recurrent Neural Network, RNN), en utilisant pleinement l'attention (l'attention) m�canisme pour obtenir la s�quence � la s�quence en cours de mod�lisation, l'ensemble du r�seau repr�sent� sur la figure 1.

1. Structure r�seau transformateur de la figure.

Codeur empilement d'une pluralit� de la m�me couche, chaque couche compos�e principalement de longue attention (attention Multi-t�te) et une action directe enti�rement connect� (Feed-Forward) R�seau ces deux sous-couche.

Attention, multi-t�te �Ici, pour la r�alisation ind�pendante Attention, Attention par rapport � un m�canisme simple, qui re�oit en entr�e le r�sultat du calcul sont multiples voies de conversion de l'attention, et de nouveau tous les r�sultats �pissage lin�aire transformation en tant que sortie. En se r�f�rant � la figure 2, dans lequel le produit scalaire est utilis� Attention (produit scalaire) et le processus apr�s le produit scalaire de l'�chelle afin d'�viter produit scalaire excessive entre dans la r�gion de saturation softmax.

Feed-Forward �emplacement r�seau de chaque s�quence sera le m�me calcul (-sage Position), qui est utilis� dans la transformation lin�aire RELU deux �tre activ�s structure interm�diaire.

En outre, chacun des sous-couche et couche suppl�mentaire de connexion r�siduelle soumis normalisation et le mod�le de propagation afin de faciliter la convergence du gradient.

2. Attention, multi-t�te figure.

Codeur et d�codeur ayant une structure similaire, mais par rapport � la couche de composition codeur, composition d�codeur dans la couche de plus une attention � t�tes multiples est r�alis� sous-couche d'attention de la sortie du codeur � l'autre Attention Encoder-Decoder mod�les Seq2Seq existent �galement.

4.2. Strat�gies d'optimisation de la m�moire trouv�es dans le mod�le d'effet transformateur

La mise en place du projet conform�ment au mod�le, le vrai test des r�sultats d'optimisation de la m�moire, avant et apr�s la Inplace ouverte, les changements dans l'utilisation de la m�moire et la taille des lots maximale dans le tableau suivant:

Vous pouvez le voir, la strat�gie de GC est tr�s important pour l'optimisation de la m�moire, bien que la strat�gie Inplace dans ce cas n'a pas am�lior� quantit� de m�moire, mais peut am�liorer consid�rablement la taille du lot maximale, a �galement une signification pratique.

Si vous rejoignez le groupe QQ officiel, vous rencontrerez un grand nombre d'�tudiants partageant les m�mes id�es � l'apprentissage profond, QQ groupe officiel: 432676488.

Si vous voulez en savoir plus sur le contenu pertinent plus h�lice de vol, voir les documents suivants.

T�l�charger la derni�re version de Paddle liquide v1.5, s'il vous pla�t consulter les liens suivants:

https://www.paddlepaddle.org.cn?fr=lzw3

- FIN -

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

Qubit QbitAI � manchettes sur la signature de

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

Plus rapide et plus simple | meilleures pratiques d'allocation et d'optimisation de la m�moire voler PaddlePaddle paddle

1. Strat�gie d'allocation m�moire pagaie mouche

2. palette de strat�gie d'optimisation de la m�moire Fly

3. Optimisation m�moire des meilleures pratiques (meilleures pratiques)