Un chercheur principal de Microsoft explique le DNN efficace bas� sur la convolution de groupe entrelac�

Dingdong ~ Vous avez �t� touch� par le bien-�tre! � partir de maintenant, "2020 AI Developer Ten Thousand Conference" 299 billets sont gratuits! Acc�dez � la page d'inscription [2020 AI Developer Ten Thousand Conference (Online Live Tickets) -IT Training Live-CSDN Academy], cliquez sur "S'inscrire maintenant", utilisez le code de r�duction "AIP1410" lors du r�glement, le prix deviendra "0" yuan !

Auteur | Wang Jingdong

Finition | Aspirine

Produits | Intelligence artificielle � la une (ID public: AI_Thinker)

Les r�seaux de neurones convolutifs se sont d�velopp�s � pas de g�ant au cours des derni�res ann�es et bien que leurs effets sur des t�ches telles que la reconnaissance d'images s'am�liorent de plus en plus, la complexit� du mod�le continue d'augmenter. Les r�seaux de neurones convolutionnels plus profonds et plus complexes n�cessitent beaucoup de stockage et de ressources informatiques, donc la conception de r�seaux de neurones convolutionnels efficaces est un probl�me tr�s important et fondamental, et l'�limination de la redondance de convolution est le probl�me principal de ce probl�me. Une des solutions.

Comment �liminer la redondance de l'�limination de la convolution? Nous avons invit� le Dr Jingdong Wang, chercheur principal du Visual Computing Group du Microsoft Asia Research Institute, pour expliquer la m�thode bas�e sur la convolution de groupe entrelac�e publi�e dans ICCV 2017 et CVPR 2018.

Ce qui suit est le contenu de la classe ouverte, organis� par le camp de base de la technologie AI, et l�g�rement supprim�:

La raison du succ�s de l'apprentissage en profondeur

Un article sur �Science� en 2006 - R�duire la dimensionnalit� des donn�es avec les r�seaux de neurones, est un article tr�s important qui promeut le d�veloppement de l'apprentissage en profondeur au cours de la derni�re d�cennie. Lorsque cet article est sorti, de nombreuses personnes dans le domaine de l'apprentissage automatique pr�taient attention � ce travail, mais il n'a pas obtenu de tr�s bons r�sultats dans le domaine de la vision par ordinateur, il n'a donc pas attir� l'attention des personnes dans le domaine de la vision par ordinateur.

La m�thode d'apprentissage en profondeur a vraiment attir� l'attention dans le domaine de la vision par ordinateur en raison d'un article 2012-ImageNet Classification avec Deep Convolutional Neural Networks. Cet article a remport� le tr�s important concours ImageNet dans le domaine de la vision par ordinateur en utilisant la m�thode des r�seaux de neurones convolutionnels profonds. Les champions avant 2012 sont bas�s sur SVM (support vector machine) ou sur des m�thodes foresti�res al�atoires.

En 2012, Hinton et son �quipe ont connu un grand succ�s gr�ce � des r�seaux profonds, dans quelle mesure ce succ�s? Il sagit dune augmentation de plus dune douzaine de points de pourcentage par rapport au r�sultat de lann�e pr�c�dente, ce qui repr�sente une am�lioration tr�s impressionnante et remarquable. En raison du succ�s remport� par le concours ImageNet, le domaine de la vision par ordinateur a commenc� � accepter des m�thodes d'apprentissage en profondeur.

En comparant ces deux articles, bien que nous les appelions apprentissage en profondeur, la diff�rence est en fait assez grande. Surtout en 2012, cet article s'intitule �Deep Convolutional Neural Network�, abr�g� en �CNN�. CNN n'�tait pas nouvellement propos� dans cet article en 2012. Dans les ann�es 1990, Yann LeCun a utilis� CNN dans la reconnaissance des nombres et a obtenu un grand succ�s, mais pendant longtemps, tout le monde n'a pas utilis� CNN comme ImageNet Le jeu jusqu'� cet article. Aujourd'hui, tout le monde constate que le deep learning a domin� le domaine de la vision par ordinateur.

Pourquoi l'apprentissage en profondeur a-t-il r�ussi en 2012? En fait, en plus des m�thodes d'apprentissage en profondeur ou CNN, il y a deux choses, l'une est GPU, et l'autre est ImageNet.

Cette structure de r�seau a �t� propos�e par Hinton et ses �tudiants en 2012. En fait, cette structure de r�seau a 8 couches, il semble que ce ne soit pas si profond, mais il �tait tr�s difficile de former ce r�seau � cette �poque, il a fallu une semaine pour le former, et � ce moment-l�, d'autres ont voulu le reproduire. Le r�sultat n'est pas si simple.

Apr�s cet article, tout le monde pense que plus le r�seau de neurones est profond, meilleures seront les performances. Voici quelques emplois repr�sentatifs, passez bri�vement en revue.

Deux directions de d�veloppement de la structure du r�seau profond

approfondir

En 2014 VGG, cette structure de r�seau est tr�s simple, elle est empil�e couche par couche, et les couches sont tr�s similaires.

La m�me ann�e, Google avait une structure de r�seau appel�e "GoogLeNet". Cette structure de r�seau semble un peu plus compliqu�e que la structure de VGG. Lorsque cette structure de r�seau est apparue pour la premi�re fois, elle semblait plus compliqu�e et ressemble aujourd'hui � une structure � plusieurs succursales. Au d�but, l'opinion g�n�rale �tait que cette structure de r�seau �tait ajust�e manuellement et n'avait pas une forte promotion. Bien que GoogLeNet soit une structure de r�seau con�ue artificiellement, en fait, il y a beaucoup de choses qui m�ritent d'�tre apprises, y compris une structure multi-branche longue et courte.

En 2015, une structure de r�seau s'appelait Highway. Autoroute Cet article dit principalement que nous pouvons tr�s bien former un r�seau � 100 couches ou m�me un r�seau � 100 couches. Pourquoi peut-il tr�s bien s'entra�ner? Il existe ici un concept de flux d'informations, qui peut rapidement transmettre des informations de l'avant vers la couche arri�re via SkipConnection, et peut �galement transf�rer rapidement le gradient arri�re vers l'avant lors de la propagation arri�re. Il y a un probl�me ici, que cette connexion Skip utilise une fonction de porte, ce qui rend la difficult� de la formation r�seau profonde encore pas vraiment r�solue.

La m�me ann�e, des coll�gues de Microsoft ont invent� un r�seau appel� "ResNet". Ce r�seau est similaire � Highway dans un certain sens. O� est-il? Il utilise �galement Skip Connection pour passer directement de la sortie d'une certaine couche � la sortie de la couche suivante. Compar� � Highway, il supprime la fonction de porte car la porte n'est pas une chose particuli�rement bonne dans un r�seau tr�s profond. Gr�ce � cette conception, il peut tr�s bien former un r�seau de plus de 100 couches. Plus tard, il a �t� d�couvert que le r�seau � 1000 couches peut �galement �tre tr�s bien form� gr�ce � cette astuce, ce qui est tr�s remarquable.

En 2016, apr�s l'�mergence de GoogLeNet, Highway, ResNet, nous avons constat� qu'il �tait tr�s important d'avoir une structure multi-branches longue et courte. Par exemple, notre travail est des filets profond�ment fondus. Dans plusieurs branches, la profondeur de chaque branche est diff�rente. L'avantage de ceci est que si nous regardons cette structure sous forme de graphique, nous constatons qu'il existe plusieurs chemins de ce point d'entr�e � ce point de sortie, certains chemins sont longs et certains chemins sont courts. Dans ce sens, nous pensons qu'il y a Des chemins longs et courts peuvent entra�ner des r�seaux de neurones profonds.

La m�me ann�e, nous avons trouv� un travail similaire appel� FractalNets, qui est tr�s similaire � nos filets profond�ment fondus.

Ce chemin est � approfondir, en esp�rant former tr�s bien la structure du r�seau, afin que ses performances soient tr�s bonnes, plus Skip Connection et d'autres formes pour rendre le flux d'informations tr�s bon. Bien que nous ayons tr�s bien form� le r�seau profond via Skip Connection, la profondeur pose toujours quelques probl�mes, c'est-�-dire que la performance n'est pas bien jou�e, il y a donc une autre dimension, tout le monde esp�re devenir plus large.

De plus, les grands r�seaux rencontreront certains probl�mes dans la pratique. Par exemple, lorsqu'il est d�ploy� sur un t�l�phone mobile, on esp�re que le montant du calcul n'est pas trop grand, le mod�le n'est pas trop grand et les performances sont toujours tr�s bonnes, donc le taux de reconnaissance est tr�s �lev� mais la tr�s grande structure du r�seau rencontre quelques difficult�s dans les applications pratiques.

Plusieurs m�thodes pour simplifier la structure

Une autre fa�on consiste � simplifier la structure du r�seau et � �liminer la redondance � l'int�rieur. Parce que tout le monde pense qu'il existe une forte redondance dans la structure du r�seau de neurones profond, l'�limination de la redondance est un domaine que j'ai trouv� tr�s int�ressant de faire ces derni�res ann�es en raison de son utilisation pratique.

Op�ration de convolution

L'op�ration de convolution dans CNN correspond en fait � la multiplication des vecteurs matriciels. Ce que tout le monde fait est essentiellement d'�liminer la redondance dans la convolution.

Passons en revue la convolution. L'image � droite: Il y a plusieurs canaux dans le CNN, chaque canal est en fait un r�seau bidimensionnel, et chaque position a une valeur, que nous appelons la "valeur de r�ponse". Il contient quatre canaux, ce qui �quivaut en fait � un tableau tridimensionnel. En prenant cela (chaque position) comme centre, prenez un petit bloc de 3 � 3, 3 � 34 canaux, puis il y a tellement de valeurs de 3 � 3 � 4, puis nous tirons ces nombreuses valeurs dans un 3 � 3 � 4 = vecteur � 36 dimensions. La convolution a un noyau de convolution. Le noyau de convolution correspond � une quantit� horizontale. Lorsque cette quantit� horizontale est multipli�e par le vecteur de colonne, la valeur de r�ponse sera obtenue. Il s'agit du premier noyau de convolution. La deuxi�me valeur est obtenue par le deuxi�me noyau de convolution, et les troisi�me et quatri�me valeurs sont obtenues de mani�re similaire.

Pour r�sumer, l'op�ration de convolution consiste � multiplier la matrice et le vecteur, la matrice correspond � plusieurs noyaux de convolution et le vecteur correspond � la valeur de r�ponse (ResponseValue) des carr�s environnants.

Tout le monde sait que multiplier une matrice par un vecteur demande beaucoup de calculs. L'exemple que j'ai donn� ici n'est pas si grand, mais pensez-y. Si vous entrez et sortez 100 canaux, si le noyau de convolution est 3 � 3 � 100, il est 100 � 900. Ce calcul est tr�s grand. Large, donc la plupart du travail est concentr� sur la r�solution du probl�me de redondance dans ce (op�ration de convolution).

Noyaux de basse pr�cision (noyaux de basse pr�cision)

Existe-t-il un moyen de r�soudre le probl�me de la redondance?

�tant donn� que le noyau de convolution est g�n�ralement un nombre � virgule flottante, la complexit� de calcul du nombre � virgule flottante est un peu plus grande et prend �galement un peu plus d'espace. Quelle est l'astuce la plus simple? En supposant que le noyau de convolution devienne binaire, tel que 1, -1, voyons quels sont les avantages de la conversion de 1, -1 dans le futur? Ce vecteur 1, -1 (fait) l'op�ration de multiplication d'origine devient l'addition et la soustraction, de sorte que la quantit� de calcul est beaucoup r�duite. En outre, la quantit� de mod�les et de stockage est �galement consid�rablement r�duite.

Il existe un travail similaire similaire, qui consiste � convertir un type � virgule flottante en type entier. Par exemple, un nombre � virgule flottante 32 bits �tait auparavant un nombre entier 16 bits, la capacit� de stockage sera �galement petite ou le mod�le sera petit. En plus de la binarisation ou de l'int�grisation du noyau de convolution, vous pouvez �galement transformer Response en un nombre binaire ou un entier.

Il existe un autre type de recherche plus quantitatif. Par exemple, en regroupant cette matrice, telle que 2.91, 3.06 et 3.21, dans une classe, quel avantage utiliser 3 au lieu de quantifier? Tout d'abord, votre capacit� de stockage est r�duite, vous n'avez pas besoin de stocker la valeur d'origine, il vous suffit de stocker la valeur d'index de chaque centre apr�s quantification. De plus, la quantit� de calcul est �galement r�duite, vous pouvez trouver un moyen de r�duire le nombre de multiplications, de sorte que la taille du mod�le sera r�duite.

Grains de bas rang

Une autre fa�on, que faire si la matrice est grande? Rendre la matrice plus petite, tant de gens ont fait cette chose, 100 canaux (de sortie), je l'ai chang� en 50, c'est une astuce. Une autre astuce est qu'il y a beaucoup d'entr�es, 100 canaux et 50 canaux.

Combinaison de noyaux de convolution de bas rang

La r�duction des canaux r�duira-t-elle les performances? Alors quelqu'un a fait ceci: multipliez cette matrice en deux petites matrices. Si cette matrice est 100 � 100, je vais la multiplier en deux matrices de 100 � 10 et 10 � 100, (multipliez La matrice r�sultante) devient �galement une matrice 100 � 100, qui se rapproche de la matrice 100 � 100 d'origine. Pensez-y de cette fa�on, 100 � 100 devient 100 � 10 et 10 � 100, �videmment le mod�le devient plus petit et devient un cinqui�me. De plus, le montant du calcul est r�duit � un cinqui�me.

Noyau de convolution �parse

Une autre fa�on, comment multiplier la matrice et le vecteur plus rapidement et les param�tres du mod�le est moindre? Vous pouvez changer certains des nombres en 0, par exemple, 2,91 devient 0, 3,06 devient 0 et devient 0. Apr�s �tre devenu 0, il devient une matrice clairsem�e. La capacit� de stockage de cette matrice clairsem�e deviendra plus petite. Petit, car il n'est pas n�cessaire de multiplier directement 0. Il existe �galement une structure clairsem�e (structur�e clairsem�e), telle que cette forme diagonale, la matrice est multipli�e par un vecteur, qui peut tr�s bien �tre optimis�. Structur� clairsem� ici correspond � la convolution de groupe dont je parlerai plus tard.

Combinaison de noyaux de convolution clairsem�s

Voyons si cette matrice peut �tre approch�e en multipliant plusieurs matrices clairsem�es. C'est le sujet dont je veux parler aujourd'hui. Notre travail avance �galement sur ce point. Avant de prendre cette direction, nous ne savions pas qu'une matrice peut �tre multipli�e par deux matrices �parses ou m�me plusieurs matrices �parses pour atteindre l'objectif d'un petit mod�le et d'une petite quantit� de calcul.

De IGCV1 � IGCV3

IGCV1

Tout d'abord, permettez-moi de vous pr�senter notre article lors de la conf�rence ICCV 2017 de l'ann�e derni�re, la m�thode de convolution de groupe entrelac�e.

Il y a six canaux dans cette convolution, et six petits carr�s (canaux) sortent par la convolution. Si la taille du noyau spatial est de 5 � 5, pour chaque position, son calcul est de 6 � 5 � 5 � 6.

Je viens de mentionner une forme (structur�e) clairsem�e, qui correspond � la forme de convolution de groupe. J'ai divis� ces 6 canaux en 3 canaux sup�rieurs et les 3 canaux inf�rieurs, et les ai convolu�s s�par�ment.Apr�s avoir termin�, je les ai assembl�s et j'ai finalement obtenu 6 canaux. En ce qui concerne le montant du calcul, ce qui pr�c�de est de 3 � 5 � 5 � 3, et le suivant est �galement le m�me. Toute la complexit� du calcul est la moiti� de celle du 6 � 5 � 5 � 6 pr�c�dent, mais le probl�me est que l'utilisation des param�tres peut ne pas �tre suffisante.

�Notre travail est bas� sur la convolution de groupe. Je viens de mentionner que les trois canaux ci-dessus ne sont pas li�s � ces trois canaux. Y a-t-il un moyen de les relier? Nous avons donc introduit un deuxi�me groupe de convolutions, nous avons r�organis� les 6 canaux, 1, 4 sont plac�s ici (premi�re branche), 2, 5 sont plac�s ici (deuxi�me branche), 3 , 6 y est plac� (la troisi�me branche), de sorte que chaque branche effectue � nouveau une convolution 1 � 1, r�sultant en deux nouveaux canaux, deux canaux, deux canaux, ensemble. Par entrelacement, nous esp�rons que chaque canal de sortie (canal vert ou canal bleu) est connect� aux 6 premiers canaux.

quel est l'avantage? Gr�ce � la convolution de groupe du deuxi�me groupe, des conditions compl�mentaires peuvent �tre atteintes ou n'importe quelle sortie (canal de sortie) peut �tre connect�e � n'importe quelle entr�e (canal d'entr�e).

Ici, nous introduisons une condition compl�mentaire stricte: intuitivement, s'il y a deux canaux dans le premier groupe de convolutions, ils tombent dans la m�me branche, et j'esp�re tomber dans des branches diff�rentes dans le deuxi�me groupe. (Branche). Plusieurs canaux du deuxi�me groupe, comme une branche, doivent provenir de toutes les branches de la convolution du premier groupe, ce qui est appel� une condition compl�mentaire. Qu'apporte cette condition compl�mentaire? Il am�nera (existe entre n'importe quelle paire de canaux d'entr�e et de sortie) un chemin, ce qui signifie que la matrice de multiplication est une matrice dense. Pourquoi est-il appel� "strict"? Autrement dit, il existe un chemin entre n'importe quelle entr�e et sortie, et il n'y a qu'un seul chemin.

Apr�s l'introduction de crit�res stricts, la quantit� de param�tres devient plus petite et le mod�le devient plus petit. Quels avantages apporte-t-il? Ici, je donne une conclusion, L est le nombre de partitions ou de branches dans le (premier) groupe de convolution, M est le nombre de convolutions de convolution dans le deuxi�me groupe, et S est la taille du noyau de convolution, Habituellement sup�rieur � 1. Une telle in�galit� est presque toujours �tablie. Que signifie cette in�galit�? La conclusion est: si on la compare � la convolution standard standard, nous pouvons �largir le r�seau par notre m�thode de conception. Par rapport � l'approfondissement du r�seau, l'�largissement du r�seau est une autre dimension. Quels sont les avantages de l'�largissement? Cela am�liorera-t-il les r�sultats? Nous avons fait quelques exp�riences.

Cette exp�rience est compar�e � la convolution standard. Regardons le tableau dans le coin inf�rieur gauche. Ce tableau est la quantit� de param�tres. Le r�seau que nous avons con�u repr�sente presque la moiti� de la quantit� de param�tres standard (convolution). Regardez ensuite le r�seau dans le coin inf�rieur droit, notre calcul est presque la moiti�. Dans l'ensemble de donn�es de classification d'images standard CIFAR-10 (tableau ci-dessus), nos r�sultats sont meilleurs que les pr�c�dents. Nous pouvons m�me constater que plus la profondeur est meilleure, une certaine am�lioration au niveau 20 n'est pas si �vidente, mais lorsqu'elle est profonde, elle peut atteindre une augmentation de 1,43.

Plus tard, nous avons fait la m�me exp�rience pour CIFRA-100, et avons constat� que notre am�lioration est toujours coh�rente, et m�me plus grande que la pr�c�dente, car il est un peu plus difficile de la diviser en 100 cat�gories que 10 cat�gories, indiquant que les t�ches les plus difficiles, nos avantages Le plus �vident. Une fois cela �largi (les performances) s'am�liorent. Avec IGC, l'�largissement de la structure du r�seau apporte des avantages.

Ce sont deux petits ensembles de donn�es. En fait, dans le domaine de la vision par ordinateur, les r�sultats sur de petits ensembles de donn�es ne peuvent pas (compl�tement) expliquer le probl�me, et de tr�s grands ensembles de donn�es doivent �tre effectu�s. Nous avons donc �galement cr�� le jeu de donn�es ImageNet � ce moment-l�. Par rapport � ResNet, la quantit� de param�tres a �t� r�duite de pr�s des deux cinqui�mes, la quantit� de calcul a �t� r�duite de pr�s de moiti� et le taux d'erreur a �galement �t� r�duit. Cela prouve que la mise en uvre d'IGC modifie le mod�le. Large, avec de tr�s bons r�sultats sur les grands mod�les de r�seau.

Nous avons commenc� � faire cela en ao�t et septembre de l'ann�e pr�c�dente. En octobre, nous avons constat� que Google avait un travail appel� Xception. Voici son diagramme de structure. Ce formulaire est tr�s proche (notre structure). Il est tr�s similaire � la soi-disant structure IGC. En fait, c'est un cas particulier de nous. � ce moment-l�, nous pensions que ce cas sp�cial pourrait avoir le meilleur r�sultat, nous avons donc fait quelques v�rifications et, dans l'ensemble, nous avons une meilleure structure.

Il peut y avoir des variations d'IGC. Par exemple, si je transforme ce canal en convolution de groupe, le second est 1 � 1, que se passera-t-il ainsi? Nous avons fait des exp�riences similaires et avons toujours trouv� que notre m�thode �tait la meilleure.

Lorsque nous l'avons fait � l'�poque, nous esp�rions le comparer avec la m�thode de pointe sur la structure du r�seau. Nous avons obtenu de tr�s bons r�sultats. � l'�poque, notre travail consistait � am�liorer les performances ou la pr�cision du mod�le en �liminant la redondance.

IGCV2

�Plus tard, nous avons essay� d'utiliser les avantages de l'�limination de la redondance pour d�ployer ce mod�le sur les t�l�phones mobiles. L'ann�e derni�re, nous avons continu� d'avancer dans cette direction pour mieux comprendre cette question et esp�rons �liminer davantage les redondances.

C'est plus simple ou plus simple. La structure de r�seau pr�c�dente est obtenue par convolution de deux groupes ou multiplication de deux matrices. Y a-t-il un moyen de devenir un peu plus? C'est en fait tr�s simple, comme le montre l'image ci-dessus.

Les avantages apport�s par cette m�thode sont tr�s simples, c'est-�-dire que vous voulez que la quantit� de param�tre soit aussi petite que possible, alors comment pouvez-vous rendre la quantit� de param�tre aussi petite que possible? Nous avons introduit les conditions dites d'�quilibre. Bien que nous ayons ici des convolutions de groupe L-11 � 1, y a-t-il une diff�rence entre les convolutions de groupe L-11 � 1? Qui est le plus important et qui ne l'est pas? En fait, nous ne savons pas. Je ne sais pas quoi faire? Faites comme �a. Apr�s la m�me chose, nous obtiendrons les r�sultats math�matiques ci-dessus gr�ce � une d�rivation math�matique simple.

V�rifions-le � nouveau. Les conditions de compl�mentarit� et d'�quilibre ont �t� discut�es plus haut. Est-ce le meilleur r�sultat? Ou y a-t-il un avantage suffisant? Nous avons fait quelques exp�riences, les rouges correspondent � celles qui satisfont nos conditions et nous avons trouv� que le r�sultat (L = 4) est le meilleur dans ce cas. En fait, est-ce toujours le meilleur? Pas n�cessairement, car le probl�me r�el est encore un peu loin de l'analyse th�orique. Mais nous avons g�n�ralement constat� que les rouges ne sont pas les meilleurs et �galement class�s au deuxi�me rang, ce qui indique que cette conception nous donne au moins de bonnes directives pour aider � concevoir la structure du r�seau. Bien que ce ne soit pas toujours le meilleur, il est similaire au meilleur.

La deuxi�me question, combien de convolutions de groupe devrions-nous concevoir (combien de L est fix�)? De m�me, notre crit�re est �galement analys� par la quantit� minimale de param�tres. Dans le pass�, deux groupes de convolutions �taient utilis�s. Nous pouvons obtenir une quantit� de param�tres plus petite de 3 ou 4, mais en fait, la conclusion finale a r�v�l� qu'il ne s'agit pas de la quantit� optimale de param�tres. La prochaine performance est la meilleure.

IGCV3

Plus tard, nous avons constat� que si des conditions compl�mentaires strictes sont respect�es, la structure du mod�le devient tr�s clairsem�e et tr�s large, et le r�sultat peut ne pas �tre le meilleur. Nous sommes donc devenus Loose. Que signifie Loose? Auparavant, il n'y avait qu'un seul chemin entre la sortie (canal de sortie) et l'entr�e (canal d'entr�e). Nous l'avons modifi� tr�s simplement. Pouvons-nous avoir plusieurs chemins? Les chemins multiples ne sont pas si clairsem�s, son avantage est que chaque sortie (canal de sortie) peut obtenir des informations de l'entr�e (canal d'entr�e) dans plusieurs chemins, nous avons donc con�u la condition Loose.

En fait, c'est tr�s simple, nous d�finissons deux super-canaux (super-canaux) qui ne peuvent appara�tre que dans une seule branche en m�me temps, ne peuvent pas appara�tre dans deux branches en m�me temps, pour atteindre la condition Loose.

Plus tard, nous sommes all�s plus loin et avons regroup� des structures clairsem�es et de faible rang. Nous comparons sur ImageNet, et comparons avec MobileV2 en m�me temps, notre avantage est de plus en plus �vident dans le petit mod�le. Pour les r�sultats de comparaison, voir la figure ci-dessous.

C'est le contenu principal d'aujourd'hui. J'ai fait ce travail avec de nombreux �tudiants et coll�gues. Les cinq premiers sont mes �tudiants. Ting Zhang travaille maintenant au Microsoft Research Institute. Bin Xiao est mon coll�gue. Guojun Qi est am�ricain. Professeur, nous avons collabor� � cet article ensemble.

Route de la soie

Apprenez � conna�tre la Chine

Un chercheur principal de Microsoft explique le DNN efficace bas� sur la convolution de groupe entrelac� | Million People Learning AI