stagiaire h�pital Dharma Ali m�ritoires! Masque am�liorer R-CNN la pr�cision, une quantit� de la moiti� des donn�es d'entr�e sur la ligne

Treize sec � partir du fond de la non-Temple �vid�e rapports Qubit | Num�ro public QbitAI

Entrez la quantit� de donn�es est plus petite, la pr�cision du r�seau de neurones sur les t�ches de classification / segmentation d'image en profondeur au lieu promu.

Telle est l'image de l'Institut Ali Dharma a pr�sent� la nouvelle m�thode propos�e: � Fr�quence d'apprentissage de domaine � (apprentissage dans le domaine de fr�quence).

essence de base, en omettant la compression de l'image / d�compression de la quantit� de compression maximum �tape de calcul, l'utilisation directe de la caract�ristique fr�quence-domaine pour des raisons d'image, ce qui r�duit la quantit� de transfert de donn�es entre les modules dans le syst�me, ce qui am�liore les performances du syst�me.

Plus pr�cieux est rare, de sorte que les r�sultats des �tudiants adolescents - Ali main stagiaire � l'h�pital Dharma, a �t� re�u CVPR 2020.

Ils ont test� l'efficacit� de la m�thode des t�ches de classification IMAGEnet:

Lorsque les donn�es d'entr�e est la m�me, ont �t� atteints ResNet-50 et MobileNetV21,41% et 0,66% du haut-1 pr�cision am�lior�e.

M�me si seulement la moiti� de la taille des donn�es d'entr�e, haut-1-pr�cision ResNet 50 peut �tre am�lior�e encore 1%.

Non seulement la classification d'image, l'ensemble des donn�es sur l'approche COCO, seule la moiti� de la taille des donn�es d'entr�e, � domaine de fr�quences d'apprentissage � peut am�liorer les r�sultats de la segmentation d'image Masque de HE Ming Chan R-CNN.

La demande actuelle pour le d�ploiement final c�t� efficace des algorithmes d'intelligence artificielle, les donn�es d'entr�e est plus petite, mais la profondeur du r�seau de neurones de telle sorte que la pr�cision d'une approche plus d ' � apprentissage domaine de fr�quence � donne sans doute une id�e nouvelle.

Pourquoi �tudier dans le domaine de fr�quence?

Le calcul et les ressources de m�moire sont limit�es, la plupart du convolution mod�le de r�seau de neurones, ne peut accepter que l'image RVB basse r�solution (par exemple, 224x224).

Ainsi, toujours passer par un processus de compression, le cadre de base du syst�me d'analyse d'images classiques sont les suivantes.

l'image d'entr�e (In) est g�n�ralement le domaine d'espace de signal RVB, du c�t� de codage apr�s la conversion du cosinus RVB-YCbCr, transform�e discr�te (DCT), une quantification (quantification), et le codage entropique (codage entropique), � comprimer transmission de signal.

Y repr�sente la luminance, Cb, Cr repr�sente la concentration du composant bleu et rouge de d�calage.

Ce signal est transmis au c�t� d�codage, le d�codage par entropie correspondant (d�codage entropique), quantification inverse (d�quantification), inverse transform�e en cosinus discr�te (IDCT), YCbCr-�-RGB conversion Obtenez l'image reconstruite de l'image originale .

Mais un tel processus, il y aura in�vitablement une perte d'information et de pr�cision.

Pr�c�dents chercheurs ont propos� des solutions, telles que l'utilisation t�che d'apprentissage perception �troite du r�seau pour r�duire la perte d'information, mais ces r�seaux sont g�n�ralement bas�s sur une t�che sp�cifique qui n�cessite le calcul suppl�mentaire, ne favorise pas l'application pratique.

Qu'il y un moyen de filtrer le domaine des informations redondantes spatiales � la fin de d�codage pour �conomiser la bande passante de donn�es entre le moteur d'inf�rence il?

Telle est la question principale � l'apprentissage de domaine de fr�quence � h�pital Bodhidharma � r�soudre.

Ils ont propos� dans le domaine de fr�quence, � savoir, la transform�e en cosinus discr�te (DCT) le remodelage de l'image � haute r�solution, plut�t que de fournir un mod�le de r�seau neuronal convolutif dans le redimensionnement d'inf�rence de domaine spatial eux, et re-forme coefficients DCT, ainsi pour r�soudre ces probl�mes.

Cette m�thode n�cessite �galement peu de modifications du mod�le de r�seau de neurones convolutif existant, ou l'image RVB en entr�e. les chercheurs de l'Institut Bodhidharma croient qu'il peut �tre utilis� comme substitut pour le pipeline de pr�-traitement de donn�es classique.

Dans l'ensemble, � domaine de fr�quence d'apprentissage � et un conduit � partir des donn�es de pr�-traitement taille des donn�es d'entr�e composition la taille.

Enregistrer le calcul: l'apprentissage de la machine en utilisant les informations de fr�quence

Les premiers domaines d'am�lioration, est calcul Enregistrer .

La figure encore exemple ci-dessus, l'ensemble du syst�me d'analyse d'image, le moteur d'inf�rence pour supprimer la derni�re image, la pr�-compression, transmission, goulot d'�tranglement de d�compression est le bloc DCT et IDCT qui, parce que ce sont les deux transform�e conversion de matrice, tandis que l'autre le fonctionnement de base est bas�e sur le point de fonctionnement.

Si elle peut r�duire ou m�me omettre ces deux modules, apportera d'importants gains de performance pour la premi�re moiti� d'un syst�me d'analyse d'image.

C'est, l'entr�e de donn�es au r�seau de neurones, ne sera plus l'espace couleur RVB, mais l'espace couleur YCbCr.

Y canal � un exemple, la taille standard par d�faut en tant que blocs 8x8 (BLOCKSIZE) suppose que la compression de l'image. Ensuite, pour chaque bloc (bloc), DCT 64 donnera un signal, correspondant � des 64 composantes de fr�quence diff�rentes.

Si la taille de l'image originale est un W x H, alors il y aura des blocs W / 8 x H / 8-�me signal DCT de celui-ci. composante de fr�quence dans chaque bloc peut �tre compos� de la m�me position dans une dimension de W / 8 x H / caract�ristique d'image (fonction carte) 8, qui produirait 8x8 = 64 images caract�ristiques.

Cb et Cr pour le m�me canal, peuvent g�n�rer chaque caract�ristique d'image 64, un total de 64x3 = 192 Les produits de la mani�re suivante, comme indiqu� sur la Fig.

L'�tape suivante consiste � faire La taille et les caract�ristiques de la partie de taille de l'image du r�seau de neurones .

Dans ResNet-50 � titre d'exemple, la taille de l'image d'entr�e g�n�ralement admise est 224x224, apr�s une couche de convolution (stride = 2) et mis en commun, caract�ris� par le r�seau de taille figure 56x56, la taille et la fr�quence du signal produit caract�ristique constante de la Fig.

Caract�ris� en ce nom de domaine de fr�quence peut �tre 56x56. La figure 192, la totalit� ou une partie directement avant la premi�re ResNet-50 un bloc r�siduel (bloc de r�sidus), de mani�re � obtenir Modifier la 50 structure ResNet, mais obtenu � partir du domaine de fr�quence pour faire de la reconnaissance automatique d'objets , Comme le montre la figure.

Il est � noter que, comme les 8x8 TCD transformer, la taille de l'image d'entr�e r�elle est 448x448, ResNet-50 est l'entr�e standard � deux reprises .

Enregistrer la bande passante: l'importance de l'information dans le domaine fr�quentiel extrait

bande passante Enregistrer am�liorer �galement les performances de la m�thode, car certains canaux de fr�quence a un effet plus important sur la pr�cision de l'estimation.

Par cons�quent, Ne conserver que le plus canal de fr�quence importante Et les transf�rer vers le GPU / AI acc�l�rateur de raisonnement, il est possible.

Cela se fait en ajoutant m�thode de grille dans l'apprentissage de la machine, � savoir l'importance de chaque image caract�ristique.

Dans la formation, non seulement pour obtenir une image du raisonnement dans les poids du r�seau de neurones, alors que l'importance de chaque carte de fonction a �t� identifi�e.

Maintenant, vous avez un choix de canaux de fr�quences de fa�on importante. Il existe deux solutions pour r�duire la largeur de bande des donn�es d'image au module de d�codage d'image du moteur d'inf�rence, sont dynamiques (Dynamic) et un mode statique (le statique) de mode.

Le soi-disant mode dynamique, qui est, chaque composante de fr�quence s�lectionn�e par le commutateur d�termine l'image d'entr�e courante, cette m�thode peut de mani�re adaptative autre image d'entr�e � chaque inf�rence (Inference) a.

La fa�on statique, est le plus important de ces composantes de fr�quence de formation (formation).

Ce raisonnement lorsque le r�seau statique sans commutateur de s�lection ne peut pas seulement enregistrer la largeur de bande de l'image dans le module de d�codage d'image du moteur d'inf�rence, peut �galement ne pas tenir compte des composantes de fr�quence sans importance dans le codage module, calcule la quantit� d'image cod�e en r�duisant ainsi retard et une largeur de bande de transmission du r�seau.

Ils ont pr�sent� les r�sultats exp�rimentaux montrent que le mode statique, entrez le montant de la r�duction des donn�es 87,5%, le mod�le CNN peut maintenir la m�me pr�cision.

En g�n�ral, il consiste � utiliser le domaine de fr�quence comporte pour des raisons d'image d'omettre le domaine des fr�quences au domaine spatial, car la conversion est une compression d'image / d�compression de la quantit� de compression maximum �tape de calcul.

Lors de la s�lection des informations importantes dans le domaine des fr�quences, afin de r�duire davantage la quantit� de donn�es transf�r�es entre les modules dans le syst�me, ce qui am�liore les performances globales du syst�me.

Alors qu'est-ce qui se passe?

Une plus grande pr�cision, mais une quantit� r�duite de donn�es d'entr�e

Dans l'exp�rience principale Classification des images et Des exemples de segmentation - Deux tr�s repr�sentatifs des t�ches d'apprentissage de la machine.

Dans les t�ches de classification des images � l'aide IMAGEnet (ILSVRC-2012) comme un ensemble de donn�es, ResNet-50 comme mod�le CNN et MobileNetV2.

Form�s pour donner un diagramme thermodynamique d'une fr�quence de l'importance des diff�rents composants d�crits correspondant au degr� d'importance de la composante de fr�quence 192.

Comme on le voit, l'importance de l'Y (luminance), le canal Cb et Cr de la cha�ne, tandis que la composante basse fr�quence est sup�rieure � l'importance de la composante � haute fr�quence.

De cette fa�on, vous pouvez utiliser l'approche � l'apprentissage de fr�quence de domaine �, une formation pour apprendre � allouer des ressources de bande passante.

D'apr�s les r�sultats, par rapport � la valeur initiale ResNet-50, en utilisant tous les canaux de fr�quence, Top-1 une pr�cision accrue de 1,4%.

Notamment, DCT-48 et DCT-24 ont �t� choisis canaux de fr�quence 48 et 24, la taille des donn�es d'entr�e correspond � la moiti� de la ligne de base ResNet-50, respectivement.

Pour seulement la moiti� de la taille des donn�es d'entr�e est TCD-24, la pr�cision Top-1 encore augmenter d'environ 1%.

CNN alors MobileNetV2 comme mod�le de r�f�rence, en utilisant la m�me exp�rience principe, a obtenu les r�sultats suivants:

Lors de la s�lection des canaux de fr�quence 32 et 24, Top-1 augmentation des taux de pr�cision �taient 0,664% et 0,58%.

Pour la t�che de segmentation par exemple, en utilisant ensemble de donn�es COCO, en utilisant la profondeur Masque RCNN r�seau de neurones, form�s pour donner 192 composantes de fr�quence de la figure thermodynamique comme suit:

Les r�sultats exp�rimentaux montrent que, lorsque la taille des donn�es d'entr�e est �gal � (DCT-48) ou moins (DCT-24), le proc�d� est sup�rieure � la valeur de r�f�rence � base de R-RGB Masque CNN.

TCD-48, peut am�liorer la pr�cision d'environ 0,8% (37,3% � 38,1% et 34,2% � 35,0%). DCT-24, � savoir, la taille des donn�es d'entr�e est r�duit de moiti�, ce que l'on bbox AP Masque rendement en PA et une augmentation de 0,4.

COCO appliqu�e � l'ensemble de donn�es, cela est en fait divis� l'image:

Nouvelle recherche dirig�e par le stagiaire � l'h�pital Ali Dharma

Cette r�alisation, un total de six chercheurs impliqu�s, ils �taient de Dharma Ali h�pital et l'Arizona State University.

Le premier auteur du document intitul� Kai Xu L'article principal de son travail � l'Institut de technologie de l'informatique, Dharma Ali laboratoire en tant que stagiaire de recherche, il �tait titulaire d'un doctorat � l'Arizona State University.

En 2011, il est dipl�m� de l'Universit� du Shandong g�nie �lectrique et �lectronique, titulaire d'une ma�trise en 2014 de l'Universit� de science et de la technologie en 2015, est all� � l'Arizona State University � poursuivre un doctorat.

Son nom est professeur d'orientation Fengbo Ren, En 2008, il est dipl�m� de l'Universit� du Zhejiang, puis � l'Universit� de Californie � Los Angeles a re�u un dipl�me et un doctorat de ma�trise. Janvier 2015 a commenc� l'enseignement � l'Arizona State University, est �galement l'un des auteurs.

La recherche de Kai Xu a port� sur la caract�risation des aspects des images d'apprentissage et de la vid�o, d�di�e au traitement d'image / compression vid�o, la reconstruction et la compr�hension de la t�che. Depuis 2016, il a �t� � diverses conf�rences acad�miques, comme ECCV, CVPR et d'autres publi�s 11 papiers, obtenu sept brevets.

Avant Juin 2019 est entr� stage Dharma, il a �galement intern� dans les �tablissements de recherche am�ricains de Samsung. h�pital Dharma, sa recherche est un algorithme efficace pour explorer le champ de vision par ordinateur.

En plus de Kai Xu et Fengbo Ren, les quatre autres chercheurs Minghai Qin, Fei Sun, Wang et Yuyao Yen-Kuang Chen est venu d'Ali Dharma Institut d'informatique Laboratoire de la technologie, qui Yen-Kuang Chen est un Fellow de l'IEEE.

Ma grands espoirs pour ce organismes de recherche, sont progressivement �clat�rent de plus en plus d'�nergie et d'attirer plus de gens � se joindre. Kai Xu et leur projet de � l'apprentissage de domaine de fr�quence � est l'un des nouveaux repr�sentants.

Ensuite, ils effectuent des recherches but est d'essayer les m�mes syst�mes de compression vid�o font. Ils croient que la norme de compression vid�o contient pr�diction de mouvement inter-trame / compensation et pr�diction intra, les informations de domaine de fr�quence correspondant sera diff�rence relativement importante.

Ho Ming Kai destin� aux stagiaires

De plus en plus figure de � interne � est apparue � l'avant-garde de la recherche en intelligence artificielle, elle deviendra aussi la force motrice dans le d�veloppement du champ de type d'intelligence artificielle.

Tels que stagiaire battant byte Wang Xinlong (Adelaide th�sards Universit�), le concept de l'exemple de segmentation de nouvelles fa�ons SOLO, l'introduction des � exemples de la cat�gorie �, les exemples de probl�mes de segmentation en probl�me de classement dans un certain nombre d'indicateurs, la performance Masque encore plus R-CNN que Kai Ming Ho propos�.

Il y a un horizon de stagiaire Huang Zhao Jin (Universit� Huazhong des �tudiants des cycles sup�rieurs des sciences et de la technologie), elle a �t� �lev�e Masque surclasse programme R-CNN propos� par Ho Ming Kai, et CVPR 2019 inclus.

Peut-�tre vous avez d�j� d�couvert la loi d'entre eux, leur but est ce que Kai Ming Mask ont mis en avant le programme d'optimisation et � l'am�lioration correspondante R-CNN,.

D'une part, le masque R-CNN dans le domaine de la segmentation de l'image ne niveau alpin exist, mais d'autre part, qui dit qu'il n'y a pas d'hommage que cela signifie?

Peut-�tre, dans quelques ann�es, ces stagiaires appara�tront dans un autre Ho Kai Ming il ~

portail

Adresse Papers: https: //arxiv.org/pdf/2002.12416.pdf

- FIN -

Qubit QbitAI � titres sur contrat

Suivez-nous, la premi�re fois inform� l'avant-garde des d�veloppements scientifiques et technologiques

Route de la soie

Apprenez � conna�tre la Chine