stagiaire hôpital Dharma Ali méritoires! Masque améliorer R-CNN la précision, une quantité de la moitié des données d'entrée sur la ligne

Treize sec à partir du fond de la non-Temple évidée rapports Qubit | Numéro public QbitAI

Entrez la quantité de données est plus petite, la précision du réseau de neurones sur les tâches de classification / segmentation d'image en profondeur au lieu promu.

Telle est l'image de l'Institut Ali Dharma a présenté la nouvelle méthode proposée: « Fréquence d'apprentissage de domaine » (apprentissage dans le domaine de fréquence).

essence de base, en omettant la compression de l'image / décompression de la quantité de compression maximum étape de calcul, l'utilisation directe de la caractéristique fréquence-domaine pour des raisons d'image, ce qui réduit la quantité de transfert de données entre les modules dans le système, ce qui améliore les performances du système.

Plus précieux est rare, de sorte que les résultats des étudiants adolescents - Ali main stagiaire à l'hôpital Dharma, a été reçu CVPR 2020.

Ils ont testé l'efficacité de la méthode des tâches de classification IMAGEnet:

Lorsque les données d'entrée est la même, ont été atteints ResNet-50 et MobileNetV21,41% et 0,66% du haut-1 précision améliorée.

Même si seulement la moitié de la taille des données d'entrée, haut-1-précision ResNet 50 peut être améliorée encore 1%.

Non seulement la classification d'image, l'ensemble des données sur l'approche COCO, seule la moitié de la taille des données d'entrée, « domaine de fréquences d'apprentissage » peut améliorer les résultats de la segmentation d'image Masque de HE Ming Chan R-CNN.

La demande actuelle pour le déploiement final côté efficace des algorithmes d'intelligence artificielle, les données d'entrée est plus petite, mais la profondeur du réseau de neurones de telle sorte que la précision d'une approche plus d ' « apprentissage domaine de fréquence » donne sans doute une idée nouvelle.

Pourquoi étudier dans le domaine de fréquence?

Le calcul et les ressources de mémoire sont limitées, la plupart du convolution modèle de réseau de neurones, ne peut accepter que l'image RVB basse résolution (par exemple, 224x224).

Ainsi, toujours passer par un processus de compression, le cadre de base du système d'analyse d'images classiques sont les suivantes.

l'image d'entrée (In) est généralement le domaine d'espace de signal RVB, du côté de codage après la conversion du cosinus RVB-YCbCr, transformée discrète (DCT), une quantification (quantification), et le codage entropique (codage entropique), à comprimer transmission de signal.

Y représente la luminance, Cb, Cr représente la concentration du composant bleu et rouge de décalage.

Ce signal est transmis au côté décodage, le décodage par entropie correspondant (décodage entropique), quantification inverse (déquantification), inverse transformée en cosinus discrète (IDCT), YCbCr-à-RGB conversion Obtenez l'image reconstruite de l'image originale .

Mais un tel processus, il y aura inévitablement une perte d'information et de précision.

Précédents chercheurs ont proposé des solutions, telles que l'utilisation tâche d'apprentissage perception étroite du réseau pour réduire la perte d'information, mais ces réseaux sont généralement basés sur une tâche spécifique qui nécessite le calcul supplémentaire, ne favorise pas l'application pratique.

Qu'il y un moyen de filtrer le domaine des informations redondantes spatiales à la fin de décodage pour économiser la bande passante de données entre le moteur d'inférence il?

Telle est la question principale « l'apprentissage de domaine de fréquence » hôpital Bodhidharma à résoudre.

Ils ont proposé dans le domaine de fréquence, à savoir, la transformée en cosinus discrète (DCT) le remodelage de l'image à haute résolution, plutôt que de fournir un modèle de réseau neuronal convolutif dans le redimensionnement d'inférence de domaine spatial eux, et re-forme coefficients DCT, ainsi pour résoudre ces problèmes.

Cette méthode nécessite également peu de modifications du modèle de réseau de neurones convolutif existant, ou l'image RVB en entrée. les chercheurs de l'Institut Bodhidharma croient qu'il peut être utilisé comme substitut pour le pipeline de pré-traitement de données classique.

Dans l'ensemble, « domaine de fréquence d'apprentissage » et un conduit à partir des données de pré-traitement taille des données d'entrée composition la taille.

Enregistrer le calcul: l'apprentissage de la machine en utilisant les informations de fréquence

Les premiers domaines d'amélioration, est calcul Enregistrer .

La figure encore exemple ci-dessus, l'ensemble du système d'analyse d'image, le moteur d'inférence pour supprimer la dernière image, la pré-compression, transmission, goulot d'étranglement de décompression est le bloc DCT et IDCT qui, parce que ce sont les deux transformée conversion de matrice, tandis que l'autre le fonctionnement de base est basée sur le point de fonctionnement.

Si elle peut réduire ou même omettre ces deux modules, apportera d'importants gains de performance pour la première moitié d'un système d'analyse d'image.

C'est, l'entrée de données au réseau de neurones, ne sera plus l'espace couleur RVB, mais l'espace couleur YCbCr.

Y canal à un exemple, la taille standard par défaut en tant que blocs 8x8 (BLOCKSIZE) suppose que la compression de l'image. Ensuite, pour chaque bloc (bloc), DCT 64 donnera un signal, correspondant à des 64 composantes de fréquence différentes.

Si la taille de l'image originale est un W x H, alors il y aura des blocs W / 8 x H / 8-ème signal DCT de celui-ci. composante de fréquence dans chaque bloc peut être composé de la même position dans une dimension de W / 8 x H / caractéristique d'image (fonction carte) 8, qui produirait 8x8 = 64 images caractéristiques.

Cb et Cr pour le même canal, peuvent générer chaque caractéristique d'image 64, un total de 64x3 = 192 Les produits de la manière suivante, comme indiqué sur la Fig.

L'étape suivante consiste à faire La taille et les caractéristiques de la partie de taille de l'image du réseau de neurones .

Dans ResNet-50 à titre d'exemple, la taille de l'image d'entrée généralement admise est 224x224, après une couche de convolution (stride = 2) et mis en commun, caractérisé par le réseau de taille figure 56x56, la taille et la fréquence du signal produit caractéristique constante de la Fig.

Caractérisé en ce nom de domaine de fréquence peut être 56x56. La figure 192, la totalité ou une partie directement avant la première ResNet-50 un bloc résiduel (bloc de résidus), de manière à obtenir Modifier la 50 structure ResNet, mais obtenu à partir du domaine de fréquence pour faire de la reconnaissance automatique d'objets , Comme le montre la figure.

Il est à noter que, comme les 8x8 TCD transformer, la taille de l'image d'entrée réelle est 448x448, ResNet-50 est l'entrée standard à deux reprises .

Enregistrer la bande passante: l'importance de l'information dans le domaine fréquentiel extrait

bande passante Enregistrer améliorer également les performances de la méthode, car certains canaux de fréquence a un effet plus important sur la précision de l'estimation.

Par conséquent, Ne conserver que le plus canal de fréquence importante Et les transférer vers le GPU / AI accélérateur de raisonnement, il est possible.

Cela se fait en ajoutant méthode de grille dans l'apprentissage de la machine, à savoir l'importance de chaque image caractéristique.

Dans la formation, non seulement pour obtenir une image du raisonnement dans les poids du réseau de neurones, alors que l'importance de chaque carte de fonction a été identifiée.

Maintenant, vous avez un choix de canaux de fréquences de façon importante. Il existe deux solutions pour réduire la largeur de bande des données d'image au module de décodage d'image du moteur d'inférence, sont dynamiques (Dynamic) et un mode statique (le statique) de mode.

Le soi-disant mode dynamique, qui est, chaque composante de fréquence sélectionnée par le commutateur détermine l'image d'entrée courante, cette méthode peut de manière adaptative autre image d'entrée à chaque inférence (Inference) a.

La façon statique, est le plus important de ces composantes de fréquence de formation (formation).

Ce raisonnement lorsque le réseau statique sans commutateur de sélection ne peut pas seulement enregistrer la largeur de bande de l'image dans le module de décodage d'image du moteur d'inférence, peut également ne pas tenir compte des composantes de fréquence sans importance dans le codage module, calcule la quantité d'image codée en réduisant ainsi retard et une largeur de bande de transmission du réseau.

Ils ont présenté les résultats expérimentaux montrent que le mode statique, entrez le montant de la réduction des données 87,5%, le modèle CNN peut maintenir la même précision.

En général, il consiste à utiliser le domaine de fréquence comporte pour des raisons d'image d'omettre le domaine des fréquences au domaine spatial, car la conversion est une compression d'image / décompression de la quantité de compression maximum étape de calcul.

Lors de la sélection des informations importantes dans le domaine des fréquences, afin de réduire davantage la quantité de données transférées entre les modules dans le système, ce qui améliore les performances globales du système.

Alors qu'est-ce qui se passe?

Une plus grande précision, mais une quantité réduite de données d'entrée

Dans l'expérience principale Classification des images et Des exemples de segmentation - Deux très représentatifs des tâches d'apprentissage de la machine.

Dans les tâches de classification des images à l'aide IMAGEnet (ILSVRC-2012) comme un ensemble de données, ResNet-50 comme modèle CNN et MobileNetV2.

Formés pour donner un diagramme thermodynamique d'une fréquence de l'importance des différents composants décrits correspondant au degré d'importance de la composante de fréquence 192.

Comme on le voit, l'importance de l'Y (luminance), le canal Cb et Cr de la chaîne, tandis que la composante basse fréquence est supérieure à l'importance de la composante à haute fréquence.

De cette façon, vous pouvez utiliser l'approche « l'apprentissage de fréquence de domaine », une formation pour apprendre à allouer des ressources de bande passante.

D'après les résultats, par rapport à la valeur initiale ResNet-50, en utilisant tous les canaux de fréquence, Top-1 une précision accrue de 1,4%.

Notamment, DCT-48 et DCT-24 ont été choisis canaux de fréquence 48 et 24, la taille des données d'entrée correspond à la moitié de la ligne de base ResNet-50, respectivement.

Pour seulement la moitié de la taille des données d'entrée est TCD-24, la précision Top-1 encore augmenter d'environ 1%.

CNN alors MobileNetV2 comme modèle de référence, en utilisant la même expérience principe, a obtenu les résultats suivants:

Lors de la sélection des canaux de fréquence 32 et 24, Top-1 augmentation des taux de précision étaient 0,664% et 0,58%.

Pour la tâche de segmentation par exemple, en utilisant ensemble de données COCO, en utilisant la profondeur Masque RCNN réseau de neurones, formés pour donner 192 composantes de fréquence de la figure thermodynamique comme suit:

Les résultats expérimentaux montrent que, lorsque la taille des données d'entrée est égal à (DCT-48) ou moins (DCT-24), le procédé est supérieure à la valeur de référence à base de R-RGB Masque CNN.

TCD-48, peut améliorer la précision d'environ 0,8% (37,3% à 38,1% et 34,2% à 35,0%). DCT-24, à savoir, la taille des données d'entrée est réduit de moitié, ce que l'on bbox AP Masque rendement en PA et une augmentation de 0,4.

COCO appliquée à l'ensemble de données, cela est en fait divisé l'image:

Nouvelle recherche dirigée par le stagiaire à l'hôpital Ali Dharma

Cette réalisation, un total de six chercheurs impliqués, ils étaient de Dharma Ali hôpital et l'Arizona State University.

Le premier auteur du document intitulé Kai Xu L'article principal de son travail à l'Institut de technologie de l'informatique, Dharma Ali laboratoire en tant que stagiaire de recherche, il était titulaire d'un doctorat à l'Arizona State University.

En 2011, il est diplômé de l'Université du Shandong génie électrique et électronique, titulaire d'une maîtrise en 2014 de l'Université de science et de la technologie en 2015, est allé à l'Arizona State University à poursuivre un doctorat.

Son nom est professeur d'orientation Fengbo Ren, En 2008, il est diplômé de l'Université du Zhejiang, puis à l'Université de Californie à Los Angeles a reçu un diplôme et un doctorat de maîtrise. Janvier 2015 a commencé l'enseignement à l'Arizona State University, est également l'un des auteurs.

La recherche de Kai Xu a porté sur la caractérisation des aspects des images d'apprentissage et de la vidéo, dédiée au traitement d'image / compression vidéo, la reconstruction et la compréhension de la tâche. Depuis 2016, il a été à diverses conférences académiques, comme ECCV, CVPR et d'autres publiés 11 papiers, obtenu sept brevets.

Avant Juin 2019 est entré stage Dharma, il a également interné dans les établissements de recherche américains de Samsung. hôpital Dharma, sa recherche est un algorithme efficace pour explorer le champ de vision par ordinateur.

En plus de Kai Xu et Fengbo Ren, les quatre autres chercheurs Minghai Qin, Fei Sun, Wang et Yuyao Yen-Kuang Chen est venu d'Ali Dharma Institut d'informatique Laboratoire de la technologie, qui Yen-Kuang Chen est un Fellow de l'IEEE.

Ma grands espoirs pour ce organismes de recherche, sont progressivement éclatèrent de plus en plus d'énergie et d'attirer plus de gens à se joindre. Kai Xu et leur projet de « l'apprentissage de domaine de fréquence » est l'un des nouveaux représentants.

Ensuite, ils effectuent des recherches but est d'essayer les mêmes systèmes de compression vidéo font. Ils croient que la norme de compression vidéo contient prédiction de mouvement inter-trame / compensation et prédiction intra, les informations de domaine de fréquence correspondant sera différence relativement importante.

Ho Ming Kai destiné aux stagiaires

De plus en plus figure de « interne » est apparue à l'avant-garde de la recherche en intelligence artificielle, elle deviendra aussi la force motrice dans le développement du champ de type d'intelligence artificielle.

Tels que stagiaire battant byte Wang Xinlong (Adelaide thésards Université), le concept de l'exemple de segmentation de nouvelles façons SOLO, l'introduction des « exemples de la catégorie », les exemples de problèmes de segmentation en problème de classement dans un certain nombre d'indicateurs, la performance Masque encore plus R-CNN que Kai Ming Ho proposé.

Il y a un horizon de stagiaire Huang Zhao Jin (Université Huazhong des étudiants des cycles supérieurs des sciences et de la technologie), elle a été élevée Masque surclasse programme R-CNN proposé par Ho Ming Kai, et CVPR 2019 inclus.

Peut-être vous avez déjà découvert la loi d'entre eux, leur but est ce que Kai Ming Mask ont mis en avant le programme d'optimisation et à l'amélioration correspondante R-CNN,.

D'une part, le masque R-CNN dans le domaine de la segmentation de l'image ne niveau alpin exist, mais d'autre part, qui dit qu'il n'y a pas d'hommage que cela signifie?

Peut-être, dans quelques années, ces stagiaires apparaîtront dans un autre Ho Kai Ming il ~

portail

Adresse Papers: https: //arxiv.org/pdf/2002.12416.pdf

- FIN -

Qubit QbitAI · titres sur contrat

Suivez-nous, la première fois informé l'avant-garde des développements scientifiques et technologiques

137% d'accélération YOLOv3, 10 fois l'amélioration des performances de recherche! Baidu Flying Paddle lance un artefact de compression de modèle
Précédent
Pilote automatique version chinoise classement publié! Aucune compagnie d'étoiles du pilote automatique impliqué dans le développement
Prochain
Google cerveau fait AutoML-Zero, ne sera en mesure de trouver des algorithmes mathématiques AI | Open Source
Dean lettre | Intel Songji Jiang: Réflexions sous l'épidémie, la source de la science et de la technologie en tant
le dernier écran de pliage de brevet d'Apple exposition au téléphone mobile, l'impact de l'épidémie de laisser la conférence iPhone SE2 Unknown
L'intégration de la sélection des manuels scolaires riches en ligne et hors ligne
La région désignée pour distribuer, envoyer les nouveaux manuels pour les enfants des nouveaux résidents
harle chinois d'abord apparu dans Quzhou Copper Mountain Reservoir,
Collectionneurs District Association pour mener des activités pour la première fois ce printemps
Constitution Scribe est le processus d'auto-amélioration
Tiantai Pingqiao: « peste » de nouvel espoir planté, en attendant que la forêt de printemps vert
La science et la technologie provinciale technologie grue d'amortissement correspondant à la base précise livrer
Roewe exposition EI5 modèles complets de vie de la batterie de phosphate de fer lithié jusqu'à 416 km
Equipé d'image panoramique à 360 degrés, la gloire majestueuse i6 version PLUS holographique pour seulement 112800 yuans