Cercles | nuage Mito Académie chinoise des sciences classification proposée conjointement repose sur les mécanismes d'interaction attention perception techniques comportementales du réseau de neurone

Technologie AI Revue de presse : Cet article est le recrutement du secteur de la technologie de vision nuage ECCV Mito 2018 documents de lecture.

On notera que le modèle conventionnel est calculé par le mécanisme de pondération toutes les caractéristiques locales et extraction de caractéristique critique, sans tenir compte de la forte corrélation entre la caractéristique locale respective, il existe une forte fonctionnalité inter-redondance. Pour résoudre ce problème, les chercheurs du secteur de la technologie de vision nuage Mito et l'Académie chinoise des sciences Institut de PCA de référence Automation (analyse en composantes principales) idée proposée modèle de mécanisme d'auto-attention locale a introduit des fonctionnalités interactives de la perception, et le modèle est intégré dans le réseau CNN la structure proposée d'une extrémité de réseau à la fin. Le comportement de l'algorithme de classification entre les ensembles de données multiples de rendement scolaire et des ensembles de données vidéo interne de l'industrie Mito sont très bons. ECCV2018 a été inclus ci-dessous de l'arrière-plan, l'idée de base, effets et perspectives basé sur plusieurs aspects liés papier introduit l'idée de l'algorithme « Attention spatio-temporelles Interaction-aware Pyramid Réseaux de classification d'action. »

I. Contexte

Profondeur de convolution réseau de neurones, dans lequel les canaux spatiaux locaux dans des positions adjacentes de l'élément FIG, souvent en raison de leur chevauchement des champs récepteurs ayant une corrélation élevée. De la somme pondérée (ou autre fonction) Notez que le mécanisme interne de chaque modèle d'élément utilisent généralement les scores de caractéristiques locales pour obtenir son poids, cette somme pondérée en poids de toutes les caractéristiques locales pour l'accès aux fonctions principales. En dépit de la forte corrélation entre les caractéristiques locales, mais le calcul du poids ne pas tenir compte de l'interaction entre eux.

PCA informations en composantes principales peut être extrait dimension primaire globale caractéristique, qui peut être considérée comme la principale composante d'information de l'extraction de caractéristiques locales, et enfin la réduction globale des fonctionnalités de dimensionnalité qui est un ensemble de caractéristiques locales de la clé. Notez que le but d'extraire une partie clé du mécanisme de l'ensemble des fonctionnalités locales, à savoir les caractéristiques locales de l'APC. Différents mécanismes d'attention est pondérée correspondant à chaque fonction locale calculer un score final de caractéristiques globales. PCA est obtenue en utilisant la matrice de covariance réduction de la dimension (ou du poids pondéré) des vecteurs de base, et de réduire la redondance des informations entre les caractéristiques de bruit. Sur la base de l'arrière-plan ci-dessus, l'équipe a utilisé l'APC pour diriger l'attention du modèle proposé, et en convertissant la conception d'algorithmes de PCA et de mise en uvre en pertes. En outre, du fait de la profondeur différente des réseaux de couche peut capturer les caractéristiques de la figure échelles différentes, dans lequel l'algorithme figure utilise ces pyramide spatial est construit, à chacune de la caractéristique locale des informations de canal plus précises multi-échelle attention scores, les scores pour ces poids la pondération de la caractéristique locale dans toutes les positions spatiales.

En second lieu, l'idée de base

Ce document définit une nouvelle perception de la pyramide de la couche d'interaction espace-temps attention, afin de réaliser l'impression d'interaction entrée de fonction et les caractéristiques spatiales et temporelles des caractéristiques locales à différentes échelles de chaque couche à une profondeur d'intégration du réseau de neurones de convolution. Son architecture ci-dessus, l'algorithme de définir une première fonction d'échantillonnage R dans les différentes couches de la caractéristique figure une échelle uniforme. Suivant canaux locaux en utilisant des échelles différentes des caractéristiques des mécanismes d'extraction de caractéristiques clés de l'attention, la figure fusion de différentes échelles en utilisant une fonction de fusion, et l'attention est calculée pour chaque points caractéristiques locales, pour pondérer les caractéristiques.

vecteur de projection calculée de la matrice de covariance en utilisant l'APC et ainsi réduire la dimension, à savoir la touche de fonction locale extraite, la fonction de perte conçu de papier est ajouté au modèle transformé final:

l'attention de la pyramide de l'espace carte de fonction nouveau aux contraintes du modèle proposé, donc essayer de se concentrer sur différentes échelles de différentes couches d'informations, ajoutées à notre catalogue arrivent à une perte finale de fonction de perte:

Quel que soit le nombre des caractéristiques d'entrée des paramètres du modèle de carte documents présentés, par conséquent, il augmentera à un temps de formation réseau de niveau vidéo naturellement fin et dans l'espace, la structure du réseau final est défini ci-dessous:

En troisième lieu, l'effet

le personnel de R & D ont été appliquées aux entreprises liées vidéo de Mito ont été classés comportement espace-temps des personnages pyramide mécanismes attentionnels perception Interagir algorithme de réseau de neurones basé sur d'excellents résultats de performance. En plus de l'ensemble de données dans le UCF101 ouvert, HMDB51 aucun comportement de détourage et la base de données Charades avis, conduire les résultats obtenus également, les résultats présentés ci-dessous:

En outre, le document de l'évaluation temporelle d'entrée vidéo, des résultats de l'évaluation montrent que le modèle est capable de traiter simultanément dans un certain nombre de trames vidéo d'entrée, et d'obtenir de meilleurs résultats.

La figure montre les résultats de la sortie visuelle au cours de l'algorithme de classification d'action, l'algorithme peut voir que l'emplacement précis du comportement critique de la vidéo.

Quatrièmement, perspectives

applications pratiques, scénarios d'affaires en cours d'exécution temps des exigences de l'algorithme plus strictes. Les résultats décrits dans le présent document sur l'ensemble de données sont prises par une pluralité de trames obtenues dans la vidéo, la complexité temporelle est plus élevé, permettra de réduire la complexité de calcul ultérieur pour l'objectif d'optimiser le module de base. Il est intéressant de noter que le modèle de l'attention de la pyramide de l'espace proposé dans le présent document ne constitue pas l'entrée numéro de carte de restrictions, il peut être facilement étendu à une version compatible d'un certain nombre de temps d'entrée et des trames espace, dans l'application peut être taux classifiée de précision prémisse est à peine affectée en réduisant le nombre d'images pour améliorer la vitesse de traitement de la coupe.

Cliquez pour mettre fin à la Lire l'original Voir le facteur d'impact AI.

(^ 0 ^) partage de bienvenue, à demain!

OPPO R19 photos espion est apparu: vrai téléphone plein écran, l'utilisation de la caméra pop-up
Précédent
La nouvelle Zotye T600 Sport a annoncé Prix de vente: 90000 yuans
Prochain
la technologie AI et du nouveau matériel externe, Synology Jingdong travaillent également ensemble pour développer de nouvelles normes pour Cloud NAS
Industrie | deviner la chanson pour dessiner un petit feu, mais le jeu Google AI ...... vous ne voudra probablement pas jouer
Aux produits de VETEMENTS balayage, comment le nerf à porter l'admission trop générale?
Sony Xperia XZ4 Exposition: 21: poulpe 9 de l'écran, Xiaolong 855
Midday Nouvelles Star | Musée national du Palais Directeur Shan Jixiang: Je suis un « net est rouge », l'Ouzbékistan bataille football l'après-midi, les chances une mauvaise guerre du salut Cannavaro
robot de nettoyage qui marque? modèles de sagesse font mastered net propre
AV nouvelle ère, non plus sur la mise à jour du disque dur Aoi
Cercles | IMAGEnet avec des vents de modèle de pré-formation, bientôt être soufflées dans le domaine de la PNL
Pour reproduire le classique! Vous rêvez de VANS « checkerboard » a exposé le nouveau design!
La nouvelle Brilliance China liste prix de 23,77 à 28,77 Wan Chung 7
Académie chinoise des sciences Zhao: extraction d'événements sur le terrain ouvert | CCF-GAIR 2018
Le retour de l'enquête | musique KTV sur l'attitude des consommateurs, « Chengdu » et les villes de dix-huit niveaux