« Segmentation d'image étape » Nankai a fait les premiers indicateurs de la division de simulation des yeux personnels, la performance optimale actuelle

Ji-won nouvelle colonne

Source: IJCAI Oral 2018

Auteur: Gong en, diplômé de l'Université Nankai

Edit: trois pierres

[New Ji-won EXAMEN La segmentation d'image est la base de la reconnaissance de l'oeil humain, l'oeil humain est identifié à partir du tout à la partie de la manière divisée. Ce document d'abord proposé un nouvel indice dans le jugement simulé de l'oeil humain, le résultat est de loin supérieur aux méthodes existantes et prouve que l'oeil humain est plus conforme au résultat de la discrimination.

La segmentation d'image est souvent identifiée sur la base de l'il humain, l'oeil humain est identifié de la manière de la division de l'ensemble de la partie. A partir de deux directions globales et locales, une nouvelle méthode et efficace pour améliorer la mesure d'étalonnage (E-mesure) pour évaluer l'avant-plan binaire par un simple combiné avec des informations locales a été très fiable et mondial d'information les résultats de l'évaluation.

Pour FM GT (GroundTruth, valeur réelle figure) et l'algorithme de segmentation prédit (ForegroundMap, au premier plan), L'évaluation de l'importance de l'image est le calcul de la FM et GT similitude , Entre une valeur comprise entre 0-1 (peut être considérée comme une probabilité), 1 représente exactement la même, et 0 ont des résultats différents en fonction de l'algorithme, qui est complètement différent (ou opposée à la GT). chercheurs GT souvent marqués par la main,

GT est considéré comme représentatif généralement de l'oeil humain est le résultat de la segmentation. L'objectif de l'algorithme d'évaluation doit être réalisée à la suite de la classification d'image avec l'il humain. Le IOU est actuellement largement utilisé est basé sur des informations locales d'erreur (niveau de pixels), tout en ignorant l'information globale de l'image, ce qui dans son évaluation inexacte.

l'information E-mesure est l'évaluation globale différence moyenne de l'information à base de pixels locale Nous employons plus de cinq ensembles de données de référence de cinq yuans une mesure de E-mesure avérée beaucoup supérieure aux méthodes de mesure existantes, et a obtenu les meilleurs résultats sur l'il humain pour trier les ensembles de données que nous proposons de le prouver avec et l'évaluation subjective d'un haut degré de cohérence.

Question conduit à: une limitée évidente

L'évaluation raisonnable ou non le développement d'un modèle dans le domaine joue un rôle décisif, le plus largement utilisé application au premier plan d'évaluation classique est détectée IOU (Intersection-Over-Union, croix et ensemble), comme le montre la figure 1, IOU formule peut être représentée par la formule 1.

Figure 1: IOU représenté figuratif

Facile à voir IOU est d'évaluer la méthode de différence de pixel local basé sur des informations globales manquantes . Comme représenté sur la figure illustrée, (d) 2 est le motif de bruit, cependant, il est clair en (c) et la figure (b) est plus proche GT, et (D) peut en fait que le premier plan et tout blanc ou tout noir Affichage des résultats similaires, et pour tout blanc ou tout noir tableau, on ne peut pas être considéré comme similaire (mais pas la valeur de similarité est 0, 0 est en fait représente généralement le contraire). Dans les résultats algorithme IOU nous dit, (d) mieux que (c)! Ceci est manifestement déraisonnable.

Figure 2: Comparaison des différents types d'évaluation du FM premier plan

Sur la base uniquement sur la différence de pixel de l'ordinateur local est peut-être efficace, mais ne répond pas aux mécanismes de la segmentation de l'image de l'oeil humain. Analysons un exemple simple d'expérience, à la figure 3, la gamme bleue de GT, rouge pour FM. Comme on peut le voir, grand (a) et (b) une différence FM en forme, mais la croix GT a exactement le même, ce qui entraîne exactement les mêmes résultats obtenus.

Figure 3: analyse des simples IOU, GT est le bleu, le sujet est un FM rouge, comme (a) et (b) dans la zone de l'intersection

Parce que IOU basée uniquement sur la différence de pixel partielle évaluée, ce qui conduit à obtenir seulement les résultats locaux optimaux, il est difficile d'obtenir une évaluation complète. Nous avons besoin d'une évaluation complète et cohérente de la vision humaine.

Solution: Big World, les oreilles

En raison de l'évaluation actuelle sont prises en compte les erreurs d'un seul pixel, le manque de considération de l'information mondiale, entraînant une évaluation inexacte. À cette fin, nous considérons la combinaison des informations locales et des informations globales sur mesure.

Figure 4: (b) est le résultat de segmentation image originale (A), carte1 (c) et la carte2 (d) sont le résultat des deux algorithmes de segmentation

Nous regardons un exemple, la figure. 4 est divisé de deux Map1 et résultat dans la carte2 l'algorithme de détection, on détermine la similitude des résultats avec GT prendra en compte la similitude globale du corps comme le cerf. Par cet arrêt, plus la similitude perçue des différences entre les deux. De plus amples détails sur la détermination locale (voir fig. 5}). Nous avons constaté que par rapport à la carte1, les résultats de la segmentation comprennent carte2 plus de détails (pied), qui, comme le montre la figure 6, nous penserons à une meilleure segmentation résultats carte2 carte1.

Figure 5: (b) est le résultat de segmentation image originale (A), carte1 (c) et la carte2 (d) sont le résultat des deux algorithmes de segmentation

Figure 6: (b) est le résultat de segmentation image originale (A), carte1 (c) et la carte2 (d) sont le résultat des deux algorithmes de segmentation

1, en liaison avec des informations locales et des informations globales

Nous considérons que le niveau d'information statistique de l'image en compte la gamme, sélectionnez l'image globale moyenne de niveau de pixel que des informations statistiques, parce que l'image globale moyenne globale peut représenter l'information et des calculs simples. Comme représenté sur la Fig. 7 (c) (d) sont indiquées en tant que moyenne ,, GT, FM de. Chaque valeur de pixel dans la FM GT sa moyenne, l'écart à la différence entre la matrice globale de l'information de liaison

.

2, l'estimation d'erreur

Calculer une matrice d'écart (matrice de polarisation), l'estimation d'erreur, nous pouvons obtenir GT, erreur FM entre la valeur estimée, et parce que la variation de matrice de liaison des informations globales des informations de pixel local, qui représente l'erreur entre le puits de GT, FM.

La valeur de l'écart entre la matrice continue , on utilise la matrice d'alignement (matrice d'alignement) erreur entre la matrice d'écart évalué:

Photo 7: La combinaison de l'information mondiale et l'information locale. Et sont GT, la FM moyenne,

,

Il se lie information globale à la déviation locale de la matrice d'information (matrice de polarisation)

parmi

multiplication Hadamard, moléculaire

Pour évaluer l'erreur, et

Les résultats d'évaluation mis à l'échelle à entre, où -1 représente exactement le contraire, et 1 représente la même chose. À savoir, pour chaque erreur locale contient des informations globales, nous pouvons calculer l'erreur entre une estimation.

3, la transformation non linéaire

Nous avons besoin d'une évaluation entre les balises , vous devez est mis à l'échelle à la gamme entre . Pour un résultat de classification dichotomique d'une sortie aléatoire, à savoir, FM généré de façon aléatoire, l'erreur GT qui devrait être uniforme, à savoir, l'erreur doit être également répartie entre , et nous utilisons la transformation linéaire directe il est mis à l'échelle dans une plage (par exemple en utilisant

).

Mais en fait, tous les classificateurs devraient être beaucoup mieux que classificateur aléatoire, ce qui signifie que beaucoup de méthode de sortie FM est similaire à la GT et rarement en face, que la grande majorité concentrée sur le score d'évaluation de et seulement une partie très faible apparaît entre les balises , auquel cas la poursuite de la fonction de zoom plage linéaire n'est plus approprié, car dans ce cas la majeure partie du jeu de résultats à 0,5 ou plus conduisant à un résultat de le manque de discrimination. En second lieu, les résultats de l'évaluation de l'oeil humain est d'apprécier la similitude entre FM et GT, plutôt que dissemblance (similitude ou négative), ce qui montre aussi la réutilisation échelle linéaire ne convient pas. Il suffit de la valeur est définie entre tous est égal à 0 (par exemple, un réseau de neurones est connu la fonction d'activation de Relu) perdent des résultats d'évaluation, et par conséquent indésirable.

Sur la base de l'analyse ci-dessus, nous vous proposons une fonction de transfert non linéaire:

Cette fonction est seulement une fonction de la place de ce qui précède, également à l'échelle entre , mais l'équation 3 est une fonction non linéaire qui l'image sur la Fig. 8, qui sera de la valeur mise à l'échelle entre une plage plus petite, et la valeur de mise à l'échelle entre pour une plus grande gamme, ce qui évite les problèmes causés par mise à l'échelle linéaire.

Figure 8: une fonction de transformation non linéaire qui sera une valeur comprise entre réduite à une plus petite distance, et la valeur de mise à l'échelle entre la plage à une plus grande

4, estimation complète

Nous serons tous mis à l'échelle à l'erreur entre , en ligne avec les résultats qu'ils obtiennent plage d'erreur (4):

E-mesure est définie comme étant les résultats complets de tous l'erreur de position:

Les expériences démontrent l'efficacité des mesures de yuans

Afin de démontrer les indicateurs de validité et de fiabilité, les chercheurs ont utilisé la méthode pour mesurer yuans expérience . En proposant une série d'hypothèses raisonnables, et vérifier l'étendue de ces indicateurs en ligne avec les hypothèses que vous pouvez obtenir l'indice de performance. En bref, la mesure du dollar est un indicateur spécifique des normes d'évaluation. mesure expérimentale en utilisant un 5 yuan :

mesure Yuan 1: Trier Application

Une raison importante de promouvoir le développement du modèle sont les exigences d'application, et donc une sorte d'indicateurs de résultats et de trier les résultats devraient être appliqués avec un degré de cohérence. C'est une série d'entrée de premier plan dans l'application, au rang de leur premier plan la norme par l'application, les résultats de l'évaluation pour obtenir une bonne évaluation du programme devrait trier les résultats de son application de premier plan standard avec un haut degré de cohérence. 9 ci-dessous.

Figure 9

mesure Yuan 2: Le dernier niveau par rapport à des résultats Universal

Un principe de l'indice d'évaluation devrait préférer l'utilisation des résultats de la plus algorithme de détection avancée plutôt que les résultats généraux de ceux qui ne considèrent pas le contenu de l'image (comme haut-Stuttgart centre). 10 au-dessous.

10

mesure Yuan 3: Le dernier niveau par rapport à des résultats aléatoires

Un indicateur de principes d'évaluation devrait préférer plutôt que des résultats aléatoires (tels que la carte gaussienne du bruit) ceux qui utilisent les résultats de l'algorithme de détection les plus avancées de ceux qui ne considèrent pas le contenu de l'image. Comme le montre la figure.

Yuan mesure 4: le tri manuel

En tant que primates humains supérieurs, bien à capturer la structure de l'objet, de sorte que le type de détection de premier plan d'évaluation des résultats, et les gens devraient avoir le genre de degré élevé de cohérence subjective. Nous avons centralisé toutes les données de l'échelle, personnes choisies au hasard par le groupe en ligne avec le genre de premier plan de l'oeil humain, sorte l'ensemble de données consistant en FMDatabase artificielle. 11 ci-dessous.

11

Élément métrique 5: Référence GT de remplacement aléatoire

A l'origine identifié comme indicateurs de bon résultat de détection de modèle, lors du remplacement de l'erreur dans le rez-de-vérité de référence au sol de la vérité, le score devrait être réduit. 12.

12

Les résultats expérimentaux

Testé sur papier largement 5 caractéristiques différentes, difficiles ensemble de données, afin de vérifier la stabilité, les indices de robustesse.

13

Les résultats ont montré que: nos indicateurs sont plus robustes et la stabilité dans PASCAL, ECSSD, SOD et HKU-IS ensemble de données. Pendant ce temps sur FMDatabase (MM4), nos indicateurs ont les meilleurs résultats.

Documents Adresse:

New Ji-won AI MONDE 2018 Assemblée de billets Early Bird []

En solde!

New Ji-won aura lieu le 20 Septembre AI Conférence mondiale des 2018 à Beijing National Convention Center, a invité l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle à la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanité.

Le site officiel de l'Assemblée générale:

Maintenant jusqu'au 19 Août, Ji-won nouveau numéro d'édition limitée de billets Early Bird communication étroite avec le leader mondial de l'IA, l'intelligence artificielle, témoin de l'industrie mondiale à pas de géant.

  • Billets de ligne active lien:

  • billet de ligne active de code à deux dimensions:

Vous regardez sous les cerisiers, vraiment laid! « Fleurs chinoises » médias japonais était ironique, trop gêné
Précédent
« 2018 Annonce nationale de la jeunesse exceptionnelle » Numéro Tsinghua sélectionné en premier! 25 projets ont été sélectionnés AI
Prochain
soleil Personne ne vous la table, à manger les restes à la maison le font!
Moment historique! best-seller de la voiture du Japon en Avril était en fait le SUV!
Regardez ces beignets, un seconde cure!
Pepper comment planter? Ce poivre apprendre six plantation facilement!
Multi-données parmi les meilleurs Luneng défensif mérité la meilleure ligne de défense, la dépendance excessive offensive sur une seule personne est cachée
Musk: peut enfin rompre avec NVIDIA, Tesla à utiliser la puce AI auto-développé!
Double Six! Échiquier il se fait!
Cet hôtel est un peu cool, bande vous permet de découvrir le voyage extraordinaire de mystère!
Tout le monde a un cheval Ferrari F12 berlinetta sans égal
précision de la classification IMAGEnet d'un nouveau sommet! Li groupe Feifei ECCV proposées par voie orale de nouvelles structures neurologiques progressives Recherche
salut Inde mentionner le meilleur taxi du monde, le frère quelque chose de Chongqing et Beijing pour dire
Qui est le plus chinois | mordre printemps: printemps mordent pas promu