Union PhD Institut frère Sydney AI: l'extension et la migration des applications dans faiblement supervisé l'apprentissage et l'apprentissage dans l'estimation du rapport de mélange | Partager Résumé

Lei Feng réseau par AI Technology Review: À l'ère des grandes données, a marqué un nombre suffisant d'échantillons de formation est souvent coûteuse. Les méthodes d'apprentissage supervisé Faiblement sont souvent en mesure de réduire la dépendance excessive sur les étiquettes correctes et apprentissage supervisé pour obtenir des performances similaires. Cependant, dans la conception de la méthode d'apprentissage à faible supervisé, nous devons comprendre la distribution d'échantillons non étiquetés (tels que l'apprentissage semi-supervisé), ou avec les échantillons d'étiquettes de bruit de niveau sonore (comme l'apprentissage avec le bruit de l'étiquette), la nature de ces problèmes est le rapport de mélange les estimations. Par conséquent, le rapport de mélange est estimé occuper un rôle essentiel dans l'apprentissage faiblement supervisé.

Lei Feng réseau (numéro public: Lei Feng réseau) Canal AI Technologie projet de base de données académique revue « facteur d'impact AI », l'Union Institut frère Sydney de l'IA avec 4 CVPR papiers acceptés, 820 millions $ de ronde de la série C de financement, chef AI scientifiques Cheng a été élu Amoy membre de l'Académie des sciences australienne performance impressionnante est venu « facteur d'impact AI » à l'avant-garde.

Récemment, le GAIR Auditorium, Union Frère Institut AI Sydney doctorat Yuxi Yu a partagé ses estimations de nouveaux résultats de recherche, ainsi que l'application extension de l'apprentissage supervisé faible, le transfert d'apprentissage dans le rapport de mélange. Lecture vidéo Adresse: http: //www.mooc.ai/open/course/493

Yuxi Yu, Université de Sydney FEIT quatrième année de doctorat, les étudiants de l'Union Institut frère AI Sydney. Université de Beijing de l'aéronautique et de la Science Contrôle astronautique et un baccalauréat en génie, Maître. Les principales directions de recherche pour la décomposition de la matrice, le modèle de réseau de la profondeur de compression et d'apprentissage supervisé faible.

Partager Sujet: L'estimation de rapport de mélange (Mélange Proportion Estimation) et son application

grandes lignes de l'action

  • Le rapport de mélange de l'arrière-plan estimé, la description du problème et les hypothèses de base.

  • rapport de mélange rapide résolution des problèmes d'estimation et de fournir une garantie théorique avec la méthode de différence moyenne maximale.

  • Estimation rapport de mélange: champ auxiliaire échantillon (domaine source) contenues dans l'étiquette lorsque le transfert de l'apprentissage bruit.

Ce qui suit est Lei Feng réseau AI Technology Review part de consolidation:

Union Frère a été créé en 2012, est un leader mondial dans l'intelligence artificielle et de la société robotique humanoïde, nous avons lancé un robot humanoïde de consommateurs série Alpha, la programmation éducation STEM robot intelligent Jimu, robots de services intelligents Cruzr plate-forme de nuage commercial et d'autres marchandises, et se sont installés avec succès dans le monde Apple Store.

En outre, l'Union Frère aussi avec l'Université de Tsinghua a mis en place un laboratoire commun de robots de services intelligents, mis en place avec l'Université de Sydney Institut de l'intelligence artificielle, Université Huazhong des Sciences et mis en place un robot de laboratoire commun, servocommandes dans l'algorithme de contrôle de la marche du robot humanoïde , vision artificielle, de la parole / compréhension sémantique, reconnaissance des émotions, U-SLAM (localisation et cartographie simultanées) disposition des champs de profondeur et analogues. 2018, Union Frère a complété une ronde C de l'évaluation financement de 5,0 milliards $.

Le spectacle d'aujourd'hui, je tiens à remercier mon travail a fourni beaucoup d'aide collaborateurs. Elles sont lumineuses avec le professeur Liu (professeur adjoint à l'Université de Sydney), le Dr Gong évidemment, professeur Zhang Kun (professeur adjoint à l'Université de Sydney), (professeur adjoint à l'Université de Sydney) Kayhan Batmanghelich grand et le professeur Tao Cheng.

La part d'aujourd'hui est divisé en quatre parties pour expliquer:

  • L'estimation d'une première partie (MPE) et la définition des études précédentes pour le rapport de mélange.

  • La deuxième partie de nos CVPR2018 années de travail.

  • Cible extension de décalage et de l'application de ces problèmes expliquent le rapport de mélange estimé de la troisième partie.

  • Extension et la migration des applications en général dans la dernière partie de l'apprentissage pour expliquer les estimations du rapport de mélange.

  • Le rapport de mélange estimé (MPE) et la définition de la recherche précédente

    La première partie a commencé. Supposons que nous ayons une série de rayons X utilisé pour détecter si le patient souffre d'une pneumonie, un film à rayons X de la série, certains patients atteints d'une pneumonie, une autre partie de la santé du patient. Nous souffrons généralement d'une pneumonie intéressé à comparer la proportion de patients. Afin d'estimer la proportion de ce que les informations dont nous avons besoin et comment modéliser ce problème?

    En général, on peut supposer que les séries de données P0 de rayons X provenant de l'échantillonnage d'une distribution de mélange, et le patient n'a pas la pneumonie et la pneumonie respectivement à partir de deux données P1 et P2 dans la distribution de composition obtenue par échantillonnage. A ce moment, P0 est une combinaison linéaire de ces deux composants de la distribution, tandis que les exigences de ces coefficients de combinaison linéaire (à savoir, le rapport connu comme une distribution mixte) pour répondre à la non-négative et la somme de 1. Condition. Nous allons mettre à Si correspondant aux données de formation échantillonnées définies de la distribution Pi. Notre préoccupation est ce type de données est donné, quel genre d'hypothèses à frapper avec succès ces ratios Ài?

    Des travaux antérieurs étudie principalement les paramètres suivants:

    Établir un premier, des moyens d'échantillonnage supposent qu'une partie des données lors de la distribution du mélange de S0 P0 comment Ai estimation. En fait, aucune distribution de composition ne parviennent pas à terminer ce travail, si souvent ces sous Bucarest hypothèses très fortes. Dans ce cas, nous supposons généralement que la distribution de la composition pour répondre à l'hypothèse d'une distribution gaussienne (bien sûr, il peut aussi être autre hypothèse de distribution), ce qui est ce que nous appelons habituellement modèle gaussien de mélange. modèle gaussien peut être résolu matrice moyenne et la variance des différents composants distribués par l'algorithme EM, mais peut également trouver Ài. Le problème est que le modèle: Lorsque vous utilisez le solveur modèle de mélange EM gaussienne, ne garantit pas une solution unique.

    D'autres méthodes classiques d'estimation de rapport de mélange, généralement suivant les questions de recherche: profil de distribution de composition mixte Supposons de M linéaire combinaison. Si un échantillon donné échantillonné à partir de la distribution mixte P0, et une partie des échantillons M-1 cueillis dans la distribution de composition (le M-ième distribution de la composition, il n'y a pas d'échantillon), la façon d'estimer le rapport de mélange de la distribution?

    Tout d'abord, supposons un cas où il n'y a pas de distribution de ces hypothèses, on peut voir qu'en fait, la distribution de P0, il peut y avoir un certain nombre de décomposition, comme une partie de la composition dans P1 P2, peut obtenir une nouvelle décomposition. Ainsi, si seulement pour connaître les informations P0 et P1, nous ne pouvons pas obtenir le rapport de P1 et P2, parce que ce rapport peut être autant.

    Par conséquent, ces combinaisons d'hypothèses de distribution P1 et P2, les méthodes classiques supposent en général, il existe deux types:

    La première hypothèse appelée supposé irréductible, si une distribution P1 P2 pour cette distribution est irréductible, qu'il ne soit pas exprimée en P1 P2 et une combinaison linéaire d'une distribution supplémentaire. Dans ce cas, si P0 est un P1, P2 sont mélangés, peut connaître ce cas, le rapport de distribution P1 P1 est le maximum que le rapport entre les P0, P2, car aucune information de toute P1. Ce ratio généralement par la courbe caractéristique de fonctionnement du récepteur, également connu sous la courbe ROC pour être estimée. Cette méthode est généralement estimer une fonction de densité de probabilité. Et par la voie libre Aucune preuve déjeuner, bien que cette méthode peut garantir la convergence au rapport optimal, mais cette convergence peut être arbitrairement lente.

    Étant donné que l'irréductible ne garantissent pas que le taux de convergence, les chercheurs ont plus tard a également proposé une nouvelle hypothèse: l'état de jeu Anchor. Prenons par exemple deux distributions, la distribution de densité dans une fonction de distribution deux est 0, et la fonction de distribution de densité est un ensemble d'argument supplémentaire 0, appelé l'ensemble Anchor.

    Nous pouvons simplement être appris par la partie droite de la figure par exemple, deux lignes noires est généralement noté dans l'ensemble Anchor SET, dans ce cas, si le SET a mis des données d'ancrage, comme une P0 et P1 de données dans Anchor données dans l'ensemble, en fait, en mesure d'estimer la proportion de P1 est définie dans les données records.

    A codition set Anchor, la méthode précédente a prouvé en mesure d'estimer la proportion d'un certain taux, qui convergent à la proportion optimale, mais ces méthodes ont certaines limites. Tout d'abord, ils ont besoin d'une hypothèse forte pour la composition de la distribution, la distribution de la composition de ces hypothèses peut souvent être défi, par la suite quelques exemples simples de ce problème.

    D'autre part, comme les méthodes mentionnées précédemment sur la base du ROC, ils ont souvent pour estimer la fonction de densité de probabilité et l'estimation de la fonction de densité de probabilité nécessite souvent un meilleur modèle, et les estimations de la densité de probabilité des données de grande dimension est souvent peu fiable, et ce genre d'estimation n'est pas très efficace.

    Le troisième, devant ces méthodes sont la plupart du temps concentré que dans deux conditions de distribution de composition, la distribution de composition, si elle est prolongée dans le cas de plus n'est pas si directe, vous devez donc trouver un autre d'une manière nouvelle.

    En premier lieu, pour introduire le milieu de travail de recherche CVPR: à partir de toute la distribution supposée (y compris le mélange et la distribution des divers composants de la distribution) sont collectés sous certains échantillons, le rapport de celui-ci estimée. Ce problème a été connu comme une estimation classe de problèmes de proportion (CPE), qui est, la proportion de la classe estimée.

    La principale contribution de cette question de recherche est la suivante:

    Tout d'abord, trouver un compromis pour une sorte d'hypothèses de distribution de la composition et les limites requises des données d'étiquette. Bien que notre cadre plus largement utilisé dans la composition d'une distribution de données (M-ième distribution de composition), mais avec une plus faible hypothèse de prouver beaucoup de conclusions significatives.

    En second lieu, dans une hypothèse faible, et de prouver le caractère unique de ces rapports de distribution de reconnaissabilité.

    Troisièmement, nous avons conçu un algorithme très rapide, mais prouve aussi la convergence uniforme de l'estimation. Le soi-disant convergence uniforme fait référence à la convergence des données de formation estimées minées ne sont pas liés.

    Quatrièmement, la méthode peut être étendue à un problème multi-classes, il y a une très large gamme d'applications, il peut être appliqué dans l'étude et le bruit faible étiquette apprentissage supervisé.

    travail CVPR 2018

    D'abord présenté à assumer le problème d'estimation du rapport de mélange, qui est linéaire des hypothèses indépendantes. L'hypothèse est conducteur d'extension algébrique linéairement indépendantes dans le concept linéairement indépendants, si la distribution de la composition de M sont linéairement indépendants, alors un ensemble de distribution de composition d'absence coefficient non 0 de telle sorte que la combinaison linéaire de ceux-ci est égale à zéro.

    Nous pouvons être un corollaire très direct par cette définition: si deux distributions linéairement indépendantes si et seulement si ces deux distributions ne sont pas identiques. Comme on peut le voir à partir de cette inférence, comme devant l'ensemble d'ancrage nécessite deux champs personnalisés non nulle autre, mais pour le supposé linéaire exige indépendant, que deux distributions différentes à ce sujet.

    hypothèse d'indépendance linéaire peut être prouvé plus faibles hypothèses irréductibles, on peut en déduire l'hypothèse irréductible, mais dérivé non irréductible en supposant hypothèse d'indépendance linéaire. Non détaillé ici démontrent que donner un exemple: Supposons que P1 est une distribution normale, une distribution normale est une autre P2 et P1 et P2 est une combinaison linéaire de Q, on peut voir deux hypothèses P1 et P2 ne sont pas la même distribution , les deux sont linéairement indépendants (par inférence la page précédente). Selon la loi de savoir irréductible P1 et P2 sont, comme le montre P1 et P2 en combinaison de Q une autre distribution. Dans cet exemple, deux distributions sont linéairement indépendantes, mais peut-être au sujet.

    Aussi les hypothèses d'indépendance linéaires prouvent les hypothèses les plus faibles conditions de jeu d'ancrage. donnent également un exemple simple pour illustrer, par exemple, les deux bonnes distributions, nous pouvons voir que les deux distributions sont ensemble supposent 0-10, mais les deux distributions est évidemment pas la même chose, ils ont tous deux ne réunissez pas ancre ensemble d'hypothèses, mais ils sont à la fois linéairement indépendants.

    Dans les hypothèses d'indépendance linéaire, il est possible de prouver le caractère unique du rapport de mélange, P0 est supposé être une combinaison linéaire de PM de P1, et la distribution de la composition sous l'hypothèse d'indépendance linéaire. Compte tenu de cette situation, et toutes les combinaisons de distribution de P0 dans la proportion est unique. Il est avéré être très simple: (même à l'intérieur et méthode éprouvée de l'algèbre linéaire) à l'aide nécessaire pour prouver. Supposons qu'il y ait un autre ensemble de coefficients de telle sorte que la même chose est vraie mélangé par des combinaisons différentes de deux coefficients égaux à 0 soustraction, peut ainsi être déduite. Pour expliquer la dérivation spécifique, vous pouvez lire la vidéo pour afficher les 19 premières minutes.

    Note: moyenne correspondant nucléaire au cur de l'approche est intégrée dans le nucléaire moyenne, moyenne nucléaire, nous pouvons expliquer en détail la lecture vidéo intégré pour afficher les 21 premières minutes

    Point de fusion (1) au nom de la moyenne. Si le noyau est noyé dans une cartographie un moyen, communément appelé dans les équations sont caractérisées. Dans ce cas, le noyau moyen intégré pour avoir toutes les informations de la distribution P.

    Remarque: Dans ce cas, il y a un théorème très important. En supposant que le noyau est incorporé dans le moyen de cartographie-one, et la distribution de composition pour répondre à l'hypothèse d'indépendance linéaire. Dans ce cas, la moyenne peut être dérivé incorporé noyau même satisfait des hypothèses linéairement indépendantes des preuves détaillées que nous pouvons lire de la vidéo pour afficher les 23 premières minutes

    De même, nous pouvons prouver l'unicité de Ài, et jusqu'à preuve exactement la même chose, pas décrit en détail ici.

    Nous pouvons utiliser la méthode pour obtenir la solution de différence moyenne maximale Ài, l'utilisation du théorème: Si la distribution de ses deux plus grande différence moyenne est 0, alors, si et seulement si ces deux distributions sont la même distribution. Par conséquent, la valeur moyenne de la différence maximale dans le minimum au carré, peut être déterminé Ài. Mais le problème est que nous n'avons des expressions Pi, ne sait pas comment beaucoup nucléaire moyenne intégrée à la fin.

    Nous avons donc généralement comment résoudre?

    REMARQUE: utiliser une empirique approchée en utilisant toutes les données pour voir la carte de caractéristique moyenne Rapprocher les nucléaire moyenne intégrée, quand a le nucléaire moyen noyé approximative plus tard, la même chose peut être substitué dans cette équation la différence maximale moyenne, et devient finalement un problème : explication détaillée peut être lu à 27 minutes pour voir la vidéo

    Nous sommes également préoccupés par une autre question, ce rapport de mélange estimé peut converger à la solution optimale, à quelle vitesse il est de converger vers la solution optimale?

    Note: Ici peut expliquer en détail la lecture vidéo pour afficher les 30 premières minutes

    Comme on le voit, la convergence se est avérée être cohérente, la convergence n'a pas tous les éléments associés aux données de formation. Cette conclusion est que le travail de convergence estimation de la proportion de classe éprouvée (CPE) ne sont pas les mêmes, ils ont tendance à avoir une formation d'entrée de données. Ceci est également l'une des contributions majeures de cet article.

    Note: Ici sera expliqué en détail dans la lecture vidéo 33ème minute à la vue

    Le rapport de mélange des scénarios estimés: Le premier scénario est l'étude de l'étiquette avec le bruit, nous avons mis tous les échantillons dans l'ellipse sont marqués comme « voiture », en fait, nous pouvons voir que l'image verte est « automobile », autre les échantillons sont étiquetés des autres catégories viennent les erreurs, à savoir le bruit avec une étiquette, on peut généralement supposer que les échantillons de bruit pour chaque catégorie à chaque catégorie est une combinaison linéaire des données réelles.

    Sur la base des données que nous UCI fait une série d'expériences, par rapport à la méthode précédente d'estimer le rapport de bruit de l'autre méthode en deux ROC, ROC qui a utilisé uniquement les données de la distribution du mélange M-1, tandis que les deux autres méthodes sont utilisées tous les composants l'échantillonnage de la distribution des données. Comme on peut le voir, quand le bruit de plus en plus, nous abordons ont généralement une performance plus cohérente, mais lorsque la taille de l'échantillon progressivement augmente, notre approche a progressivement converger. Et ces deux images peuvent également être vus, nos images ont tendance à mieux estimer le rapport de mélange.

    La deuxième application: apprentissage semi-supervisé. Les soi-disant moyens d'apprentissage semi-supervisé, avec une petite quantité d'échantillons étiquetés, ainsi qu'une majorité de l'échantillon est sans étiquette, sans espoir de l'échantillon de ces balises peuvent également apprendre quelques informations. Aucune étiquette n'est généralement admis que l'échantillon est une combinaison de toutes les catégories d'échantillons. Autrement dit, la distribution des données X est distribué chaque catégorie de données dans une combinaison et le rapport de mélange est la proportion de chaque catégorie.

    Note: Une expérience sur les données de l'UCI, qui a également reçu une précision relativement élevée. Expliquer en détail, vous pouvez lire la vidéo pour afficher les 36 premières minutes

    Cible extension de décalage et de l'application d'un tel problème dans le rapport de mélange estimé

    La troisième partie de notre étude, une étude plus spécifique de la migration, communément appelée cible Maj ou étiquette Maj. Nous devons voir si MPE étend l'application en question. Tout d'abord, regardez ce que le problème est?

    Dans les données de la formation traditionnelle, nous partons du principe que les données de formation et des données de test sont prises à partir de la même distribution, et dans la cible Maj ce problème, nous supposons que la distribution de chaque catégorie sont les mêmes (comme indiqué dans le cercle de la distribution pourpre et jaune), mais la proportion de chaque classe a changé. Cible Shift est de détecter les changements dans P (Y) a. Il y a un plus grand défi: Nous avons étudié une partie des données marquées mal dans les données de formation, marquant la première classe dans la deuxième classe, deuxième marque de classe dans la première catégorie, dans ce cas, nous avons encore peut détecter des changements dans P (Y) faire?

    À cet égard, peut être considéré comme un vrai problème, par exemple, nous avons une série de Septembre de rayons X poitrine, nous avons recueilli plus de la partie supérieure d'Août de rayons X, les rayons X et ceux-ci ont été marquées d'une pneumonie qui , qui est pas une pneumonie. Cependant, ces données sont étiquetés non-experts ou des marques de machines, et peut-être même quelques échantillons médicaux, il est difficile de dire, si l'erreur de nombreuses étiquettes est produite. De plus, étant donné que la proportion de patients atteints d'une pneumonie pour une raison quelconque en Septembre, il a augmenté. Dans ce problème, nous avons toutes sortes d'autres échantillons de bruit en Août et Septembre il y a des données mixtes, et les données en Septembre et Août, la proportion de patients atteints de pneumonie aussi changer la façon dont nous pouvons détecter les patients atteints de pneumonie en Septembre proportion?

    Note: vous pouvez expliquer en détail la lecture vidéo pour afficher les 42 premières minutes

    Nous définissons d'abord le problème, supposons que nous avons des données de bruit de formation sans étiquette d'étiquette et une série de données de test, on suppose généralement également répartis dans chaque catégorie est, dans ce cas, comment pouvons-nous évaluation précise des données de test P (Y)?

    Nous présentons d'abord une hypothèse, le bruit est supposé qu'une étiquette avec ce qui précède, nous supposons que les données mixtes de bruit des données réelles, leur distribution sont également supposés pour satisfaire le mélange figure ci-dessous.

    A partir des données de l'échantillon d'essai est un mélange de données de test à partir des données dans chaque catégorie avant, il y a ce mélange sous la forme d'apprentissage semi-supervisé, et tester la distribution de données pour chaque catégorie et chaque donnée de formation comme la distribution des catégories, que la distribution des données de test peut être exprimé mélangé dans les données de formation pour chaque distribution de catégorie. En même temps, nous supposons que les données de bruit est mélangé avec toutes les données de formation pour chaque distribution de catégorie. Cela ne peut pas être la distribution des données mixtes de toutes les données de test indique une distribution mixte de chaque classe en données d'entraînement avec le bruit du bruit?

    Supposons que cette forme hybride dérivée par une simple et une conclusion.

    Remarque: pour mélanger le contenu du formulaire et simple déduction estimation Q, etc., Yuxi Yu a fait une explication très détaillée, vous pouvez lire une vidéo de 44 minutes à 55 minutes pour le voir

    Note: expliquer en détail le contenu de l'expérience, nous pouvons voir les 55 premières minutes à 57 minutes de lecture de contenu vidéo

    Enfin, nous avons vérifié par une expérience. Répartition des données de formation et des données de test se compose de deux gaussiennes mixtes, mais la proportion est pas la même. Ici bêta est une donnée de test P ^ te (Y) que le rapport de formation P ^ tr (Y) des données, on peut voir à différentes beta (en plus à gauche. La figure), notre méthode peut être des résultats relativement cohérents. Il existe différentes tailles de bruit dans les données de formation, notre performance de la méthode est plus cohérente (figure). On peut voir lorsque l'échantillon de formation augmente progressivement, notre algorithme converge progressivement à la solution optimale. La méthode comparative a montré une erreur relativement importante, et parfois mal (figure extrême gauche). Par cette expérience, nous pouvons vérifier la validité de la méthode en question, il peut aussi être vu dans cette application étendue des problèmes MPE.

    Note: La lecture de la vidéo peut expliquer en détail à la première 57 minutes Voir

    Et étend dans une application générale de l'étude de la migration estimée rapport de mélange

    Enfin, nous présentons une étude de la migration générale, nous avons d'abord regarder la définition de l'apprentissage de la migration dans Maj cible mentionné précédemment, nous supposons que la distribution conditionnelle de chaque catégorie sont les mêmes, mais la répartition des Y est en train de changer , dans l'étude de la migration générale, nous supposons que la distribution et la distribution de chaque classe Y ont changé, dans les deux exemples dans les chiffres inférieurs, nous supposons qu'une partie des données de l'indicateur d'erreur, dans ce cas, nous définissons habituellement les données de formation pour le domaine auxiliaire, l'apprentissage des champs auxiliaires pour des informations plus utiles pour aider les données d'apprentissage dans les zones cibles à un meilleur classificateur.

    Nous avons également cet exemple, supposons que les données en Août (de bon déjà marqué), pour une raison quelconque, une marque d'erreur apparaît, et en Septembre, une image IRM obtenue, nous pouvons en imagerie par rayons X en Août extraire des informations utiles pour aider à la classification finale de l'imagerie par résonance magnétique? Ce problème est plutôt intéressant, car en médecine de la vie réelle, nous pouvons vous aider ont tendance à avoir beaucoup de données médicales, ce qui est souvent difficile à étiquette, et beaucoup, nous voulons peut marquer une erreur de données à utiliser ces données auxiliaires pour apprendre de nouveaux cas à l'aide d'un nouveau cas d'inconvénients pour extraire des informations pour les aider à apprendre, question comment pouvons-nous résoudre?

    La même définition du problème premier regard:

    Note: La définition du problème, les hypothèses de base, des méthodes spécifiques, vous pouvez lire la vidéo à 59 minutes pour commencer à voir

    ppt se lit comme suit:

    Après que nous apprenons de ces données bruitées en informations et des changements dans P (Y) du même, nous utilisons ces mêmes informations pour former un classificateur.

    Notre approche peut être vu qu'il ya une augmentation très importante que les autres méthodes prouveront que notre approche peut surmonter l'impact du bruit sur l'apprentissage de la même représentation de l'étiquette. Ici mpe surtout du point de vue sur cette approche, les méthodes et les détails spécifiques se trouvent dans mon papier (la fin du texte avec des références).

    La méthode d'apprentissage de transfert avec la contribution du bruit de tag:

  • La méthode pour étudier les effets du bruit sur la mobilité dans l'apprentissage de l'étiquette.

  • Il a proposé cadre unifié pour surmonter les données de bruit auxiliaire pour l'apprentissage des effets nocifs de la représentation constante, puis apprendre des informations utiles.

  • Fournir la preuve de la cohérence de la convergence peut être vu de la conférence précédente, la question de la convergence des conclusions en fait et les conclusions convergent devant est similaire MPE.

  • Obtenez une amélioration significative des performances, on extrait une partie de la même caractérisation pour surmonter les effets de cette performance a grandement amélioré.

  • références:

    Note: La classe ouverte principalement sur le contenu des deux articles précédents de Yuxi Yu

    Ce sont les clients actuels partagent tous. Plus ouvert go vidéo de classe au collège AI Mu Lei Feng réseau de cours à regarder. Mise au point sur le numéro public micro-canal: AI Technology Review, la dernière fois classe ouverte disponible en direct préavis.

    Midday Nouvelles Star | box-office national cinq « des dizaines de milliards monsieur, » Qui est la plus haute teneur en or, le succès naturalisé! Hou soleil Yongyong livret de passeport chinois et P
    Précédent
    Jouer à Art à regarder COMME des GARÇONS, joint Piero Fornasetti un seul produit prêt à frapper
    Prochain
    2018 Conférence sur l'innovation
    La nouvelle vraie voiture Citroën Elysée, puis exposé au marché en 2017
    millet blanc MIX lune brillante a ouvert l'achat: directement après a commencé à vendre en rupture de stock!
    les dents des yeux gros de mouvement? Que la gloire du flux d'aspiration fou roi Carnaval! Netizen: Qui est la première plate-forme à la fin?
    « L'ouragan Robbing étrange » exposé l'affiche ultime 11,02 libération, les catastrophes naturelles meurtrières défiant la mort sans précédent Indiana
    2018 Conférence sur l'innovation
    Enfin le bas de gamme des téléphones Nokia que 6 devrait être appelé vieille machine
    2016 Los Angeles Auto Show: concept car Jaguar I-APCE Publié
    Millet tiré le premier coup de la nouvelle année: riz rouge Remarque 4X aura trois versions sont disponibles
    Mensonge arme à feu? Mlle enregistrée Assemblée Tucao, a été brutalement poudre noire frottis malveillant! Après la vérité, pulvérisateur ignorant!
    Attrapez cette vague de nourriture pour chiens pour asperger 365 jours!
    Gangster débat houleux: l'hiver AI vraiment venir?