Livre d'aujourd'hui | apprentissage multi-tâche sémantique; neuronal récurrent, la perte de l'avion; MT-BioNER etc.

annuaire

Utiliser la géométrie de la scène des poids de perte des incertitudes de conception et sémantique apprentissage multi-tâches

Comprendre la généralisation des réseaux de neurones récurrents

pertes en forme de morceaux linéaires activation sensiblement plane réseau de neurones

MT-BioNER: la structure du modèle d'apprentissage multi-tâche BERT reconnaissance d'entités nommées dans le domaine médical

Hiérarchique multi-tâches axées sur l'apprentissage de la représentation sémantique

Utiliser la géométrie de la scène des poids de perte des incertitudes de conception et sémantique apprentissage multi-tâches

Titre de la thèse: multi-tâches d'apprentissage utilisant l'incertitude pour peser les pertes pour la scène et la géométrie Sémantique

Auteur: Alex Kendall / Yarin Gal / Roberto Cipolla

Publié: 24/04/2018

Documents lien: https //Paper.yanxishe.com/review/17097 de = :? leiphonecolumn_paperreview0421

raison recommandée

l'apprentissage multi-tâches de plus en plus la mission a joué un rôle de catalyseur dans la vitesse de formation et les scores de performance, etc., mais le calcul de la perte, la perte de la façon de déterminer le poids de chaque poids sous-tâche est une difficulté majeure, car à proximité de la meilleure perte de poids souvent accompagné la performance pire qu'un modèle unique de la valeur de la perte de poids. De la tâche d'incertitude d'homogénéisation (homoscédastique d'incertitude) point de vue, l'utilisation de la régression simplifiée, le modèle de classification, plusieurs tâches d'analyse de régression, la fonction objective modèle de régression multi-tâches + tâches de classification, a proposé la diffusion de l'information pour tirer profit de l'ensemble de données la conception et la méthode de formation de poids lourds.

modèle multi-tâches comme décrit ci-dessus conçu pour vaincre tout le modèle unique tâche et atteint SOTA, en même temps, les auteurs prouvent que cette perte est conçue avec des informations solides pour les paramètres d'initialisation.

Du point de vue de la théorie bayésienne, proposé une méthode alternative pour ajuster manuellement les paramètres pour déterminer la perte de poids de la fonction multi-tâches, non seulement efficace, forte et l'intelligibilité. Cette approche ne peut pas être la panacée, mais présente certainement un sous-espace de recherche viable, a proposé une nouvelle façon de fonctionner de perte de conception d'apprentissage multi-tâches.

Comprendre la généralisation des réseaux de neurones récurrents

Titre de la thèse: Comprendre Généralisation dans les réseaux de neurones récurrents

Auteur: Zhuozhuo Tu / Fengxiang Il / Dacheng Tao

Publié: 26/09/2019

Documents lien: https: //paper.yanxishe.com/review/17096 de = leiphonecolumn_paperreview0421?

raison recommandée

Ce document a été inclus en 2020 IPSC, de Cheng Group Amoy

Dans cet article, nous décrivons l'analyse théorique des performances de généralisation des réseaux de neurones récurrents. Nous avons d'abord Matrice 1- norme et Norm Fisher-Rao a proposé une nouvelle généralisation limite des réseaux de neurones récurrents. norme définie Fisher-Rao du lemme dépend de la structure à propos de gradient RNN. La nouvelle frontière est la matrice de covariance de données admises d'entrée de généralisation est définie positive, ce qui peut limiter son application dans la pratique. Pour résoudre ce problème, nous proposons d'ajouter un bruit aléatoire dans les données d'entrée et prouvée par un bruit aléatoire (données de bruit aléatoire est l'expansion d'entrée) une frontière de formation de généralisation. Par rapport aux résultats précédents, les limites que nous Généralisation aucune dépendance évidente de la taille du réseau. Nous avons également constaté que la norme réseau de neurones récurrent Fisher-Rao (RNN) peut être interprété comme une mesure du gradient, gradient dans lequel ils peuvent mesurer non seulement de resserrer les frontières, mais établit aussi la relation entre la généralisation et de l'éducabilité. Sur cette base, nous avons analysé l'influence des caractéristiques de généralisation de covariance de la théorie des réseaux de neurones, et discuter de la formation de poids et comment gradient d'atténuation peut améliorer la généralisation des réseaux de neurones des cultures.

pertes en forme de morceaux linéaires activation sensiblement plane réseau de neurones

Thèse Titre: activations linéaires par morceaux de forme sensiblement les surfaces de perte de réseaux de neurones

Auteur: Fengxiang Il / Bohan Wang / Dacheng Tao

Publié: 26/09/2019

Documents lien: https //Paper.yanxishe.com/review/17095 de = :? leiphonecolumn_paperreview0421

raison recommandée

Ce document a été inclus IPSC 2020, loin du grand groupe de poterie Union Centre d'intelligence artificielle Frère à l'Université de Sydney.

Comprendre le plan de neurones pertes de réseau pour comprendre la profondeur de l'apprentissage est essentiel. Cet article décrit comment linéaire par morceaux fonction d'activation perte de réseau de neurones de forme plane essentiellement. On montre d'abord beaucoup de perte de réseaux planaires avec minimum pseudo locaux illimités, ces valeurs minimum pseudo local est défini comme le risque minimum que l'expérience globale minimum local plus élevé. Nos résultats suggèrent que l'activation du réseau et linéaire par morceaux linéaire réseau de neurones a été bien étudié les personnes différentes dans la nature. Dans la pratique, ce résultat applique à la plupart de la perte de la fonction et le réseau de neurones ayant une fonction d'activation linéaire par morceaux de profondeur arbitraire (non compris une fonction linéaire). Pour l'essentiel, l'hypothèse la plus fondamentale est conforme à la situation réelle, à savoir la couche de sortie est plus étroite que tout de la couche cachée. En outre, l'utilisation du plan limite non différentiable linéaire ayant une perte par morceaux activé réseau neuronal en une pluralité d'éléments linéaires multiples lisses. La configuration des minima locaux sous forme de fond pseudo-vallée dans une unité: sont reliés entre eux par une expérience de chemin continue un risque constant. Pour seul réseau de couche cachée, nous démontrons encore un minimum de toutes les unités locales constitue une classe d'équivalence, ils sont concentrés sur un fond ri, ce sont l'unité minimale globale.

MT-BioNER: la structure du modèle d'apprentissage multi-tâche BERT reconnaissance d'entités nommées dans le domaine médical

Titre de la thèse: MT-BioNER: multi-tâches d'apprentissage pour la reconnaissance d'entités nommées biomédicale utilisant des transformateurs profonds Bidirectionnel

Auteur: Muhammad Raza Khan / Morteza Ziyadi / Mohamed Abdelhady

Publié: 24/01/2020

Documents lien: https //Paper.yanxishe.com/review/16879 de = :? leiphonecolumn_paperreview0421

raison recommandée

Pour aider à l'assistant de chat de formation, Microsoft a proposé un modèle basé sur le modèle de pré-formation BERT multitâches reconnaissance d'entités nommées (NER) sur plusieurs ensembles de données de différents domaines médicaux, l'approche spécifique est le modèle de formation pré-BERT pour la couche commune ( couche d'émission), une tâche sous-ensemble (tâche couche spécifique) de chaque ensemble de champs de données, chacun des poids des sous-tâche sont 1 pour le calcul de la perte de poids. Pendant ce temps, pour sans perte de précision, d'améliorer efficacement l'efficacité du temps et des aspects spatiaux du modèle, une variété de la formation des techniques expérimentales, la couche BERT a choisi des couches de formation et de partage ensemble, et un champ de jeu de données sélectionné de façon aléatoire la formation mini-lot.

En toute justice, les auteurs ont choisi de tester les ensembles de données publiques, modèle espace-temps de l'efficacité, les scores de performance sont à SOTA.

Ceci est une des méthodes d'apprentissage multi-tâches classique, avec ses propres mots de l'auteur, cette caractéristique du modèle est simple et efficace, avec softmax remplacer CRF, mini-lot choisi au hasard, ainsi que des auteurs pré-formés en discuter, mais n'a pas rejoint l'expérience méthode BERT de pré-formation à nouveau, ont résolu beaucoup de mes questions. En même temps, parce que l'idée est simple, les auteurs expliquent en détail pour l'expérience, l'apprentissage peut être très forte.

Le code n'est pas décrit ici, mais fournit des ensembles de données utilisés.

Hiérarchique multi-tâches axées sur l'apprentissage de la représentation sémantique

Titre de la thèse: Une hiérarchique multi-tâche approche pour l'apprentissage Plongements de tâches sémantiques

Auteur: Victor Sanh / Thomas Wolf / Sebastian Ruder

Publié: 26/11/2018

Documents lien: https //Paper.yanxishe.com/review/16753 de = :? leiphonecolumn_paperreview0421

raison recommandée

Dans cet article, apprendre à utiliser multi-tâches (apprentissage multi-tâches) pour obtenir une représentation sémantique plus riche d'informations, la méthode spécifique est de concevoir un modèle de réseau hiérarchique pour le contexte d'extraction de caractéristiques d'une phrase, et à partir de cette fonction, NER séquentiellement conçu (entités nommées Recognition), EMD (Entité Mention de détection), RE (parenté Extraction), les tâches CR (coréférence résolution). Chaque tâche a laquelle sa propre structure de formation BiLSTM et reçoit en même temps un élément de contexte de tâche de couche supérieure, les caractéristiques sémantiques inférieures en entrée. processus de formation, après la fin d'une mise à jour, sélectionnera au hasard une tâche et l'ensemble de données correspondant pour le prochain cycle de formation. En outre, les auteurs ont tenté l'échange d'informations entre les tâches en utilisant une combinaison de différentes formations sous-tâche et de la hiérarchie à observer.

En effet, que ce soit la vitesse ou le score F1, ce modèle multi-tâches qu'un seul modèle de tâche (y compris la mise en place d'un modèle d'information de syntaxe supplémentaires) doivent être excellent. Pendant ce temps, les auteurs ont extrait des couches d'information, sur plusieurs missions (sondage des tâches) analyse la représentation sémantique de l'information les méthodes d'apprentissage multi-tâches apprises en détail.

De nombreuses études ont démontré qu'un modèle d'apprentissage multi-tâche bien conçue est très efficace, mais aussi difficile à concevoir. Dans cet article, la représentation sémantique de l'apprentissage multi-tâches tirées de l'étude comment éliminer catastrophique oublié (oubli de catastropic), la connaissance sémantique efficace l'apprentissage d'autres tâches et ainsi de suite, avec de bons résultats.

échange d'emploi

AI a maintenant Yanxishe Ali et un grand divertissement, vue dégagée, recherche Sogou, le millet et d'autres sociétés bien connues ont atteint un contact pour vous aider à trouver un emploi meilleur emploi, mettre en place une communauté au sein de la communauté AI pour pousser un emploi, recherche d'emploi Stage petit partenaire peut analyser le code dans le groupe, a également salué les élèves à lire l'échange de l'apprentissage. (Le groupe a une heure d'entreprise, le recrutement du personnel du projet)

Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

Les ventes de la plate-forme full break 300 millions, la gloire 30 titane argent vide par le blitz All-Star
Précédent
Après deux années de recherche et développement, le premier livre de produits AI bienvenue UIPA Arm Chine a atterri débuts
Prochain
Baidu vice-président a été arrêté sur des soupçons de corruption, Ma Gates a nommé plus grands leaders dans la lutte mondiale contre le SRAS, l'iPhone 12 ou plus petits bangs | Lei Feng Matin
Montagne Computing World-: méthodologie AI à être mis à jour, après la peste AI développera?
Millet sur tous les canaux hors ligne
Dharma stratégique hôpital Ali « médical AI » complète la mise en page du texte de mot Shu Wan
Durant se trouve à Auckland presque à la maison 6,0 millions $ pour le prix de vente
Quelle préférée? l'équipe officielle Bull a fait des plans pour passer en revue le maillot rétro classique
Vidéo | réglé Jian Fish Island! Est du groupe a signé un accord de coopération stratégique avec le camp Eternal Flame
Pelle Maritime Safety Administration Shenzhen: la protection des routes internationales 381 passagers à l'arrivée de sécurité de l'équipage
98 ans astronome jours Han dioxine déversés, manger correctement le personnel récompense
Effrayant! Les visiteurs découvrent un trapèze a percuté un garde-fou, scénique a répondu: le personnel du Département des erreurs opérationnelles
« La plus belle librairie » cloche pour ouvrir de nouveaux magasins dans Xidan Book Club
fournitures d'urgence des médecins britanniques porter des tabliers en plastique, Chine livré 25 millions de séries de vêtements de protection