annuaire
Utiliser la géométrie de la scène des poids de perte des incertitudes de conception et sémantique apprentissage multi-tâches
Comprendre la généralisation des réseaux de neurones récurrents
pertes en forme de morceaux linéaires activation sensiblement plane réseau de neurones
MT-BioNER: la structure du modèle d'apprentissage multi-tâche BERT reconnaissance d'entités nommées dans le domaine médical
Hiérarchique multi-tâches axées sur l'apprentissage de la représentation sémantique
Utiliser la géométrie de la scène des poids de perte des incertitudes de conception et sémantique apprentissage multi-tâches
Titre de la thèse: multi-tâches d'apprentissage utilisant l'incertitude pour peser les pertes pour la scène et la géométrie Sémantique
Auteur: Alex Kendall / Yarin Gal / Roberto Cipolla
Publié: 24/04/2018
Documents lien: https //Paper.yanxishe.com/review/17097 de = :? leiphonecolumn_paperreview0421
raison recommandée
l'apprentissage multi-tâches de plus en plus la mission a joué un rôle de catalyseur dans la vitesse de formation et les scores de performance, etc., mais le calcul de la perte, la perte de la façon de déterminer le poids de chaque poids sous-tâche est une difficulté majeure, car à proximité de la meilleure perte de poids souvent accompagné la performance pire qu'un modèle unique de la valeur de la perte de poids. De la tâche d'incertitude d'homogénéisation (homoscédastique d'incertitude) point de vue, l'utilisation de la régression simplifiée, le modèle de classification, plusieurs tâches d'analyse de régression, la fonction objective modèle de régression multi-tâches + tâches de classification, a proposé la diffusion de l'information pour tirer profit de l'ensemble de données la conception et la méthode de formation de poids lourds.
modèle multi-tâches comme décrit ci-dessus conçu pour vaincre tout le modèle unique tâche et atteint SOTA, en même temps, les auteurs prouvent que cette perte est conçue avec des informations solides pour les paramètres d'initialisation.
Du point de vue de la théorie bayésienne, proposé une méthode alternative pour ajuster manuellement les paramètres pour déterminer la perte de poids de la fonction multi-tâches, non seulement efficace, forte et l'intelligibilité. Cette approche ne peut pas être la panacée, mais présente certainement un sous-espace de recherche viable, a proposé une nouvelle façon de fonctionner de perte de conception d'apprentissage multi-tâches.
Comprendre la généralisation des réseaux de neurones récurrents
Titre de la thèse: Comprendre Généralisation dans les réseaux de neurones récurrents
Auteur: Zhuozhuo Tu / Fengxiang Il / Dacheng Tao
Publié: 26/09/2019
Documents lien: https: //paper.yanxishe.com/review/17096 de = leiphonecolumn_paperreview0421?
raison recommandée
Ce document a été inclus en 2020 IPSC, de Cheng Group Amoy
Dans cet article, nous décrivons l'analyse théorique des performances de généralisation des réseaux de neurones récurrents. Nous avons d'abord Matrice 1- norme et Norm Fisher-Rao a proposé une nouvelle généralisation limite des réseaux de neurones récurrents. norme définie Fisher-Rao du lemme dépend de la structure à propos de gradient RNN. La nouvelle frontière est la matrice de covariance de données admises d'entrée de généralisation est définie positive, ce qui peut limiter son application dans la pratique. Pour résoudre ce problème, nous proposons d'ajouter un bruit aléatoire dans les données d'entrée et prouvée par un bruit aléatoire (données de bruit aléatoire est l'expansion d'entrée) une frontière de formation de généralisation. Par rapport aux résultats précédents, les limites que nous Généralisation aucune dépendance évidente de la taille du réseau. Nous avons également constaté que la norme réseau de neurones récurrent Fisher-Rao (RNN) peut être interprété comme une mesure du gradient, gradient dans lequel ils peuvent mesurer non seulement de resserrer les frontières, mais établit aussi la relation entre la généralisation et de l'éducabilité. Sur cette base, nous avons analysé l'influence des caractéristiques de généralisation de covariance de la théorie des réseaux de neurones, et discuter de la formation de poids et comment gradient d'atténuation peut améliorer la généralisation des réseaux de neurones des cultures.
pertes en forme de morceaux linéaires activation sensiblement plane réseau de neurones
Thèse Titre: activations linéaires par morceaux de forme sensiblement les surfaces de perte de réseaux de neurones
Auteur: Fengxiang Il / Bohan Wang / Dacheng Tao
Publié: 26/09/2019
Documents lien: https //Paper.yanxishe.com/review/17095 de = :? leiphonecolumn_paperreview0421
raison recommandée
Ce document a été inclus IPSC 2020, loin du grand groupe de poterie Union Centre d'intelligence artificielle Frère à l'Université de Sydney.
Comprendre le plan de neurones pertes de réseau pour comprendre la profondeur de l'apprentissage est essentiel. Cet article décrit comment linéaire par morceaux fonction d'activation perte de réseau de neurones de forme plane essentiellement. On montre d'abord beaucoup de perte de réseaux planaires avec minimum pseudo locaux illimités, ces valeurs minimum pseudo local est défini comme le risque minimum que l'expérience globale minimum local plus élevé. Nos résultats suggèrent que l'activation du réseau et linéaire par morceaux linéaire réseau de neurones a été bien étudié les personnes différentes dans la nature. Dans la pratique, ce résultat applique à la plupart de la perte de la fonction et le réseau de neurones ayant une fonction d'activation linéaire par morceaux de profondeur arbitraire (non compris une fonction linéaire). Pour l'essentiel, l'hypothèse la plus fondamentale est conforme à la situation réelle, à savoir la couche de sortie est plus étroite que tout de la couche cachée. En outre, l'utilisation du plan limite non différentiable linéaire ayant une perte par morceaux activé réseau neuronal en une pluralité d'éléments linéaires multiples lisses. La configuration des minima locaux sous forme de fond pseudo-vallée dans une unité: sont reliés entre eux par une expérience de chemin continue un risque constant. Pour seul réseau de couche cachée, nous démontrons encore un minimum de toutes les unités locales constitue une classe d'équivalence, ils sont concentrés sur un fond ri, ce sont l'unité minimale globale.
MT-BioNER: la structure du modèle d'apprentissage multi-tâche BERT reconnaissance d'entités nommées dans le domaine médical
Titre de la thèse: MT-BioNER: multi-tâches d'apprentissage pour la reconnaissance d'entités nommées biomédicale utilisant des transformateurs profonds Bidirectionnel
Auteur: Muhammad Raza Khan / Morteza Ziyadi / Mohamed Abdelhady
Publié: 24/01/2020
Documents lien: https //Paper.yanxishe.com/review/16879 de = :? leiphonecolumn_paperreview0421
raison recommandée
Pour aider à l'assistant de chat de formation, Microsoft a proposé un modèle basé sur le modèle de pré-formation BERT multitâches reconnaissance d'entités nommées (NER) sur plusieurs ensembles de données de différents domaines médicaux, l'approche spécifique est le modèle de formation pré-BERT pour la couche commune ( couche d'émission), une tâche sous-ensemble (tâche couche spécifique) de chaque ensemble de champs de données, chacun des poids des sous-tâche sont 1 pour le calcul de la perte de poids. Pendant ce temps, pour sans perte de précision, d'améliorer efficacement l'efficacité du temps et des aspects spatiaux du modèle, une variété de la formation des techniques expérimentales, la couche BERT a choisi des couches de formation et de partage ensemble, et un champ de jeu de données sélectionné de façon aléatoire la formation mini-lot.
En toute justice, les auteurs ont choisi de tester les ensembles de données publiques, modèle espace-temps de l'efficacité, les scores de performance sont à SOTA.
Ceci est une des méthodes d'apprentissage multi-tâches classique, avec ses propres mots de l'auteur, cette caractéristique du modèle est simple et efficace, avec softmax remplacer CRF, mini-lot choisi au hasard, ainsi que des auteurs pré-formés en discuter, mais n'a pas rejoint l'expérience méthode BERT de pré-formation à nouveau, ont résolu beaucoup de mes questions. En même temps, parce que l'idée est simple, les auteurs expliquent en détail pour l'expérience, l'apprentissage peut être très forte.
Le code n'est pas décrit ici, mais fournit des ensembles de données utilisés.
Hiérarchique multi-tâches axées sur l'apprentissage de la représentation sémantique
Titre de la thèse: Une hiérarchique multi-tâche approche pour l'apprentissage Plongements de tâches sémantiques
Auteur: Victor Sanh / Thomas Wolf / Sebastian Ruder
Publié: 26/11/2018
Documents lien: https //Paper.yanxishe.com/review/16753 de = :? leiphonecolumn_paperreview0421
raison recommandée
Dans cet article, apprendre à utiliser multi-tâches (apprentissage multi-tâches) pour obtenir une représentation sémantique plus riche d'informations, la méthode spécifique est de concevoir un modèle de réseau hiérarchique pour le contexte d'extraction de caractéristiques d'une phrase, et à partir de cette fonction, NER séquentiellement conçu (entités nommées Recognition), EMD (Entité Mention de détection), RE (parenté Extraction), les tâches CR (coréférence résolution). Chaque tâche a laquelle sa propre structure de formation BiLSTM et reçoit en même temps un élément de contexte de tâche de couche supérieure, les caractéristiques sémantiques inférieures en entrée. processus de formation, après la fin d'une mise à jour, sélectionnera au hasard une tâche et l'ensemble de données correspondant pour le prochain cycle de formation. En outre, les auteurs ont tenté l'échange d'informations entre les tâches en utilisant une combinaison de différentes formations sous-tâche et de la hiérarchie à observer.
En effet, que ce soit la vitesse ou le score F1, ce modèle multi-tâches qu'un seul modèle de tâche (y compris la mise en place d'un modèle d'information de syntaxe supplémentaires) doivent être excellent. Pendant ce temps, les auteurs ont extrait des couches d'information, sur plusieurs missions (sondage des tâches) analyse la représentation sémantique de l'information les méthodes d'apprentissage multi-tâches apprises en détail.
De nombreuses études ont démontré qu'un modèle d'apprentissage multi-tâche bien conçue est très efficace, mais aussi difficile à concevoir. Dans cet article, la représentation sémantique de l'apprentissage multi-tâches tirées de l'étude comment éliminer catastrophique oublié (oubli de catastropic), la connaissance sémantique efficace l'apprentissage d'autres tâches et ainsi de suite, avec de bons résultats.
échange d'emploi
AI a maintenant Yanxishe Ali et un grand divertissement, vue dégagée, recherche Sogou, le millet et d'autres sociétés bien connues ont atteint un contact pour vous aider à trouver un emploi meilleur emploi, mettre en place une communauté au sein de la communauté AI pour pousser un emploi, recherche d'emploi Stage petit partenaire peut analyser le code dans le groupe, a également salué les élèves à lire l'échange de l'apprentissage. (Le groupe a une heure d'entreprise, le recrutement du personnel du projet)
Lei Feng Lei Feng Lei réseau de réseau de réseau Feng