annuaire
-
gradient de cisaillement descente de gradient peut être accélérée
-
NER complète la structure bidirectionnelle LSTM + CRF
-
Structure complète du réseau de neurones de NER
-
Traitement du langage naturel (presque) à partir de zéro
-
intensité du point de temps libre en fonction du processus d'apprentissage
gradient de cisaillement descente de gradient peut être accélérée
Titre de la thèse: Pourquoi Gradient Clipping Accélère Formation: théorique Justification de Adaptativité
Auteur: Jingzhao Zhang / Tianxing Il / Suvrit Sra / Ali Jadbabaie
Publié: 26/09/2019
Documents lien: https //Paper.yanxishe.com/review/10859 de = :? leiphonecolumn_paperreview0212
Au cours de la formation du réseau de neurones du gradient de cisaillement est une tendance récente de plus en plus populaire, mais beaucoup de gens ne savent pas comment cette approche efficace. Ce document donne une explication sur la théorie et la preuve que le gradient de cisaillement en effet utile pour la formation du réseau.
Les auteurs du processus de formation du réseau douceur réelle de vue, une analyse minutieuse et le raisonnement, ont prouvé que deux régularisation gradient et le gradient de méthodes communes peuvent converger plus rapidement que la diminution de la taille de pas fixe traditionnelle du gradient de . Les auteurs ont également fait une explication plus détaillée, et dans un ensemble de formation de réseau commun par la vérification expérimentale de leurs théories.
Ce document a été examen par les pairs louent, est reçu comme ICLR2020 communications orales.
NER complète la structure bidirectionnelle LSTM + CRF
Titre de la thèse: CRF-LSTM Bidirectionnelle modèles pour la séquence Tagging
Auteur: Zhiheng Huang / Wei Xu / Kai Yu
Publié: 09/08/2015
Documents lien: https //Paper.yanxishe.com/review/10858 de = :? leiphonecolumn_paperreview0212
Le problème de base: Cela se fait grâce à la reconnaissance de l'entité nommée de travail, qui est l'une d'une série à l'aide de la structure RNN et travailler conjointement avec la couche de CRF NER de l'article.
Innovation: L'innovation de cet article est l'utilisation de deux voies LSTM + CRF comme un modèle de réseau, ce sens innovateur sont innovants dans la structure, l'effet est souvent le modèle est l'innovation sur la structure.
Les implications pour la recherche: modèle BI-LSTM-CRF éprouvée peut être utilisé efficacement dans les informations d'entrée passé et futur.
Structure complète du réseau de neurones de NER
Titre de la thèse: Neural Architectures pour la reconnaissance d'entités nommées
Auteur: Guillaume Lample / Miguel Ballesteros / Sandeep Subramanian / Kazuya Kawakami
Publié: 07/04/2016
Documents lien: https //Paper.yanxishe.com/review/10857 de = :? leiphonecolumn_paperreview0212
raison recommandée
Le problème de base: Cela se fait dans le domaine classique est NLP nommé pour identifier les problèmes identifiés dans le présent document, on peut dire que le rôle de connecter sa pratique a changé de cap avant, et après de nombreuses tâches utilisent cette structure de base.
L'innovation: le modèle de base précédemment utilisés sont CNN, tel qu'il est utilisé ici RNN au lieu de CNN, et de construire un ensemble de structure du modèle RNN + CRF, et ce modèle fonctionne bien la structure
Signification: l'effet obtenu à l'aide d'expérience LSTM-CRF en anglais, néerlandais, allemand et espagnol se sont révélés en mesure d'obtenir de meilleures performances NER, et en l'absence de toute fonction de marquage manuel, disponible sur les Anglais très bonne performance.
Traitement du langage naturel (presque) à partir de zéro
Titre de la thèse: Traitement du langage naturel (presque) à partir de zéro
Auteur: Ronan Collobert / Jason Weston / Leon Bottou / Michael Karlen / Koray Kavukcuoglu / Pavel Kuksa
Publié: 1/10/2011
Documents lien: https: //paper.yanxishe.com/review/10856 de = leiphonecolumn_paperreview0212?
raison recommandée
Tel qu'il est utilisé ici, nous avons résolu les questions fondamentales: Cet article présente un réseau de neurones profonds ont des moyens d'accomplir diverses tâches, NLP telles que le marquage de la parole, Chunking, reconnaissance d'entités nommées et l'étiquetage rôle sémantique.
cibler la recherche: Cet article a été considéré comme une utilisation précoce de la méthode d'apprentissage en profondeur était de faire une tâche similaire, il apprend que la machine doivent comprendre les avantages du manuel était de caractéristiques de construction, et ne doit pas avoir des caractéristiques différentes en fonction des tâches de construction différentes. Il est réalisé par deux modèles de réseau, un modèle de réseau pour extraire fonction locale, un modèle de réseau pour extraire les caractéristiques globales supplémentaires.
Signification: Tel qu'il est utilisé ici, l'idée de base est d'avoir une formation multi-mission a été pensée, en particulier pour former une bonne intégration de mot, et ensuite utiliser le vecteur de mot après l'achèvement des sous-tâches, et ont obtenu de bonnes performances.
Cet article est le noyau de convolution utilise le réseau de neurones était, en fait, parfois, je trouve dans le champ de texte, l'effet est atteint convolution réseau de neurones est bon aussi.
intensité du point de temps libre en fonction du processus d'apprentissage
Titre de la thèse: intensité sans apprentissage des processus temporels point
Auteur: Oleksandr Shchur / Bilos Marin / Günnemann Stephan
Publié: 26/09/2019
Documents lien: https: //paper.yanxishe.com/review/10386 de = leiphonecolumn_paperreview0212?
raison recommandée
Le processus est une séquence temporelle de la classe d'événement asynchrone méthode efficace pour la modélisation de domaine temporel continu. La méthode dans la prédiction d'événements, l'analyse causale, la direction du schéma de modélisation a été largement utilisé. Un problème central de cette méthode est que les conditions de calcul de la fonction d'intensité. Cependant, il suffit de spécifier la fonction d'intensité (famille exponentielle, etc.) provoquera le modèle capacité limitée d'exprimer de manière complexe entraînerait des difficultés à survivre fonction d'intensité calcul de l'intégrale du terme requis par méthode numérique. Une autre façon ici, aucune fonction d'intensité du modèle, mais la modélisation directe sont proposées probabilité conditionnelle procédé continu et un procédé basé sur le mélange gaussien. Le test final a atteint ou dépassé la Sota actuelle en matière de prévision des séries chronologiques et d'autres tâches, et la méthode proposée est bien adaptée à l'étude de l'intégration séquence et la suppression des problèmes d'information de séquence dans le cas.
Les auteurs équipe recrutée
Afin de mieux servir notre section jeunesse AI, AI Yanxishe officiellement lancé un nouveau « papiers » dans l'espoir que « point d'intérêt », comme une jeunesse étudiante papier de polymérisation AI, recommandé par des documents de tri, critiques interprètent le code à reproduire. Pour devenir l'apprentissage de pointe à la maison et à l'étranger pour discuter des résultats de recherche et a publié un lieu de rassemblement, mais aussi à l'excellente recherche plus largement répandue et reconnue.
Nous espérons que vous aimez les milieux universitaires, les auteurs peuvent se joindre à notre équipe.
Adhérez auteurs équipe, vous pouvez obtenir
1. Département de l'article avec votre nom, vous combattrez la plus brillante étoile académique
2. Les droits lucratifs
Interpoler 3.ai entreprises célèbres, le bien-être des billets Assemblée, souvenirs, etc., etc. exclusivité dans.
Joignez-vous à l'équipe des auteurs dont vous avez besoin:
1. Est-ce que vous aimez le papier recommandé à la majorité des Rotariens Yanxishe
2. Compose documents de lecture
Si vous êtes prêt à rejoindre l'équipe à temps partiel AI Yanxishe des auteurs du papier, vous pouvez ajouter la petite soeur des opérations de micro-canaux, notes « partie de la thèse »
Lei Feng Lei Feng Lei réseau de réseau de réseau Feng