Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre

annuaire

  • gradient de cisaillement descente de gradient peut être accélérée

  • NER complète la structure bidirectionnelle LSTM + CRF

  • Structure complète du réseau de neurones de NER

  • Traitement du langage naturel (presque) à partir de zéro

  • intensité du point de temps libre en fonction du processus d'apprentissage

gradient de cisaillement descente de gradient peut être accélérée

Titre de la thèse: Pourquoi Gradient Clipping Accélère Formation: théorique Justification de Adaptativité

Auteur: Jingzhao Zhang / Tianxing Il / Suvrit Sra / Ali Jadbabaie

Publié: 26/09/2019

Documents lien: https: //openreview.net/forum id = BJgnXpVYwS?

Au cours de la formation du réseau de neurones du gradient de cisaillement est une tendance récente de plus en plus populaire, mais beaucoup de gens ne savent pas comment cette approche efficace. Ce document donne une explication sur la théorie et la preuve que le gradient de cisaillement en effet utile pour la formation du réseau.

Les auteurs du processus de formation du réseau douceur réelle de vue, une analyse minutieuse et le raisonnement, ont prouvé que deux régularisation gradient et le gradient de méthodes communes peuvent converger plus rapidement que la diminution de la taille de pas fixe traditionnelle du gradient de . Les auteurs ont également fait une explication plus détaillée, et dans un ensemble de formation de réseau commun par la vérification expérimentale de leurs théories.

Ce document a été examen par les pairs louent, est reçu comme ICLR2020 communications orales.

NER complète la structure bidirectionnelle LSTM + CRF

Titre de la thèse: CRF-LSTM Bidirectionnelle modèles pour la séquence Tagging

Auteur: Zhiheng Huang / Wei Xu / Kai Yu

Publié: 09/08/2015

Documents lien: https: //arxiv.org/pdf/1508.01991.pdf

Le problème de base: Cela se fait grâce à la reconnaissance de l'entité nommée de travail, qui est l'une d'une série à l'aide de la structure RNN et travailler conjointement avec la couche de CRF NER de l'article.

Innovation: L'innovation de cet article est l'utilisation de deux voies LSTM + CRF comme un modèle de réseau, ce sens innovateur sont innovants dans la structure, l'effet est souvent le modèle est l'innovation sur la structure.

Les implications pour la recherche: modèle BI-LSTM-CRF éprouvée peut être utilisé efficacement dans les informations d'entrée passé et futur.

Structure complète du réseau de neurones de NER

Titre de la thèse: Neural Architectures pour la reconnaissance d'entités nommées

Auteur: Guillaume Lample / Miguel Ballesteros / Sandeep Subramanian / Kazuya Kawakami

Publié: 07/04/2016

Documents lien: https: //arxiv.org/pdf/1603.01360.pdf

raison recommandée

Le problème de base: Cela se fait dans le domaine classique est NLP nommé pour identifier les problèmes identifiés dans le présent document, on peut dire que le rôle de connecter sa pratique a changé de cap avant, et après de nombreuses tâches utilisent cette structure de base.

L'innovation: le modèle de base précédemment utilisés sont CNN, tel qu'il est utilisé ici RNN au lieu de CNN, et de construire un ensemble de structure du modèle RNN + CRF, et ce modèle fonctionne bien la structure

Signification: l'effet obtenu à l'aide d'expérience LSTM-CRF en anglais, néerlandais, allemand et espagnol se sont révélés en mesure d'obtenir de meilleures performances NER, et en l'absence de toute fonction de marquage manuel, disponible sur les Anglais très bonne performance.

Traitement du langage naturel (presque) à partir de zéro

Titre de la thèse: Traitement du langage naturel (presque) à partir de zéro

Auteur: Ronan Collobert / Jason Weston / Leon Bottou / Michael Karlen / Koray Kavukcuoglu / Pavel Kuksa

Publié: 1/10/2011

Documents lien: http: //jmlr.org/papers/volume12/collobert11a/collobert11a.pdf

raison recommandée

Tel qu'il est utilisé ici, nous avons résolu les questions fondamentales: Cet article présente un réseau de neurones profonds ont des moyens d'accomplir diverses tâches, NLP telles que le marquage de la parole, Chunking, reconnaissance d'entités nommées et l'étiquetage rôle sémantique.

cibler la recherche: Cet article a été considéré comme une utilisation précoce de la méthode d'apprentissage en profondeur était de faire une tâche similaire, il apprend que la machine doivent comprendre les avantages du manuel était de caractéristiques de construction, et ne doit pas avoir des caractéristiques différentes en fonction des tâches de construction différentes. Il est réalisé par deux modèles de réseau, un modèle de réseau pour extraire fonction locale, un modèle de réseau pour extraire les caractéristiques globales supplémentaires.

Signification: Tel qu'il est utilisé ici, l'idée de base est d'avoir une formation multi-mission a été pensée, en particulier pour former une bonne intégration de mot, et ensuite utiliser le vecteur de mot après l'achèvement des sous-tâches, et ont obtenu de bonnes performances.

Cet article est le noyau de convolution utilise le réseau de neurones était, en fait, parfois, je trouve dans le champ de texte, l'effet est atteint convolution réseau de neurones est bon aussi.

intensité du point de temps libre en fonction du processus d'apprentissage

Titre de la thèse: intensité sans apprentissage des processus temporels point

Auteur: Oleksandr Shchur / Bilos Marin / Günnemann Stephan

Publié: 26/09/2019

Documents lien: https: //arxiv.org/abs/1909.12127

raison recommandée

Le processus est une séquence temporelle de la classe d'événement asynchrone méthode efficace pour la modélisation de domaine temporel continu. La méthode dans la prédiction d'événements, l'analyse causale, la direction du schéma de modélisation a été largement utilisé. Un problème central de cette méthode est que les conditions de calcul de la fonction d'intensité. Cependant, il suffit de spécifier la fonction d'intensité (famille exponentielle, etc.) provoquera le modèle capacité limitée d'exprimer de manière complexe entraînerait des difficultés à survivre fonction d'intensité calcul de l'intégrale du terme requis par méthode numérique. Une autre façon ici, aucune fonction d'intensité du modèle, mais la modélisation directe sont proposées probabilité conditionnelle procédé continu et un procédé basé sur le mélange gaussien. Le test final a atteint ou dépassé la Sota actuelle en matière de prévision des séries chronologiques et d'autres tâches, et la méthode proposée est bien adaptée à l'étude de l'intégration séquence et la suppression des problèmes d'information de séquence dans le cas.

Les auteurs équipe recrutée

Afin de mieux servir notre section jeunesse AI, AI Yanxishe officiellement lancé un nouveau « papiers » dans l'espoir que « point d'intérêt », comme une jeunesse étudiante papier de polymérisation AI, recommandé par des documents de tri, critiques interprètent le code à reproduire. Pour devenir l'apprentissage de pointe à la maison et à l'étranger pour discuter des résultats de recherche et a publié un lieu de rassemblement, mais aussi à l'excellente recherche plus largement répandue et reconnue.

Nous espérons que vous aimez les milieux universitaires, les auteurs peuvent se joindre à notre équipe.

Adhérez auteurs équipe, vous pouvez obtenir

1. Département de l'article avec votre nom, vous combattrez la plus brillante étoile académique

2. Les droits lucratifs

Interpoler 3.ai entreprises célèbres, le bien-être des billets Assemblée, souvenirs, etc., etc. exclusivité dans.

Joignez-vous à l'équipe des auteurs dont vous avez besoin:

1. Est-ce que vous aimez le papier recommandé à la majorité des Rotariens Yanxishe

2. Compose documents de lecture

Si vous êtes prêt à rejoindre l'équipe à temps partiel AI Yanxishe des auteurs du papier, vous pouvez ajouter la petite soeur des opérations de micro-canaux, notes « partie de la thèse »

Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose
Précédent
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Prochain
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois
Comment gérer ses émotions, exercer le cerveau? Lire les livres de sciences sociales pour le Nouvel An chinois
Yiwu livraison a chuté de 8 pour cheveux simple: ouvrir la porte pour faire des affaires ne font pas d'argent, dessin quoi?
Nokia a tenu une première conférence de l'An, le nouveau navire amiral de cent dollars la machine laissés Shu titane Nouvelles
Les ingénieurs de Stanford créer un robot déformable, doux libre de vagabonder
Jeux Tencent 2019 Revue des gains: un quart des ventes à l'étranger de près de 70 milliards dans les premières mains dix de Voyage mondiale pour cinq sièges comptabilisés
épine Zach Burke, TikTok succès mondial peut être reproduit?
BMW a annoncé 2019 gains, ce qu'elle triomphe? | Voir le bénéfice
nuage Tencent sur 2019 chiffre d'affaires de 17 milliards, alors que les investisseurs se concentrent le télétravail | voir des gains