"Percée NLP depuis 2005" modèle profond d'étiquetage sémantique des rôles, le taux de précision a augmenté de 10 %

Compilé par Xinzhiyuan

Il y a quelques jours, le "Stanford NLP Group" a tweeté que la recherche collaborative Deep Semantic Role Labeling: What Works and What's Next par l'Université de Washington, FAIR, et l'Allen Institute est la "première grande percée en PNL depuis 2005". Cet article a été accepté par l'ACL-17. Le premier auteur de l'article est He Luheng, un doctorant chinois à l'Université de Washington.

Xinzhiyuan a traduit cet article pour vous.

Présentation d'un nouveau modèle d'apprentissage en profondeur pour SRL, améliorant considérablement l'état de l'art

Nous introduisons un nouveau modèle d'apprentissage en profondeur pour l'étiquetage sémantique des rôles (SRL), qui améliore considérablement l'état de l'art et fournit une analyse détaillée de ses avantages et inconvénients. Nous utilisons une architecture Deep Highway BiLSTM avec décodage contraint et examinons les meilleures pratiques récentes pour l'initialisation et la régularisation. Notre modèle à 8 couches atteint 83,2 F1 sur l'ensemble de test CoNLL 2005 et 83,4 F1 sur l'ensemble de test CoNLL 2012. Par rapport à l'état de l'art antérieur, le taux d'erreur relatif est réduit d'environ 10 %. L'analyse empirique des résultats de la recherche montre que : (1) les modèles profonds réussissent bien à récupérer les dépendances sémantiques à longue portée, mais commettent encore des erreurs évidentes ; (2) il y a encore place à l'amélioration de l'analyse sémantique.

L'objectif des systèmes d'étiquetage sémantique des rôles (SRL) est de récupérer la structure prédicat-argument d'une phrase pour porter des jugements de base : "qui a fait quoi à qui", "quand" et "où". Plus récemment, des percées dans les modèles profonds de bout en bout de SRL sans entrées syntaxiques (Zhou et Xu, 2015 ; Marcheggiani et al., 2017) semblent renverser l'opinion de longue date selon laquelle l'analyse sémantique est une condition préalable à cette tâche (Punyakanok et al., 2008). Dans cet article, nous montrons que ce résultat peut être poussé plus loin par un LSTM bidirectionnel à autoroute profonde avec décodage contraint, et améliore à nouveau significativement l'état de l'art (de deux points sur CoNLL 2005). Nous effectuons également une analyse empirique minutieuse des technologies qui fonctionnent actuellement bien et de ce qui doit être fait pour améliorer encore les performances.

Notre modèle intègre certaines des meilleures pratiques de la littérature récente sur l'apprentissage en profondeur. Suivant Zhou et Xu (2015), nous traitons le SRL comme un problème d'étiquetage BIO et utilisons un LSTM bidirectionnel profond. Cependant, nous avons fait les ajustements suivants : (1) simplifier les couches d'entrée et de sortie ; (2) introduire des connexions d'autoroute (Srivastava et al., 2015 ; Zhang et al., 2016) ; (3) utiliser le décrochage récurrent (Gal et Ghahramani , 2016) ; (4) Décodage avec les contraintes BIO ; (5) Fusion avec des produits experts. Notre modèle atteint une réduction de 10 % de l'erreur relative de pointe par rapport aux ensembles de tests CoNLL de 2005 et 2012. Nous rapportons également les performances des prédicats prédits pour inspirer les recherches futures sur les systèmes SRL de bout en bout.

Nous fournissons une analyse détaillée des erreurs pour mieux comprendre les gains de performances, y compris (1) les choix de conception pour l'architecture, l'initialisation et la régularisation, qui ont un impact très important sur les performances du modèle ; (2) différents types d'erreurs de prédiction montrent que les modèles Deep excellent à prédire les dépendances à longue portée, mais souffrent toujours de défis connus (tels que les erreurs d'attachement PP et les distinctions d'arguments complémentaires) ; (3) les rôles syntaxiques suggèrent qu'il existe une marge d'amélioration de la syntaxe oracle, mais les erreurs automatiques existantes de l'analyseur empêchent utilisation efficace dans SRL.

En résumé, nos principales contributions incluent :

Nouveaux réseaux profonds à la pointe de la technologie pour SRL de bout en bout alimentés par du code et des modèles open source.

Analyse approfondie des erreurs indiquant le fonctionnement du modèle et ses défis, y compris une discussion sur la cohérence structurelle et les dépendances à long terme.

Des expériences instructives pour les futures directions d'amélioration, y compris une discussion détaillée sur comment et quand les analyseurs syntaxiques peuvent être utilisés pour améliorer ces résultats.

Il y a deux raisons au succès de notre modèle SRL profond

Il y a deux raisons au succès de notre modèle SRL profond : (1) l'application des avancées récentes dans la formation de réseaux de neurones récurrents profonds tels que les connexions d'autoroute (Srivastava et al., 2015) et le décrochage RNN (Gal et Ghahramani, 2016) (2) en utilisant des algorithmes de décodage A * (Lewis et Steedman, 2014; Lee et al., 2016) pour appliquer la cohérence structurelle du temps de prédiction sans augmenter la complexité du processus de formation.

Figure 1 : Autoroute LSTM à quatre couches. Les connexions courbes représentent les connexions d'autoroute et le signe + représente une porte de transformation qui contrôle le flux d'informations entre les couches.

Tableau 1 : Résultats expérimentaux sur CoNLL 2005, impliquant Précision (P), Rappel (R), F1 et Pourcentage de Prédicats Exactement Corrects (Comp.). Nous rapportons les résultats de nos meilleurs modèles simples et d'ensemble (PoE). Les modèles de comparaison sont Zhou et Xu (2015), FitzGerald et al (2015), Täckström et al (2015), Toutanova et al (2008) et Punyakanok et al (2008).

Tableau 2 : Résultats expérimentaux sur CoNLL 2012 en utilisant les mêmes paramètres que le tableau 1. Nous comparons nos meilleurs modèles simples et d'ensemble (PoE) avec Zhou et Xu (2015), FitzGerald et al (2015), Ta ckstro m et al (2015) et Pradhan et al (2013).

Tableau 3 : Performances de détection de prédicat et résultats SRL de bout en bout à l'aide de prédicats prédits. F1 montre une baisse de performance absolue par rapport à notre meilleur modèle d'ensemble de prédicats d'or.

Figure 2 : Courbe d'apprentissage lisse pour diverses ablations. La composition de la couche d'autoroute, l'initialisation des paramètres orthogonaux et la perte de boucle sont essentielles pour obtenir de bonnes performances. Les nombres affichés ici sont décodés sans contraintes.

Figure 3 : Performances après avoir effectué divers types de transformations oracle dans la séquence par rapport à deux lignes de base non neuronales solides. Après la transformation Add Arg, l'écart est réduit, montrant comment notre méthode bénéficie de la prédiction de plus d'arguments par rapport aux systèmes traditionnels.

Tableau 4 : transformation Oracle associée à une réduction d'erreur relative après chaque opération. Toutes les opérations ne sont autorisées que si elles n'entraînent aucun chevauchement de paramètres.

Tableau 5 : Matrice de confusion pour l'erreur d'étiquetage, montrant "le pourcentage d'étiquettes prédites pour chaque étiquette d'or". Nous ne comptons que les arguments prédits qui correspondent aux limites de la plage d'or.

Figure 4 : Nous montrons la distribution des étiquettes syntaxiques Yspan pour les cas où notre modèle divise la plage d'or en deux (ZXY) ou fusionne les deux constituants de l'or (XYZ). Les résultats montrent que la principale cause de ces erreurs est l'attachement inexact de la phrase prépositionnelle.

Figure 5 : Distance de surface F1 entre prédicat et argument. Pour les modèles neuronaux plus profonds, les performances diminuent de manière minimale avec la distance des arguments.

Figure 6 : Un exemple où les performances souffrent en appliquant la contrainte qu'un rôle principal ne peut se produire qu'une seule fois (+SRL).

Tableau 6 : F1 à la CoNLL 2005 et ensemble de développement à la CoNLL 2012 ventilés par type. Le décodage contraint par la syntaxe (+ AutoSyn) montre une plus grande amélioration sur les données du domaine (CoNLL 05 et CoNLL 2012 NW).

Adresse d'origine : https://homes.cs.washington.edu/~luheng/files/acl2017_hllz.pdf

Cliquez sur "Lire le texte original" pour afficher les informations de recrutement de Xinzhiyuan

Stratégique inutile? Que vous n'utilisez pas!
Précédent
Anti lui up! Guangzhou, la liste de la ville moins convivial? Parce que certes, je ne suis pas allé à ces endroits!
Prochain
épreuve de force Midsize berline! LaCrosse Passat et comment l'élection? Contraste Trois Grands à savoir
Hangzhou police a arrêté un cas de prêt net continu impliquant récompense fugitif
Arabie Saoudite plans pour réduire les 10% des exportations de pétrole brut, les médias étrangers: protocole ou pétrodollars résiliation anticipée
Tout à coup d'accélérateur coincé, les freins inutiles comment faire? Ces trois actions sont importantes!
« Bengio a conduit » DeepMind, chercheur Google cerveau au cur de la profondeur de 2017 pour apprendre le dernier rapport (PPT)
tour final « monde faim papa, » Chen Xiaoqing à lui, et je pouvais manger deux bols de riz
Pourquoi tout l'intérêt dans la boutique Lo mieux répondre à face petit livre réponse liée au Congrès?
40e anniversaire de la réforme et l'ouverture, la police de la porcelaine de cette façon ......
Wu Minghui: comment rendre les données deviennent leurs actifs de base, plutôt que le coût
Les pauvres peuvent aussi avoir « automatique » conduite! 70000 du SUV est également livré avec régulateur de vitesse!
L'économie australienne est ou leurs couleurs, le moment clé, ou soudainement pensé RMB
Jiangxi Département provincial de la Sécurité publique a tenu le camarade pionnier réforme Qiu Eguo prêchent rapport