EMNLP 2017 | Universit� de Stuttgart: assistant fonction: outil de recherche NL pour API

EMNLP 2017 D�monstrations du syst�me fonction Assistant: Outils pour l'API NL Fonction Assistant: un outil pour NL Interrogation d'API Universit� de Stuttgart Universit�t Stuttgart

R�sum� Dans cet article, nous d�crivons une fonction d'assistance, ce qui est une l�g�re bo�te � outils en Python pour l'utilisation des requ�tes en langage naturel et explorer la biblioth�que de code source. La bo�te � outils est con�u pour aider l'API cible les utilisateurs finaux � travers requ�te en langage naturel et � trouver rapidement des informations sur la description de la fonction. Pour un fond donn� et le texte API de requ�te, l'outil utilise l'analyse s�mantique Richardson et Kuhn (2017), et de trouver la fonction candidate du texte en effectuant une traduction est connue pour repr�senter dans l'API. Dans l'API exemple, la traduction apprendra � partir du code exemple dans le texte. Le kit inclut des fonctionnalit�s pour la construction de pipelines et de traduction du moteur de recherche tout programme de code source. Afin d'explorer cette derni�re caract�ristique, nous avons organis� sur Github 27 projets Python bien connus effectu�s sur de nouvelles exp�riences.

1 introduction

Lors du d�veloppement de nouvelles applications, les d�veloppeurs de logiciels utilisent souvent diff�rents logith�que conversion tiers ou de l'API. La plupart du temps de d�veloppement se sont engag�s � comprendre la structure de ces API, figure la position de la fonction cible, et de comprendre les caract�ristiques structurelles du logiciel ou convention de nommage est comment cela fonctionne. Quand une grande API cible, trouver la fonctionnalit� d�sir�e peut �tre une t�che ardue et de longue haleine. Souvent, les d�veloppeurs utiliseront des ressources telles que Google ou StackOverflow trouver (souvent indirecte) r�ponse � la question.

Nous utilisons deux exemples de fonctions kit NLTK bien connus dans la figure 1 pour illustrer ces questions. Chaque fonction avec une courte cha�ne de documentation correspondant � cette description dans chaque r�f�rence de fonction, qui fournit une description fonctionnelle de l'utilisateur du logiciel. Bien que la compr�hension de l'analyse de la documentation et le code et les connaissances techniques doivent compter sur les graphiques, mais m�me avec cette connaissance, convention de nommage de fonction est tout � fait arbitraire. fonction Add_arc peut aussi �tre create_arc. Nous nous attendons � une autre convention de nommage de l'utilisateur final peut se fourvoyer lors de la recherche de cette fonction. Encore une fois, cette fonction peut diff�rer de la description disponible dans l'utilisateur final d�crit.

Exemple 1 La figure d�pendance � la documentation de la fonction Python figure NLTK

En revanche, comprendre la n�cessit� de comprendre les d�tails d'une fonction particuli�re remove_by_address DependencyGraph utilis�e pour r�aliser. N�anmoins, la fonction correspond au fonctionnement normal d'un noeud est retir� du graphe de d�pendance. Ici, sur la fa�on de supprimer sp�cifique � un des d�tails techniques d'adresse donn�e peut confondre l'objectif global de cette fonction, il est difficile de trouver ou comprendre.

Dans une premi�re approximation, la n�cessit� de l'API donn�e de navigation pour conna�tre la relation de correspondance entre le texte et la description du code source de la figure. Par exemple, la figure 1 connaissent des expressions anglaises ajouter un arc peut �tre traduit (quelque peu arbitraire) add_arc, ou traduit l'adresse adresse indiqu�e. L'interpr�tation doit �galement savoir comment d�tecter certaines entit�s cibles ou des actions, telles que l'ajout d'un moyen d'arc en cr�ant un arc dans ce cas. D'autres techniques doivent apprendre la correspondance, telles que les adresses et certaines d�pendances entre la figure mises en uvre.

Dans nos pr�c�dents travaux (Richardson et Kuhn (2017), ci-apr�s d�nomm� RK), nous avons des exemples de diff�rents langages de programmation et le code source en langage naturel ensemble d'API pour apprendre ces types de correspondance. Nous chaque API donn� (y compris le texte et la fonction exprimions) comme un corpus parall�le pour former un mod�le d'analyse s�mantique simple. En plus du type ci-dessus de l'apprentissage traduction de la correspondance, nous contribuons �galement � l'apprentissage en ajoutant des fonctions au niveau du document d'autres dialogue technique pour obtenir des am�liorations.

Dans cet article, nous allons nous concentrer sur les outils que nous utilisons le mod�le comme un ensemble d'API de requ�te. �tant donn� une API cible, nous apprenons un mod�le bas� sur l'analyseur s�mantique MT se traduira par le texte repr�sent� sous forme de code API. Les utilisateurs finaux peuvent d�velopper une API dans les coulisses de la requ�te en langage naturel, notre mod�le sera transform� en fonction d'un candidat, il a d�clar� que l'objectif est de trouver la fonctionnalit� requise. Notre outil appel� fonctions auxiliaires utilis�es de deux fa�ons: comme un conduit de bo�te noire pour la collection de mod�les directement la construction de toute API. En outre, vous pouvez utiliser cet outil flexible API Python interne pour personnaliser et int�grer avec d'autres composants externes ou mod�le.

Dans cet article, nous nous concentrons sur pour la premi�re fois d'utiliser nos outils. Afin d'explorer la construction d'un mod�le de la nouvelle s�rie API, nous courons le pipeline de projet Python open source 27 (github.com/vinta/awesome-python) dans la liste des fameux projet impressionnant Python. Et les travaux ant�rieurs, nous avons effectu� un test complet de ces ensembles de donn�es, ces mesures exp�rimentales de notre mod�le est fonction de g�n�ration de description de l'API invisible, dit imitateur requ�te de l'utilisateur.

Travaux connexes

API de requ�te en langage naturel a toujours �t� un objectif de g�nie logiciel, les probl�mes g�n�raux li�s � la r�utilisation des logiciels (Krueger, 1992). � ce jour, il y a un certain nombre de produits � l'�chelle industrielle (par exemple, www.krugle.com, www.searchcode.com) dans ce domaine. � notre connaissance, la plupart des impl�mentations utilisent la mise en correspondance de faible profondeur � long terme et / ou l'extraction des technologies de l'information (Lv et al., 2015), nous avons utilis� diff�rents des composants plus classiques et techniques des m�thodes de la PNL. Comme nous l'avons montr� dans cet article, et RK, l'adaptation � long terme et les technologies associ�es comme base concurrentielle parfois, mais presque toujours sup�rieure � notre m�thode de traduction.

R�cemment, il y a une pr�occupation croissante code API Machine Learning repr�sente l'apprentissage, en particulier dans l'utilisation des ressources telles que GitHub ou StackOverflow. Cependant, ce travail est souvent appris de plusieurs ensemble d'API (Gu et al., 2016), ce qui rend difficile d'�valuer un tel syst�me et appliqu� � une API de requ�te particuli�re. D'autres travaux ont port� sur l'�tude g�n�r� plus � partir du code source de programmation langage naturel commentaires (Allamanis et al., 2015), est g�n�ralement �troitement ax� sur un langage de programmation sp�cifique (par exemple, Java) ou un ensemble de l'API. � notre connaissance, aucune de ces m�thodes comprennent l'aide d'une API de requ�te particuli�re et logiciels de support pour construire un pipeline personnalis�.

Techniquement, notre approche du travail li� � l'analyse s�mantique, analyse s�mantique pour comprendre l'application de saisie de texte en langage naturel g�n�r� � partir dudit fonctionnaire, notamment, des questions et des r�ponses. MT (Wong et Mooney, 2006) et de nombreuses m�thodes analytiques existantes (Zettlemoyer et Collins, 2009) sont directement inspir�s. Voir plus de RK pour le contact et les travaux connexes de discussion.

3 m�thodes techniques

Dans cet article, nous nous concentrons sur la fa�on d'apprendre � partir du code source ou ensemble de fonctions API dans la description textuelle de la g�n�ration repr�sent�e. Nous nous r�f�rons � ces fonctions objectif est exprim� en tant que composante de l'API. Chaque composant est attribu� un nom de fonction, param�tre liste et d'autres informations facultatives, telles que l'espace de nom. �tant donn� un �chantillon de l'exemple API du composant texte,

L'objectif est d'apprendre comment g�n�rer le texte correct pour chaque x, des composants bien construit zC. Lorsque consid�r�e comme une analyse s�mantique du probl�me, nous pouvons cibler chaque z consid�r� comme forme logique similaire. Dans cet article, nous allons nous concentrer sur le programme source et la fonction Python Python z, il se rapprochera de notre entr�e de langage de programmation en langage naturel et la sortie est inconnue, comme le montre RK.

Lorsqu'il est utilis� dans une requ�te, notre mod�le accepte une fonction de saisie de texte et d'essayer de g�n�rer la repr�sentation requise. Techniquement, notre approche suit nos travaux pr�c�dents, comporte deux volets: mod�le de traduction bas�e sur les mots un poids l�ger, simple, g�n�rer des composants de l'API candidat, ainsi qu'un mod�le distingu�, en utilisant des phrases suppl�mentaires et au niveau des documents rang des sorties de mod�le de fonction de traduction. Tous ces mod�les sont dans notre outil mis en uvre localement, nous d�crivons chaque partie � son tour.

3.1 Mode Traduction

Compte tenu d'une s�quence de texte d'entr�e (ou de la requ�te) x = w1, ..., w | x |, le but est de g�n�rer une composante API de sortie z = ui, ..., u | z |, ce qui implique l'apprentissage d'une distribution conditionnelle p (z | x), nous poursuivons le bruit la m�thode du canal,

Ainsi, a priori coh�rente p (z) sur l'hypoth�se que la composante de sortie, ce qui implique le calcul du mod�le p (x | z), dans lequel le mod�le de traduction bas�e sur les mots peut �tre exprim� sous la forme:

Lorsque la somme est comprise dans une plage de recueillies aupr�s de tous les nombreux-x z (mots).

Bien qu'il existe de nombreux mod�les d'alignement de l'ordre sup�rieur (. 1993 Brown et al,) ont des param�tres de position sup�rieurs de diff�rents moyens de base de mod�les de mot d'expression, mais nous avons trouv� que la plupart des mots simples avant le mod�le de traduction ou IBM Model 1. Le mod�le de pr�cision calcul�e en utilisant la formule suivante pour toutes les voies:

Parmi eux,

D�fini pour tous les mots

A termes de composant sont donn�es

Le nombre de distribution.

Alors que beaucoup la politique d'estimation des param�tres du mod�le de formation existe sur la base du mot, nous avons �galement constat� que le programme le plus simple, de EM Brown et al. (1993) qui fonctionne le mieux. Dans RK, nous d�crivons une strat�gie de d�codage de temps lin�aire (� savoir, destin� � g�n�rer � partir d'un composant d'entr�e), nous avons utilis� ici la quantit� C. Nos outils �galement atteint notre type de strat�gies conventionnelles de d�codage de MT, ils sont plus appropri�s pour la s�mantique de l'API plus vastes et complexes de la langue.

3.2 Trier discrimination

La plupart suivent l'analyse s�mantique (Zettlemoyer et Collins, 2009), nous avons utilis� un certain nombre de diff�renciation - composante mod�le lin�aire pour g�n�rer r�arrang�s � partir du mod�le de traduction sous-jacente. Ce mod�le d�finit une condition de distribution: un vecteur de param�tre pour

Et un ensemble de fonctions propres

Nos outils pour r�aliser plusieurs m�thodes de formation et d'optimisation diff�rentes. Aux fins du pr�sent article, nous utilisons le nombre maximum de conditions telles que l'�l�vation du gradient stochastique de l'algorithme en ligne dans l'objectif naturel de former notre mod�le.

3.2.1 Caract�ristiques

Pour un des composants d'entr�e et de sortie texte donn� x z,

La d�finition d'un ensemble de caract�ristiques entre ces deux entr�es. Par d�faut, notre impl�mentation de conduite utilise trois types de fonctions, utilisez les m�mes fonctionnalit�s dans RK. La premi�re cat�gorie comprend des fonctions de niveau de mots suppl�mentaires, tels que des composants / mot correspondant, qui se chevauchent, des informations de syntaxe assemblage. La seconde cat�gorie comprend des phrases et des caract�ristiques phrase de niveau entre le texte et les �l�ments candidats, qui sont align�es sym�triquement � partir du mot de niveau heuristique d'extraction.

Les autres caract�ristiques comprennent la fonction au niveau du document. Cela inclut la relation entre les informations relatives � la hi�rarchie des classes API sous-jacente, et cette hi�rarchie des mots / phrases et des classes abstraites. De plus, nous utilisons un param�tre suppl�mentaire dans la description du texte du document Dans la description pour indiquer s'il y a chevauchement des candidats des composants de mots.

4 et en utilisant le

Toutes les fonctions ci-dessus sont mises en uvre dans le kit d'aide de la fonction. L'outil fait partie des versions de logiciels de soutien de nos travaux pr�c�dents Zubr. Pour am�liorer l'efficacit�, la fonctionnalit� de base est Cython ( �crit, Cython est de compiler un ensemble du langage Python, aide l'int�gration locale C / C ++.

L'outil est con�u pour �tre utilis� de deux fa�ons: d'abord, comme une bo�te noire pour construire un tuyaux de traduction personnalis� et moteur requ�te API. L'outil peut �galement utiliser notre API Python Cython et l'int�gration avec d'autres composants. Nous nous concentrons sur la premi�re fonction.

4.1 Conception biblioth�que et tuyauterie

Notre biblioth�que utilise l'injection de d�pendance des principes de conception de la POO. Tous les composants de base sont tels que classe compl�tement s�par� � r�aliser, chaque classe a un certain nombre de valeurs de configuration connexes. Ces composants par classe d'interaction appel� Pipeline, divers composants de classe sp�cifi�s par l'utilisateur et les d�pendances sont li�es ensemble et configuration globale construit � partir des composants. Des exemples d'objets partag�s et les param�tres de configuration ult�rieures d�termin�es par un tel global ou par injection, ces param�tres peuvent �tre modifi�s dynamiquement tout au long de l'exploitation du pipeline.

En �crivant un script pour cr�er un tuyau de conduite, comme le montre la figure. Le fichier est un fichier Python ordinaire, avec deux variables n�cessaires. Le premier param�tre sp�cifie la variable associ�e au pipeline diff�rents param�tres de configuration avanc�s. Dans ce cas, il est pr�vu un --baseline de base, qui peut �tre d�clench�e pour lancer une exp�rience de base, et aura une incidence sur le pipeline de traitement ult�rieur.

Exemple 2 m�thode de distribution de script figure pour la construction d'un mod�le de traduction et d'interroger le serveur

La deuxi�me plus importante variable est appel�e une t�che (t�ches), qui pr�cise l'ordre des sous-processus qui doit �tre effectu�e. Cette fonction est un pointeur vers la liste de champs dans l'utilitaire de base sous-jacent Zubr Kit (avec chaque pr�fixe Zubr) ou des pointeurs d�finis par l'utilisateur. Ce particulier en utilisant un conduit de DocExtractor sp�cifi� � partir du code source de l'utilisateur ensemble de donn�es du r�f�rentiel commence � construire, puis construire le mod�le SymmetricAlignment conversion sym�trique, par l'interm�diaire de diff�rentes �tapes interm�diaires, la fonction FeatureExtractor aspirante, reranker discriminante Optimizer. Il se fait en construisant une interface de requ�te et les serveurs de requ�te et QueryInterface QueryServer, il peut alors �tre utilis� pour interroger l'entr�e de l'API.

Comme d�crit ci-dessus, chaque sous-processus a un certain nombre de param�tres de configuration associ�s, par exemple Pipeline conduit � l'objet attache de configuration globale. Pour le mod�le de traduction, y compris, par exemple, mettre en place un type de mod�le de traduction � utiliser, le nombre de mod�les de formation des it�rations � utiliser et ainsi de suite. Tous ces param�tres peuvent �tre sp�cifi�s sur le terminal, peut �tre sp�cifi� dans un profil distinct. En outre, l'utilisateur peut d�finir librement des fonctions personnalis�es, telles que les donn�es de processus, ou peut �tre utilis� pour modifier le pipeline de traitement par d�faut mis en uvre ou de nouvelles fonctionnalit�s d'apprentissage de la machine.

4.2 serveur Web

La derni�re �tape est de cr�er un pipeline peut �tre utilis� pour interroger l'API d'entr�e du serveur Web HTTP. En interne, le serveur pousse le mod�le de traduction form� et r�arrangements discriminantes qui accepte les requ�tes des utilisateurs et essayer de les traduire en repr�sentation de la fonction API. Ces candidats seront ensuite traduire comme une r�ponse possible � l'arri�re de la requ�te � l'utilisateur. D'apr�s les r�sultats, si la fonction objectif est introuvable, l'utilisateur peut changer ses / ses probl�mes, ou par un lien vers le code source de la fonction pour voir la mise en uvre.

Requ�te capture d'�cran exemple du serveur illustr� � la figure 3. Ici, l'arri�re-plan est des bo�tes � outils API NLTK, la requ�te est la s�quence d'apprentissage mod�le de marqueur. Bien que pas explicitement mentionn�, mais le rendement du mod�le HMM tagger fonction de formation de HiddenMarkovModelTagger. La partie droite de la figure montre le chemin d'un lien hypertexte fonction de formation Github de la source d'origine.

3 exemple d'�cran de fonction auxiliaire tir� du serveur Web

exp�rience 5

Notre DocExtractor actuelle obtenir le soutien du code source Python d'origine pour construire une collection d'ensembles de donn�es parall�les. En interne, l'outil utilise la biblioth�que standard Python AST ast utilitaire lit le code source, et extrait la description de la fonction et ensemble. En outre, l'outil extrait la description de la classe, la description et les param�tres et les valeurs de retour sur la structure interne de la hi�rarchie des classes API. Utilisez ensuite ces informations pour d�finir la derni�re cat�gorie de fonction au niveau du document.

Tableau 1 jeux de donn�es New English GitHub

Pour tester cela, nous avons �tabli un pipeline et men� des exp�riences pour le 27 projet Python populaire. Le but de ces exp�riences �tait de tester notre robustesse d'extraction, et voir comment nous utilisons notre mod�le pr�c�dent configuration exp�rimentale invisible pour r�pondre aux questions de ces ressources.

5.1 Dataset

Le tableau 1 montre Articles exemplaires. Chaque ensemble de donn�es de paire # conformes ou num�ro parall�le, le signe # composante de sortie de la langue, # (NL) et la taille des mots mot repr�sent� composants fonctionnels est quantifi�e.

5.2 installation exp�rimentale

Chaque jeu de donn�es est un ensemble de r�partis au hasard en formation, les tests et le d�veloppement. Elle est fournie en utilisant 70% � 30% (ou 15% / 15%) de la segmentation. On peut �tre vu comme un ensemble de peut �tre invit� � plugiciel utilisateur imiter le mod�le de requ�te. En g�n�ral, tous les mod�les sont form�s sur l'ensemble de la formation, et les param�tres sont adapt�s au d�veloppement des ultra-ensembles.

Pour tester lors de la saisie de texte invisible, la sortie du composant de mod�le g�n�re une liste de candidats. Si la sortie de la fonction exprim�e d'or correspondance exacte, alors que la sortie est correcte. Comme pr�c�demment, nous avons mesur� la pr�cision @ 1, la pr�cision des dix (pr�cision @ 10) et MRR.

Comme nos pr�c�dents travaux, l'utilisation de trois de base suppl�mentaires. Le premier est un simple sac de mots (l'arc) mod�le, qui utilise les paires de phrase comme une option. Le second terme est les matchs de base, tri�e en fonction du nombre de matches candidats entre le mot d'entr�e et les composants de mot. Le mod�le sans Reranker Nous avons �galement compar� la traduction des r�sultats (mod�le).

6 R�sultats et discussion

Les r�sultats des tests sont pr�sent�s dans le tableau 2, conform�ment � nos r�sultats pr�c�dents. la performance BoW terme et sup�rieur � tous les autres matches du mod�le de base, ce qui montre une fois encore que plus complexe qu'une API simple qui correspondent aux composantes de mot de requ�te. Par rapport au mod�le de traduction d'utilisation seulement, le mod�le Reranker conduisant � une am�lioration tous les ensembles de donn�es, ce qui indique que le niveau de document de phrase et d'am�liorer la fonction de l'ensemble de donn�es peut aider.

Nous notons que ces exp�riences sont synth�tiques, comme ces exemples et les requ�tes des utilisateurs r�els s'il existe des similitudes peu claires. Cependant, en supposant que chaque plug-in collection est un v�ritable �chantillon repr�sentatif requis par la requ�te de l'utilisateur, on peut interpr�ter les r�sultats comme une indication de notre mod�le de la fa�on de r�pondre aux demandes de renseignements. Si oui ou non ces exemples refl�tent le doute r�el, nous croyons qu'ils offrent encore un bon point de rep�re pour la construction du mod�le. Tout le code et les donn�es seront publi�es, afin de construire de nouvelles exp�riences et des applications. les travaux futurs se concentrera sur les conduire � des requ�tes plus naturelles (par exemple, par StackOverflow), et par Demo Web permanent Conduite utilisation de la recherche.

Tableau 2 Les r�sultats des tests de nos nouvelles donn�es d�finies Github

7. Conclusions

Nous pr�sentons l'assistant de fonction, un outil l�ger pour API de requ�te en langage naturel sans contrainte ensemble. Les utilisateurs peuvent fournir un projet de code source cible pour nos outils et construire � partir de serveurs Gratter ou customize pipeline de traitement de traduction et d'interrogation. En plus de cet outil, nous avons cr�� une nouvelle ressource pour l'apprentissage requ�te API pour construire � partir de 27 populaire formulaire de collecte de donn�es de projet Github. Bien que notre m�thode utilise des composants simples, mais nous esp�rons que nos outils et ressources deviendront un ouvrage de r�f�rence dans ce domaine, et, finalement, aider � r�soudre la recherche de logiciels de tous les jours et les questions r�utilisabilit�.

Route de la soie

Apprenez � conna�tre la Chine

EMNLP 2017 | Universit� de Stuttgart: assistant fonction: outil de recherche NL pour API