Exemples + code, vous ne serez pas avoir peur d'une �tude approfondie de la construction de la recherche de code biblioth�que encore

Note de r�seau Lei Feng: Cet article est une compilation de technologie blog AI Yanxishe, le titre original Comment cr�er langage naturel s�mantique Rechercher arbitraire des objets avec l'apprentissage en profondeur, auteur Hamel Husain.

Traduction | Tao Zhao Pengfei Wang Xingyu correction d'�preuves | Liu Jiao finition | MY

Cet article pr�sente une fin � l'exemple de fin de la fa�on dont vous pouvez construire un objets syst�me de recherche s�mantique. auteur du projet est Hamel Husain et Ho-Hsiang Wu.

images Hubot

La motivation du projet:

Il est ind�niable que le moteur de recherche moderne est tr�s puissant: vous pouvez toujours recueillir des informations sur Internet � la connaissance. Le seul inconv�nient est que ce n'est pas une panac�e. Dans de nombreux cas, la recherche est aussi stricte recherche par mot cl�, ou encore lorsque l'objet est pas de texte, la recherche sera d'aucune utilit�. De plus, la recherche par mot cl� stricte ne permet pas aux utilisateurs de la recherche s�mantique, qui signifie que vous ne pouvez pas interroger les informations pertinentes.

Aujourd'hui, nous partageons une �tude de faisabilit� minimum reproductible du produit, afin d'expliquer comment un objet ! Plus pr�cis�ment, nous allons vous montrer comment cr�er un syst�me de code python recherche s�mantique - mais la m�thode peut �galement �tre �tendue � la recherche d'une autre entit� (comme une image ou un clip audio)

Pourquoi la recherche s�mantique alors comment excitant? Prenons l'exemple suivant.

code Python pour la recherche s�mantique. * S'il vous pla�t se r�f�rer au texte de la responsabilit�

La figure requ�te de recherche est pr�sent�e � Ping REST r�sultats api et de retour. � Cependant, la recherche peut renvoyer un r�sultat raisonnable, m�me si le code et les commentaires les r�sultats ne contiennent pas le mot Ping, REST ou api.

Cela d�montre la puissance de recherche s�mantique: En plus de mot-cl�, ce qui signifie que nous pouvons aussi rechercher le contenu, ce qui maximise les possibilit�s pour les utilisateurs de trouver les informations souhait�es. La recherche s�mantique est important - par exemple, ce processus de recherche permettra aux d�veloppeurs de code de recherche dans le r�f�rentiel, m�me si elles ne sont pas familiers avec la syntaxe du code au sujet, ou ne pas entrer le mot-cl� correct. Plus important encore, vous pouvez promouvoir cette m�thode pour rechercher d'autres objets, tels que des images, audio et autres contenus que nous n'avons pas encore pens�.

Si ce n'est pas assez d'excitation, alors maintenant vous montrer le syst�me apr�s avoir termin� la lecture de ce tutoriel peut �tre construit:

Parfois, quand je ne peux pas construire un beau site, je voudrais utiliser les ordinateurs portables Jupyter et les capacit�s magiques pour cr�er des pr�sentations personnalis�es. Ceci est une m�thode rapide pour un travail de d�monstration interactive.

La compr�hension intuitive du processus de construction d'un vecteur d'espace partag�

Avant d'entrer dans les d�tails techniques, sur la meilleure fa�on de parvenir � la recherche s�mantique a une compr�hension intuitive. L'id�e de base est de rechercher du texte et des objets (le code) que nous voulons rechercher une repr�sentation partag�e dans le m�me espace vectoriel, comme suit:

Exemples: 2 et le texte devrait �tre similaire au vecteur de code repr�sent�, car ils sont directement li�s

L'objectif est de cartographier le code � l'espace vectoriel en langage naturel, apr�s la distance de similarit� cosinus m�trique, d�crit le concept du m�me groupe (texte, code) groupe vecteur de la plus r�cente, quel que soit le (texte, code) vecteur plus loin.

Il y a plusieurs fa�ons d'atteindre cet objectif, cependant, nous allons d�montrer des m�thodes d'utilisation mod�le de pr�-formation. Ce mod�le a extrait du code, et pour affiner le mod�le pour cela, de sorte que le potentiel de la cartographie de code espace fonction de vecteur � un langage naturel. Note: nous utilisons le terme dans le vecteur et ins�rer ce tutoriel en alternance.

connaissances requises

Avant de lire ce tutoriel, nous vous recommandons de vous familiariser avec les �l�ments suivants:

S�quence mod�le de s�quence: la connaissance est utile de revoir le tutoriel avant.
Lisez attentivement ce document et de bien comprendre les m�thodes qui y sont �nonc�s. Nous avons utilis� un concept similaire dans cet article.

Vue d'ensemble:

Ce tutoriel est divis� en cinq �tapes sp�cifiques. Ces �tapes sont pr�sent�es ci-dessous, il peut servir de r�f�rence utile lorsque vous lisez le tutoriel. Lorsque vous avez termin� le tutoriel, regarder en arri�re � ce tableau vous aidera � en apprendre davantage sur la fa�on dont toutes les �tapes sont regroup�es.

Mind Map ce tutoriel. Version HD ici

5.1 chaque �tape correspondant au bloc-notes ici Jupyter. Nous allons discuter chaque �tape en d�tail plus loin.

La premi�re partie - donn�es d'acquisition et d'analyse

Les premi�res notes de la partie

La collection de Google de donn�es dans la communaut� open source GitHub, et le stocker dans le BigQuery. Ceci est un bien des donn�es publiques �tablies pour une vari�t� de projets scientifiques de donn�es int�ressantes, y compris ce projet! Lorsque vous avez sign� pour compte Google Cloud, vous obtiendrez 300 $, ce qui est suffisant pour interroger les donn�es n�cessaires � cet exercice. L'acquisition de donn�es est tr�s pratique car vous pouvez utiliser la requ�te SQL pour s�lectionner le type de fichier et autres m�tadonn�es relatives � l'entrep�t de chercher, comme le nombre de soumis et le nombre de gr�ves et d'autres �toiles.

Notes d�crit les �tapes de l'acquisition de donn�es. Heureusement, le nombre de bovins �quipe Google Kubeflow ont termin� ces �tapes, et les donn�es que vous le stocker � proximit� de la n�cessit� de la pratique � l'utilisation, voir les informations.

Apr�s avoir recueilli les donn�es, nous avons besoin de r�soudre ces fichiers (code, cha�ne de documentation) groupe sous la forme de donn�es. Pour ce tutoriel, l'unit� de code peut �tre une fonction de niveau sup�rieur peut �tre une m�thode. Nous voulons recueillir ces ensembles de donn�es comme mod�le de donn�es de formation, le mod�le peut se r�sumer (trop pr�cis, nous le dirons � nouveau) code. Nous voulons �galement supprimer tous les commentaires dans le code, ne laissant que le code lui-m�me. Cela semble �tre une t�che ardue. Mais dans la biblioth�que de ast biblioth�que standard Python, qui peut �tre utilis� pour extraire, les m�thodes et la cha�ne de documentation. Nous pouvons convertir le code en premier arbre de syntaxe abstraite, puis rallumez le code de package Astor, qui supprimera les commentaires dans le code. Ce tutoriel ne concerne pas le principe de livres de grammaire abstraits et des outils connexes, mais ceux-ci sont des sujets tr�s int�ressants.

Sc�ne � propos de cette utilisation de code, comme indiqu� dans les notes

Afin de pr�parer le mod�le de donn�es, nous s�parons les donn�es dans la formation ensemble, validation et de test. Nous enregistrons aussi le fichier original (nous nommerons la lign�e), afin d'enregistrer l'origine de chaque groupe (code, cha�ne de documentation). Enfin, nous appliquons le m�me code de conversion ne contient pas les cha�nes de documentation, et maintenus s�par�s, parce que nous voulons aussi pouvoir rechercher ces codes.

Partie II: Construction du code en utilisant le mod�le de dispositif inductif Seq2Seq

Partie 2 notes

Conceptuellement, nous pouvons construire un Seq2Seq mod�le pour r�sumer le code et GitHub question summarizer exactement la m�me chose que nous avons d�crit avant - nous utilisons code python en place des probl�mes de donn�es d'origine, et d'utiliser plut�t le titre d'�mission de docstring.

Cependant, la question du texte diff�rence GitHub est que le code ne fait pas partie du langage naturel. Pour b�n�ficier du code de l'information, nous pouvons introduire l'optimisation dans des domaines sp�cifiques, tels que les LSTMs � base d'arbres indices et grammaire perceptibles (tokens de syntaxe au courant). Pour simplifier, dans ce code tutoriel nous en tant que traitement du langage naturel (enfin obtenu des r�sultats raisonnables).

......

Vous voulez continuer � lire, s'il vous pla�t passer � notre communaut� AI Yanxishe: https: //club.leiphone.com/page/TextTranslation/707

Plus de contenu passionnant de faire l'IA Yanxishe.

Les diff�rents domaines, y compris la vision par ordinateur, la s�mantique de la parole, la cha�ne de blocs, pilote automatique, l'exploration de donn�es, le contr�le intelligent, langages de programmation et d'autres mises � jour quotidiennement.

Fin du t�l�phone peut analyser un acc�s de code � deux dimensions

Lei Feng Lei Feng net net

Route de la soie

Apprenez � conna�tre la Chine

Exemples + code, vous ne serez pas avoir peur d'une �tude approfondie de la construction de la recherche de code biblioth�que encore