La machine n'apprend pas: recherche sémantiquement liés app - court texte similaire

Notre travail se heurtent souvent à la façon de trouver deux phrases similaires, telles que la façon de déterminer la requête de recherche et requête ad similaire à la requête de recherche, et l'application est similaire à un autre, comme court texte similaire au système de répondeur, et ainsi de suite. Ce qui est une bonne façon de le faire, voici un petit résumé de c'est personnel.

contenu:

Tout d'abord, les premiers résultats affichés

En second lieu, le court texte similaire aux méthodes couramment utilisées

En troisième lieu, l'objet du modèle d'application

Quatrièmement, construire un modèle d'apprentissage profond

(A) d'abord affiché les résultats de l'ancienne méthode, l'échantillon est traité requête de recherche et clique requête, le taux de précision d'environ 95%

La figure 2 est un format d'étiquette (semblable à 1, 0 est pas similaire), la prédiction de l'étiquette, une valeur (supérieure à 0 à 1 est prévu des étiquettes), une requête de requête de recherche @ ad

(B) Nous méthode utilisée couramment: application de recherche sémantiquement liés (b) Sur le blog de court texte similaire --qjzcy

1, la méthode de corrélation de session

2, le procédé de vecteur de phrase: la génération d'un modèle d'espace vectoriel pour une phrase (par exemple un poids de TFIDF), trouver la distance à partir de la formule (telle que cosinus)

3, la loi de saut multi-niveaux

4, la méthode du modèle de l'algorithme: modèles et thèmes tels que comparer le modèle de word2vector d'incendie

Application (c) modèles sujet

Ici, dans le modèle de sujet, nous avons en fait un problème avec la façon dont le modèle de sujet? Prenez modèle word2vector, il fournit vecteur de chaque mot, avec ce vecteur peut être une bonne calculer la similitude entre les deux mots, mais il y a une phrase en quelques mots comment bon, comment le calculer?

Plusieurs méthodes:

1, chaque mot de la superposition de vecteur, cette méthode est un peu rude, mais simple.

2, la première méthode possible, il est facile de penser du mot attention si nous pouvions obtenir une peine, lui donnant un effet de pondération est mieux, mais comment se concentrer sur le mot, mais aussi un problème (TFIDF clairement pas optimale, un Amway mots clés la façon dont je fais: http: //blog.csdn.net/qjzcy/article/details/51737059).

3, le vecteur directement à enchaîner dans un vecteur long, cette méthode n'a pas l'expérience, mais pense qu'il ya beaucoup de questions, ou paresseux pour dire qu'une telle méthode simple, jamais entendu une mauvaise personne ayant un effet positif ^ _ ^.

4, si le mot dans la phrase elle-même peut constituer un espace vectoriel à une dimension, le thème de chaque mot, mais aussi une dimension vectorielle. Bien entendu, nous ne pouvons pas espérer résoudre ce problème par convolution

Modèle (quatre) pour construire l'apprentissage en profondeur

Question: Puisque nous voulons utiliser le modèle de l'apprentissage en profondeur, alors comment faire le modèle pour identifier nos données initiales?

Nous pouvons:

1, respectivement, chaque phrase pour produire un vecteur de convolution, en utilisant ce vecteur et distance de recherche

Par exemple, le modèle Microsoft

2, la phrase est également appliquée en tant que mot caractéristique dans le train avec

Par exemple, ce document suit l'idée de word2vector:

Représentations distribuées des peines et des documents

3, je fais: les deux phrases épissé dans une phrase, séparés par identification, formant ainsi une structure de données 2D en entrée, avec formation cnn

Je préfère cette méthode car elle est plus simple structure de données, nous permet de nous concentrer sur de se concentrer sur d'autres aspects de la structure du modèle.

Résoudre le problème que nous avons couru dans le regard du modèle, Duang! modèle d'optimisation sera en mesure de faire ce taux presque aucune précision d'environ 93%, et bien sûr la profondeur ont encore beaucoup à apprendre à faire de la science.

Pour ne pas ajouter de l'argent à la fête! 3400 yuans dacentrurus plate-forme programme de configuration recommandée Zanji
Précédent
Pourquoi les fabricants de téléphones mobiles sont engagés dans le double photo? Après la lecture de comprendre
Prochain
La machine n'apprend pas: SVD comment appliquer la recherche d'information?
Le design est vraiment trou du cerveau grand ouvert, Apple iPhone6 / 7Plus shell téléphone personnalisé show
La recherche peut jouer à ce jeu? ! Pour micro-canal et de microblogging, Baidu ne sont pas les mêmes classements de jeu
La machine n'apprend pas: vous donner automatiquement une image de paysages naturels
Copier et coller plus décontracté: Windows outil d'amélioration du presse-papiers facile à utiliser cette plate-forme pour pleurer!
Juin installer une nouvelle machine, dacentrurus plus rentable! 5000 yuans programme de configuration Zanji
La machine n'apprend pas: modèle simple apprentissage en profondeur basée sur le mot de vecteur
Vous avez pas d'oreilles, Tyran classe d'Apple iPhone7 / shell téléphone 7Plus
La machine n'apprend pas: l'application du mécanisme d'attention PNL
Venez voir si vous avez un « kiosque à journaux combats majeurs » dans la liste des gagnants!
La machine n'apprend pas: compétences d'apprentissage en profondeur la formation mécanisme attention crépus 4 apprentissage en profondeur
Sur une propriété de semaine | chaîne de blocs, n'est pas facile de dire que vous aimez