Notre travail se heurtent souvent à la façon de trouver deux phrases similaires, telles que la façon de déterminer la requête de recherche et requête ad similaire à la requête de recherche, et l'application est similaire à un autre, comme court texte similaire au système de répondeur, et ainsi de suite. Ce qui est une bonne façon de le faire, voici un petit résumé de c'est personnel.
contenu:
Tout d'abord, les premiers résultats affichés
En second lieu, le court texte similaire aux méthodes couramment utilisées
En troisième lieu, l'objet du modèle d'application
Quatrièmement, construire un modèle d'apprentissage profond
(A) d'abord affiché les résultats de l'ancienne méthode, l'échantillon est traité requête de recherche et clique requête, le taux de précision d'environ 95%
La figure 2 est un format d'étiquette (semblable à 1, 0 est pas similaire), la prédiction de l'étiquette, une valeur (supérieure à 0 à 1 est prévu des étiquettes), une requête de requête de recherche @ ad
(B) Nous méthode utilisée couramment: application de recherche sémantiquement liés (b) Sur le blog de court texte similaire --qjzcy
1, la méthode de corrélation de session
2, le procédé de vecteur de phrase: la génération d'un modèle d'espace vectoriel pour une phrase (par exemple un poids de TFIDF), trouver la distance à partir de la formule (telle que cosinus)
3, la loi de saut multi-niveaux
4, la méthode du modèle de l'algorithme: modèles et thèmes tels que comparer le modèle de word2vector d'incendie
Application (c) modèles sujet
Ici, dans le modèle de sujet, nous avons en fait un problème avec la façon dont le modèle de sujet? Prenez modèle word2vector, il fournit vecteur de chaque mot, avec ce vecteur peut être une bonne calculer la similitude entre les deux mots, mais il y a une phrase en quelques mots comment bon, comment le calculer?
Plusieurs méthodes:
1, chaque mot de la superposition de vecteur, cette méthode est un peu rude, mais simple.
2, la première méthode possible, il est facile de penser du mot attention si nous pouvions obtenir une peine, lui donnant un effet de pondération est mieux, mais comment se concentrer sur le mot, mais aussi un problème (TFIDF clairement pas optimale, un Amway mots clés la façon dont je fais: http: //blog.csdn.net/qjzcy/article/details/51737059).
3, le vecteur directement à enchaîner dans un vecteur long, cette méthode n'a pas l'expérience, mais pense qu'il ya beaucoup de questions, ou paresseux pour dire qu'une telle méthode simple, jamais entendu une mauvaise personne ayant un effet positif ^ _ ^.
4, si le mot dans la phrase elle-même peut constituer un espace vectoriel à une dimension, le thème de chaque mot, mais aussi une dimension vectorielle. Bien entendu, nous ne pouvons pas espérer résoudre ce problème par convolution
Modèle (quatre) pour construire l'apprentissage en profondeur
Question: Puisque nous voulons utiliser le modèle de l'apprentissage en profondeur, alors comment faire le modèle pour identifier nos données initiales?
Nous pouvons:
1, respectivement, chaque phrase pour produire un vecteur de convolution, en utilisant ce vecteur et distance de recherche
Par exemple, le modèle Microsoft
2, la phrase est également appliquée en tant que mot caractéristique dans le train avec
Par exemple, ce document suit l'idée de word2vector:
Représentations distribuées des peines et des documents
3, je fais: les deux phrases épissé dans une phrase, séparés par identification, formant ainsi une structure de données 2D en entrée, avec formation cnn
Je préfère cette méthode car elle est plus simple structure de données, nous permet de nous concentrer sur de se concentrer sur d'autres aspects de la structure du modèle.
Résoudre le problème que nous avons couru dans le regard du modèle, Duang! modèle d'optimisation sera en mesure de faire ce taux presque aucune précision d'environ 93%, et bien sûr la profondeur ont encore beaucoup à apprendre à faire de la science.