CIKM AnalytiCup 2018 programme de championnat est sorti, ils ont construit un modèle pour voir l'astuce

Lei Feng réseau AI Technology Review nouvelles, CIKM AnalytiCup 2018 (Ali Xiaomi robot de compétition de algorithme de correspondance court texte interlangage) vient de se terminer, Luo Zhipeng par Microsoft, Microsoft Sun Hao, Huang forte Université de Pékin, l'Université Huazhong des Sciences et Technologies Liu Zhihao équipe DeepSmart composée d'un mille plus gagner les participants, a remporté un seul coup.

Le concours de l'algorithme de robot de discussion, le plus algorithme de correspondance de texte commun comme objectif, de construire un modèle d'appariement court texte dans plusieurs langues grâce à des technologies d'adaptation linguistique. Dans ce concours, la langue source est l'anglais et la langue cible est l'espagnol. Les participants organisation selon l'une des données fournies par la conception de la structure du modèle sémantique détermine si les deux mêmes questions. Finalement, les organisateurs du tournoi évaluera la performance du modèle dans la langue cible. Dans cette compétition, les organisateurs des ressources extérieures étaient strictement limitées. La formation ensemble de données contient deux langues, les organisateurs offrent un bon anglais 20000 des questions de marque quant à la source de données, tout en fournissant 1400 a marqué une bonne question pour l'espagnol, et 55669 question espagnole non marqué. Tous les résultats marqués par la langue et des experts dans l'annotation manuelle sur le terrain. En même temps, fournit également la traduction pour chaque langue.

description de la règle

Les organisateurs espèrent que l'attention des joueurs sur la question de l'appariement court texte et l'adaptation linguistique, tous les joueurs doivent faire attention aux limitations suivantes:

1) la formation de modèle ne peut utiliser les données fournies par les organisateurs, y compris les données annotées, corpus sans étiquette, traduction, vecteur de mot et ainsi de suite. D'autres données ne peuvent pas être utilisés ou modèle de pré-formation.

2) Si vous avez besoin d'effectuer une pré-terme des vecteurs de formation, vous ne pouvez utiliser le modèle de mot vecteur FastText pré-formation.

3) Si vous avez besoin d'un modèle de traduction ou d'un corpus de traduction, traductions uniquement fournies par les organisateurs.

4) joueurs de corpus parallèles peuvent théoriquement fournies par les organisateurs pour former un modèle de traduction, de telles méthodes ne sont pas interdites, mais pas recommandé.

DeepSmart Notre équipe:

Luo Zhipeng (getMax): ingénieur algorithme Microsoft Bing recherche publicitaire, Master of Software Engineering, l'Université de Pékin, axé sur la recherche et l'application de la technologie en PNL d'apprentissage profond, match de la pertinence des annonces, le CTR et d'autres estimations.

Huang forte (Jack Strong): Master of Software Engineering, la lecture de Pékin, de bonnes caractéristiques techniques, le traitement du langage naturel, l'apprentissage en profondeur.

Sun Hao (fastdeep): service de publicité de recherche Microsoft Bing ingénieur en chef de développement, mettant l'accent sur l'innovation et de l'application de l'apprentissage de la machine et l'apprentissage en profondeur dans le domaine de l'algorithme de recherche et de recommandation, engagée à améliorer l'algorithme de correspondance de la publicité en ligne, le modèle de corrélation et pré-CTR modèles d'évaluation pour stimuler la croissance des revenus publicitaires.

Liu Zhihao (LZH0115): Institut de l'automatisation de contrôle Université Huazhong des sciences et du génie Master of Science en lecture, la direction de la recherche principale de reconnaissance d'image, l'apprentissage zéro-shot, l'apprentissage en profondeur.

De gauche à droite: chef mécanicien services de publicité de recherche Microsoft Bing Sun Hao, de gauche: ingénieur algorithme recherche Bing annonce Microsoft Luo Zhipeng

L'équipe primée dossier:

  • NeurIPS 2018 AutoML (Phase 1)

    1ère place

  • KDD Cup 2018 (deuxième prévision de 24 heures Track)

    1ère place

  • KDD Cup 2018 (Dernière prévision à 10 jours Track)

    1ère place

  • Prévision Weibo chaleur

    1ère place

  • Shanghai BOT Big Application Data de la concurrence

    1ère place

  • Classification texte Daguan

    1ère place

Ce qui suit est l'interprétation des membres de l'équipe DeepSmart expérience Luo victoire Zhipeng et programme détaillé:

1. Il y a quatre membres de votre équipe, vous savez par quels canaux? Comment l'arrière-plan de tout le monde, ainsi que la division du travail dans la course? A quoi bon à leur travail?

Début du jeu de notre équipe avait trois personnes, dont moi, fort et Sun Hao Huang (Allen), qui est mon fort Jeune jaune immédiat, Sun Hao est mon chef de file de la technologie de Microsoft, est un expert en correspondance de la publicité et de recommander des domaines. Lorsque le jeu est sur le point d'entrer dans la deuxième étape, j'ai vu dans le jeu Exchange Group fusion Liu Zhihao recherche équipe, et nous avons eu l'impression que certains modèles se complètent, sur la formation de 4 équipes. En raison de la forte et Brian sont à l'école d'études supérieures, relativement plus de temps libre, ils ont passé beaucoup de temps sur les caractéristiques du traitement des données et l'ingénierie, la conception principale caractéristiques de la structure du modèle et moi et Allen, forte et Zhihao a également participé.

Personnellement, je bien à la conception et la mise en uvre du modèle d'apprentissage en profondeur, a également une grande expérience dans l'ingénierie de fonctionnalité et de l'intégration du modèle, Allen comme la publicité vétéran recommandé domaines d'algorithmes correspondants grand public familier, approfondie et une connaissance approfondie des données, il industrie basée expérience pratique de l'algorithme de faiblesse fait une variété d'améliorations pour nous aider à éviter certains des pièges de données, Zhihao forte et bien à des caractéristiques de conception, les données ont une intuition aiguë, peut atteindre rapidement des résultats et obtenir fonction de rétroaction pour accélérer le modèle itératif.

Dans l'ensemble, nos membres de l'équipe ont leurs domaines d'expertise respectifs, nous compléter mutuellement, communiquer bien pendant la course, la coopération, enfin laissez-nous démarquer parmi les concurrents.

2. Vous avez enfin atteint la première place, le score final est basé sur ce que cela dépend?

Le score final est calculé à partir des cinq indicateurs, la ligne de score a représenté 20% de la scène, deux étapes ont représenté 30% de la ligne de partition, innovante, ce qui représente 20% de la systémique, ce qui représente 10% des données est compris, ce qui représente 20 APPLICABILITÉ %.

Résultats Phase I: résultats préliminaires en ligne.

Étape deux résultats: la ligne des résultats en demi-finale.

Creative, systématique: idées de conception innovantes, unique aux données du modèle à partir des résultats locaux pré-validation de la conception globale, l'utilisation rationnelle des bibliothèques open source, faire jouer pleinement le rôle du modèle open source, ne pas copier aveuglément, modèle de conception de l'algorithme clair, la discussion détaillée de la conception du modèle avantages, conformément aux caractéristiques de l'application des données de match pour le titre, l'architecture de mode algorithme propose un service clarifient de manière significative l'objet des travaux liés à la conception des caractéristiques et avantages pour la cible de prédiction; les résultats du modèle de l'algorithme montrent une stratégie raisonnable peut prouver des résultats optimaux sont soigneusement que celui-ci a conclu que, plutôt que de mener à la chance.

Les données comprises: comprendre la signification des champs d'échantillons de données, les données montrent clairement le prétraitement.

Praticité: Entrées conception du modèle de l'algorithme, pratique pour les affaires ou l'inspiration dans le monde réel.

Figure: classement de la Phase II

3. Ali des règles de concurrence sont strictement limitées, vous ne pouvez utiliser les données qu'ils fournissent, par exemple lorsque la formation du modèle, ne peut utiliser le mot modèle vectoriel pré-formé FastText, si vous avez besoin d'utiliser la traduction de modèle ou d'un corpus de traduction, ils ne peuvent utiliser la traduction fournie en conséquence, il sera différent de votre jeu? Il apportera de nouveaux défis?

Ces restrictions peuvent rendre plus équitable de la concurrence, nous utilisons les mêmes ressources pour mener à bien l'effet de la concurrence, mais elle pourrait utiliser des ressources extérieures peuvent contribuer à renforcer l'effet, mais en fait le jeu et la différence est grande, mais aussi laisser nous nous concentrons sur les données officielles.

4. Les membres de l'équipe savent si quelqu'un en espagnol? Si vous comprenez l'espagnol, occupera certains avantages dans le jeu?

Non. Si vous comprenez la langue espagnole pourrait être en mesure de le faire pour un traitement de données ou d'une fonction modèle d'extraction pour renforcer l'effet des besoins spécifiques de l'expérience pour vérifier la validité.

La difficulté de la concurrence axée sur quoi?

  • limiter strictement l'utilisation des ressources externes.

  • Moins de données de formation fournies, la vérification locale instable.

  • Comment utiliser efficacement les données en anglais.

6. Vous pouvez parler des idées spécifiques sur prétraitements données, l'ingénierie de fonction, validation, sélection de modèles, intégration de modèle?

Les données pré-traitement, uvres de fonction

Nous validons les caractéristiques de l'effet des modèles LightGBM disposent d'uvres après le texte ne pré-traitement différent. Éprouvée, les caractéristiques formées après mélange du texte différent prétraiter très bénéfique pour améliorer la capacité de généralisation d'un modèle unique. Nous deux problèmes évoqués Q1 et Q2, alors caractéristiques énumérées sont utilisées et décrites caractéristiques des différentes méthode de pré-traitement utilisé.

Les caractéristiques sont les suivantes:

Texte de la fonction. Le texte peut être plus facilement déterminée à partir du texte différent, le texte est souvent similaire au nombre de mots et le nombre de caractères sont plus proches seront les mots identiques ou similaires, et la distance d'édition est plus courte. Pendant ce temps, l'utilisation des mots-clés poids-idf tf sera élevé, au lieu de l'utiliser pour extraire un nombre de fonctionnalités plus efficace. Ce qui suit est le texte de l'utilisation des caractéristiques:

  • caractères Distance: la différence entre le nombre de q2 q1 et caractères échelle de valeur absolue.

  • Mot distance: le même mot poids tf-idf et représentaient tous les mots tf-idf poids et proportions, q1 et q2 même nombre de mots, la proportion du nombre de tous les mots, q1 et à distance de Jaccard q2 mot du nombre d'intersection, mots q1 et q2, et définir le nombre, la différence entre le nombre de mots et ainsi de suite.

  • Caractère distance fuzzywuzzy: utiliser le calcul de la distance de modifier les caractères fuzzywuzzy et ainsi de suite.

  • Mot fuzzywuzzy Distance: calculée en utilisant la distance d'édition fuzzywuzzy mot et ainsi de suite.

vecteur Caractér. Trois vecteurs ont été mots utilisés: vecteur officiel de texte, l'utilisation de la formation des données officielles, les données prévisionnelles, la formation des mots de données sans étiquette vectorielle, ainsi que vecteur de mot après la suppression de la formation des mots d'arrêt. Bien que petit ensemble de formation et de test ensemble quantité de données, mais en utilisant le vecteur de mot dérivé de leur formation afin de mieux refléter la nature des données. Étant donné que les longueurs de mots des deux questions ne sont pas égaux, et des différences similaires dans l'ordre des mots des phrases grandes, vous voulez utiliser le calcul vecteur de mot de similarité, nous devons convertir des mots en phrases vecteur vecteur mot vecteur du problème, nous avons dû obtenir deux traitements vecteurs de phrases de la même dimension avec le vecteur de mot, à savoir mot vecteur tous les mots de la moyenne, vecteur mot norme de tous les mots et en divisant le vecteur de mot de mot, utilisant à la fois la similarité des phrases de vecteur est calculé à partir du vecteur de mot angle calcul similitudes entre les deux problèmes. Nous utilisons le vecteur de mot a été construit les caractéristiques suivantes:

  • Q1 et Q2 Mots mots vecteur moyen du vecteur moyen de similarité, calcul de similarité comprenant cosinus, cityblock, Canberra, euclidienne, Minkowski, braycurtis, ces distances différentes de différents angles pour mesurer le degré de similitude.

  • mot de q1 q1 divisant vecteur de mot et la norme vectorielle des vecteurs de similarité de mot q2 q2 et mot de vecteur 2 divisé par la norme, le calcul de similarité comprenant cosinus, cityblock ,, Canberra, euclidienne, Minkowski, braycurtis.

  • Le vecteur de mot calcul des problèmes Distance de Word Mover.

  • Extraits des mots-clés à la fois selon les questions valeur-idf tf mot de deux questions, calcul de similarité mot-clé vecteur cosinus mot. Deux problèmes en raison de la plupart des mots critiques ne causent pas des peines similaires ne sont pas similaires, de sorte que le calcul du problème d'abord par mot-clé tf-idf, puis calculer le vecteur mot-clé similarité de mots.

modèle sujet dispose. modèle sujet est couramment utilisé similitude texte modèle de calcul, en utilisant le modèle de sujet pour extraire le texte des caractéristiques de similarité se joindre à notre modèle a grandement amélioré la capacité de généralisation du modèle. Nous utilisons LSI et le modèle LDA pour cartographier la phrase sujet à l'espace vectoriel de faible dimension, en raison du thème faible vectoriel de dimension, vous pouvez utiliser le vecteur et moins caractéristique de thème directe susceptible de conduire à un modèle surajustement, et peut venir aux deux questions basées sur le vecteur de thème dans lequel la similitude calcul des vecteurs liés reflètent directement l'objet des deux problèmes sont similaires, en utilisant la fonction de modèle suivants concernant:

  • q1, sujets q2 comme le LSI 3,5,7,9, vecteur thème LDA

  • La valeur absolue de q1, thème q2 différence de vecteur

  • Similarité q1, vecteur thème q2

suit Prétraitement:

  • Texte original: 1,2,3,4, texte deux problèmes en utilisant une grande différence par rapport à l'échantillon dans laquelle préfèrent différentes.

  • + Petite lettre à la ponctuation: dans laquelle 1,2,3,4,5,6,7,8,9,10,11 utilisé, ou non modifier substantiellement la sémantique de la ponctuation, les majuscules et les lettres minuscules texte sémantique court il est pas affecté, il est converti en minuscules et la ponctuation pour extraire des caractéristiques plus efficace.

  • + Ponctuation à petite lettre mot + 2-tuple: en utilisant une fonction 2,4,9,10,11, n métamodèle modèle populaire pour le traitement du langage naturel en utilisant un mot n-uplet caractéristiques extraites à un modèle mot augmente informations entre l'ordre des mots.

  • Aller ponctuation + pour + petite lettre pour mettre fin à des mots: en utilisant la fonction 1,2,3,4,5,6,7,8,9,10,11, les mots d'arrêt sont souvent pas de véritable sens, puis retirez les mots d'arrêt modèle caractéristique d'extraction afin d'améliorer les mots non-stop de l'information.

  • Aller clé ponctuation + à petite lettre mot + mot + pour désactiver le 2-tuple: l'utilisation des fonctionnalités 2,4,11

  • Aller ponctuation + pour + petite lettre à l'intersection des problèmes de mots: utilisation 1,3,4,5,6,7,8,9,10,11 fonction des caractéristiques du modèle d'extraction donnent le mot pour éliminer l'intersection des problèmes amélioré non-intersection du mot informations.

données non marquées à l'aide:

données non marquées inclus espagnol vers l'anglais et l'explication des règles du jeu ne peuvent pas utiliser l'interface de traduction, donc d'abord nous formons un modèle de traduction, mais parce que trop peu de données de formation, qui ont sérieusement modèle surajustement, et enfin nous abandonnons l'utilisation de la traduction modèle.

Après l'analyse des données trouvées ensemble de données sans étiquette contient la traduction anglaise des parties du jeu de test, nous utilisons donc la domination espagnole pure de la traduction anglaise de l'ensemble de test ont été extraites des données sans étiquette, afin que nous puissions former de la part du modèle anglais et jeu de test prévisions. Il a été constaté que lorsque nous utilisons un match faible, bien plus peut être adapté au droit anglais, mais l'effet est pas en ligne, à travers l'analyse a révélé qu'il ya une faible erreur de mappage de correspondance, mais une fois l'erreur de cartographie peut facilement être prédite à un proche de 0 la valeur de probabilité, et le cas échéant, l'étiquette d'origine, l'échantillon est de 1, la perte devient importante, donc nous essayons de faire un match de correspondance exacte, malgré ce petit échantillon apparié.

Selon notre méthode de correspondance plus précise, l'ensemble de test dans la liste A, on peut en extraire de l'essai 50002888, a porté sur le tableau de test B, on peut en extraire de 10.0004334 tests. Un tableau dans l'utilisation du modèle de formation en anglais pour prédire que 2888 tests Ensemble du modèle validé, l'intégration modèle espagnol et en anglais sur la liste A peut améliorer le score de 0,003 à 0,004, en raison de l'échantillon a représenté plus de matches sur la liste B moins, peut augmenter l'effet sera réduit.

D'après les expériences, nous démontrons l'efficacité du modèle anglais, si vous utilisez la traduction anglaise de l'interface peut certainement obtenir de meilleurs résultats, en plus, peuvent être traduits dans plusieurs langues pour faire la mise en valeur des données.

vérification

Nous avons utilisé les deux modes d'authentification suivants.

  • validation Irréductible:

Depuis la suite de tests sont de langue maternelle espagnole, et un ensemble de formation donnée est divisée en deux catégories, l'une est de 20.000 paires traduits de l'anglais de l'espagnol, une classe de 1400 traduction de l'espagnol sur l'anglais. De toute évidence, les 1400 paires espagnol est plus approprié pour faire la vérification, ensemble de validation et parce que le test en ligne est proportion inégale des positifs et négatifs, donc nous copions l'échantillon espagnol 1400 paires et ajustons la proportion d'échantillons positifs et négatifs, et, finalement, obtenir 34,061 paires ensemble de validation, en même temps nous remplaçons à plusieurs reprises le modèle de semences de nombres aléatoires, en prenant la moyenne de plusieurs modèles pour prédire l'ensemble de validation pour obtenir le score final de l'ensemble de validation. Une fois la liste A des points de contrôle, l'amélioration du score de prédiction de jeu de validation et de mise à niveau Une liste des scores pour maintenir un bon accord.

  • validation k fois:

Étant donné que l'ensemble de données est faible, seulement utiliser une méthode de vérification ne garantit pas la capacité de généralisation du modèle, donc nous utilisons également l'ensemble de la formation de 21.400 paires de plus de dix fois la validation croisée. Dans chaque fois, nous avons mis de côté dans le cadre d'un ensemble de validation, dans le cadre d'un ensemble de test, et le reste de l'ensemble de la formation. La prise en compte d'un seul partitionnement de données, la différence distribution des données plus des données de distribution et de l'ensemble de test peuvent être différents, de sorte que le résultat de la vérification peut être incompatible avec la ligne de fil, nous avons donc mis une graine aléatoire pour générer plus divisée . Super réglage des paramètres des lignes du modèle de cette façon d'obtenir une meilleure cohérence de la ligne. Lorsque les paramètres de modèle ultra sensiblement déterminés, on utilise ensuite une méthode de validation croisée générale pour former le modèle, de telle sorte que chaque fois plus de données d'apprentissage.

Sélection modèle, modèle d'intégration

Dans le choix du modèle, nous utilisons principalement la profondeur du modèle de réseau de neurones, y compris trois types de structure de réseau. Dans l'expérience, nous avons testé une variété de formes de mots intégrée, nous avons utilisé le vecteur de mot donné de 300 dimensions, et 128 mot formé dimensions vecteur à travers un corpus donné. Nous avons trouvé grâce à des expériences en utilisant un corpus vecteur mot formé pour atteindre logloss bas, cela peut être parce que le vecteur de parole d'un corpus donné de la formation sur la base du problème lui-même ciblé, peut apprendre à une meilleure représentation de la tâche; De plus, nous avons également testé les caractères tri-lettres et convolution, parce que les résultats expérimentaux ne sont pas définitifs inutilisés.

  • Un modèle: M-CNN

Le modèle est un modèle d'appariement sémantique par notre innovation indépendante. Intégration première utilisation de q1, q2 pour coder chaque mot extraction de caractéristique sémantique, puis après le mot traits sémantiques sont normalisés à BN, puis nous utilisons différentes couches de construction de convolution de filtre de taille, chacun du filtre pour extraire une caractéristiques sémantiques partiels, le filtre plus la durée sémantique partiel plus grand. Ici, nous utilisons le CONV1-conv5 et maxpooling obtenir cinq différents vecteur de phrase sémantique caractéristique, puis q1 et q2 vecteurs locaux de caractéristiques sémantiques correspondant à la similitude cosinus peut être obtenu cinq similarité cosinus, nous avons également ajouté les caractéristiques transversales similaires , y compris COS1 * Cos2, COS1 * COS3, COS1 * COS4, concat ensuite reliés pour former une nouvelle couche de présentation, et enfin à travers dense, Prelu, chute de tension, BN, la sortie pour obtenir un résultat de correspondance final. En outre, nous avons effectué une optimisation plus poussée, on q1 and Embedding, q2 matrice de similarité cosinus est calculé, où tous les vecteurs de chaque mot par mot le mot et l'autre extrémité de la similarité du cosinus de la composition, et nous avons retenu la similarité comme le TOP10 mot sémantique, puis convolutionnel, maxpooling, dense pour obtenir un degré supplémentaire de mise en correspondance, et enfin ajouté à la concat à Cos. Depuis l'indépendance de l'ordre de q1 et q2, donc ici Embedding, convolution BatchNormlization et toutes les couches sont partagées.

  • Modèle 2: Attention décomposable

L'alignement est le noyau du modèle, à savoir la correspondance entre les mots et les mots, l'alignement utilisé dans les deux endroits, qui participent à un cadre, sont utilisées pour calculer la relation entre l'attention de deux phrases, comparer l'autre partie, mot entre deux phrases pour comparer chacune des unités de traitement sont basées sur le mot, et enfin avec les réseaux de neurones, ne prédisent qu'il n'utilise pas le mot par rapport au moment de la peine, mais il est moins et les paramètres courir plus vite que le bloc, dans l'expérience a également obtenu de bons résultats.

  • Modèle de trois: ESIM

Décomposables Modèle de l'attention pour le respect, après l'ESIM Embedding ajouté couche BatchNormlization, la couche de projet, et la comparaison et les couches de l'original remplacé BiLSTM Dense. Ici, l'attention de raisonnement local (Local Inference Modeling) est aussi un processus, sauf qu'il est dans la séquence de sortie LSTM calculée. En outre la mise en commun couche Pooled est effectuée à chaque pas de temps de LSTM, modèle ESIM avec de solides relations de synchronisation généralement capables d'obtenir de bons résultats dans le calendrier tâche délicate, dans cette compétition, a également effectué ESIM bien.

Utilisez la fonction dense que l'optimisation du modèle de porte:

Nous utilisons le mot dans le texte du LightGBM, caractérisé tf-idf, similitude mot de vecteur, LDA, LSI et ainsi de suite, alors que nous intégrons ces caractéristiques à un modèle d'apprentissage en profondeur, certaines des caractéristiques que nous appelions fonction dense. A constaté que l'effet direct d'une couche de modèle caractéristique dense et concat nn est pas bon, on se réfère aux produits concepts de réseaux de neurones et LSTM porte dans la conception, nous avons caractéristique dense comme une porte à l'utilisation, nous utilisons la densité dans l'expérience caractéristique à travers toute la couche de connexion obtenue et la dimension sous-modèle en tant que vecteur indiquant, puis ajouter la fonction d'activation sigmoïde, puis élément sage-multiplication, de façon caractéristique dense peut contrôler le flux de sous-modèles d'information, a trouvé expérimentalement que cette configuration dans chacun des sous sur le modèle ont été grandement améliorées. Modèle structure optimisée est la suivante:

Porte-ESIM:

Nous avons fait cette compétition sur le modèle est l'intégration relativement simple, le résultat final combine les quatre modèles, y compris la porte-M-CNN, Porte-DA, Porte-ESIM et LightGBM, pour ces quatre modèles nous avons formés en anglais et en espagnol version, la première en deux langues ont été fusion pondérée, le résultat de la fusion des deux langues.

7. Beaucoup d'entre vous avant la deuxième place sur la liste, le facteur décisif dans la compétition pour obtenir le championnat quoi?

  • Proposé une porte d'architecture de réseau à faire avec la fonction dense.

  • La conception de la structure de réseau sur la base d'une pluralité de similarité locale CNN.

  • En utilisant deux authentification locale, ce qui permet de renforcer l'effet est plus stable.

  • Ne jamais correspondre les données de l'étiquette anglaise, la fusion du modèle des deux langues.

  • L'utilisation de deux versions de la porte de la différenciation de la configuration des fonctionnalités denses, ce qui augmente la différence dans le modèle.

  • D'après les données officielles formés vecteur fasttext mot, puisque le vecteur de mot dans la première couche du réseau, et prend beaucoup de paramètres, utiliser un autre modèle de formation de vecteur de mot a une grande différence.

  • Fusion LighGBM et le modèle DNN.

  • Construit plusieurs structure du modèle de différenciation, pour renforcer l'effet de fusion, ce qui augmente la stabilité des résultats.

  • En utilisant différentes méthodes de prétraitement des caractéristiques structurelles pour améliorer les caractéristiques d'expression.

  • Plus méthode de mesure de distance de vecteur de phrase, comprenant en combinaison mot moyenne de vecteur de distance, Distance Word Mover et les vecteurs TF-IDF avec le mot.

  • En utilisant LDA, LSI, fuzzywuzzy l'ajout de fonctionnalités comme la diversité.

8. Vous avez participé à de nombreuses compétitions de classe d'exploration de données telles que la Coupe KDD de cette année, NeurIPS 2018 AutoML, ces événements ont en commun ce? Quels sont vos critères de sélection des événements?

Ce sont la conférence académique supérieure organisée par le jeu, le jeu de haute qualité, l'impact élevé, il y a beaucoup de concurrents expérimentés et très forts.

Le concours principal est nos intérêts personnels, nous avons participé à un certain nombre de différents types de jeux, principalement utilisés dans les applications de données industrielles. Dans le jeu, nous avons l'occasion de vraiment résoudre ces problèmes pour les applications industrielles, ce qui nous fait un bon sens de l'accomplissement, donc nous n'avons pas des critères stricts d'événements de sélection, d'apprendre quelque chose du jeu et résoudre le problème des applications industrielles est à nos critères de sélection .

9. Pour la participation régulière des élèves de jeu de classe d'apprentissage machine ce que de bons conseils et de l'expérience à partager? Comment puis-je faire comme votre score?

participent souvent à l'apprentissage des élèves machine de classe de compétition sont généralement étudiants intéressés par concours d'apprentissage de la machine, une à l'école, un peu de travail, les étudiants sont généralement plus à l'école, au service relativement moins.

Pour les étudiants, la participation à la compétition d'apprentissage de la machine peut améliorer rapidement leurs compétences professionnelles, mais aussi à l'accumulation de l'expérience pratique, d'une grande aide à obtenir des stages et la recherche de travail, pour servir les étudiants qui espèrent concours amateur tout en apprenant à être en mesure de quelque chose de la course appliquée aux travaux en cours dans le passé, parce que la course prend beaucoup de temps, a également suggéré que l'équipe a relativement plus de temps à l'école, espère aussi que la riche expérience des étudiants participants peut être beaucoup à partager avec avec de nouvelles personnes.

En fait, l'Internet a beaucoup d'expérience à part, notre part est simple: pour plus de partage de papier et la tâche des équipes gagnantes, plus de réflexion, peut être combiné avec les scénarios d'affaires réels pour des tâches spécifiques exploration en profondeur.

Atteindre les meilleurs résultats dans l'apprentissage machine non seulement à la force de la concurrence a également besoin d'un peu de chance, l'état d'esprit détendu, avec l'attitude d'apprendre à jouer le jeu, le jeu dans le processus, afin d'améliorer leur capacité à rencontrer d'autres amis ayant des intérêts similaires, c'est la plus grande réussite.

Lei Feng Lei Feng net net

Syncd- open source des outils de déploiement automatisé
Précédent
RNG trois hommes maquillage calme, le jeu juste valeur gardes couleur TFBOYS, les amis: Je n'avais pas noir
Prochain
· La version Golf de Kerry de la Cruze Tour & châssis Comparaison
un bon moment peut vraiment vous faire passer une bonne humeur? Mettre 2017 nouvel hiver sera probablement en mesure de savoir!
le conseil scolaire primaire et secondaire décalant la croissance des revenus sur cinq ans sextuplé!
Eh bien une journée ensoleillée de spectacle d'été de printemps pour voir Libération Monument
Gloire du Roi: « Là, vous avez la mission » La nouvelle mise à jour de la saison d'apprentissage de ces BUG vous rapidement sur King
Jiangling test de choix environnemental pragmatique conduire la nouvelle énergie E200S
stand de bande Gangster sur un autre cow-boy? HUF x UNITED ARROWS & SONS vent nouveau joint à jouer gars dur!
« La plupart incroyable » travail universitaire comment traiter l'argent pour les hommes mauvais?
Thriller « So » son film de minuit, les fantômes LA MORT
Jiang Feng a été le soleil de printemps très chaud
Finales exposition Ligue MV, beaucoup d'ufs de l'intérieur, et le dernier à propos de LPL
Le nouveau roi Plaza S50 pousser version officielle net a vendu environ 131.800 véhicules