Smarter AI recherche fois! Smarter interprétation intelligente du dialogue approfondi technique

le dialogue intelligent est la forme future du moteur de recherche, plus intelligentes dans le développement de l'ensemble de la recherche de réseau, flux d'information interne, le flux d'information et d'autres grands services de données internationales, l'exploration et la précipitation conversation intelligente progressivement fait surface. Au cours de la dernière année, basée sur la recherche a recommandé des années, nous avons achevé la construction de l'architecture de la plate-forme, les systèmes de production, algorithmes, système, système d'exploitation, la fourniture de services d'information intelligents pour le Groupe Ali à Taiwan plus de partis d'affaires, et des progrès substantiels sur un assistant vocal personnel . Cet article décrit la recherche de Dieu système de cheval de contenu de dialogue intelligent et l'architecture de la plate-forme, l'espace est limité dans certains détails de l'expansion pas trop.

L'alignement terme

moteur TaskBot : Objet de traitement de base est la « compétence » Nous avons des compétences définies comme structurées (requête + contenu), scène verticale des tâches, comme la scène de requêtes en temps réel, outils, contrôle, etc.

moteur QABot : Y compris moteur KG-QA, moteur QAPair, moteur DeepQA. KG-QA principalement quiz de connaissances Encyclopédie et précises sur l'ensemble carte du réseau, la production de moteurs QAPair à la consommation à base de Q & A; moteur url DeepQA basé sur un index, le regroupement de classification, mot de mise au point abstrait système multi-niveaux

moteur ChatBot : Y compris le moteur de récupération à base de chat et généré

Content System

Recherche Web et dialogue intelligent est différents services d'information au porteur, la même souche sur les données, les algorithmes, les architectures. Il est précisément parce que l'accumulation de Google et d'autres société de moteur de recherche peut rapidement lancer sa plate-forme AI et produits, services d'information à B / C

  • Secteur des Bibliothèques Compétences

    La première étape: L'équipe a passé six mois la recherche de la grande industrie verticale 100+ de mise à niveau structurée, impliquant grande industrie du divertissement aussi grand, grand Voyage, des nouvelles et des informations, dans les voitures, les sports, le tourisme, les petites actions, traduction, poésie antique, etc.

    La deuxième étape: plus d'améliorer les compétences de structure, bien structuré de requêtes, plusieurs séries de construction de dialogue, et la sortie vers le haut-parleur assistant Lynx

  • La connaissance de la cartographie de l'ensemble du réseau

    Ali seulement la connaissance de la cartographie complète du réseau, cartes de connaissances, recommandation de l'entité, les produits de précision tels que la sortie Q;

  • bibliothèque Q & A

  • Questions et réponses bibliothèque communautaire: UGC basé Questions et réponses Questions et réponses communauté des bibliothèques, 1B grandeur doc;

  • production PUPTC: Cheval de Dieu « Chevaliers » système de production de campus mis en place, les Chevaliers sont le nom de code du projet, le campus de profiter pleinement du stock de connaissances tri, le traitement, l'examen, d'améliorer la productivité et la qualité des questions et des réponses, le nombre d'étudiants actuellement impliqué millions de niveau;

  • bibliothèque de haute qualité: base de données communautaire Questions et réponses couvrant élevé, mais la qualité est inégale, la production sociale de haute qualité, mais un nombre relativement faible, par la machine à laver pour la communauté des bibliothèques Q & A et l'extension de la bibliothèque de la production sociale, finalement précipité dans la bibliothèque de haute qualité;

  • Bibliothèque blanc d'oeuf: stratégie produit blanc d'oeuf. Dialogue avec les utilisateurs bot veulent réponse la plus directe à cette question est, « le jaune d'oeuf, » mais parfois la machine peut obtenir (ou une partie get) au problème de l'utilisateur, mais ne peut pas donner une réponse parfaite, cette fois-ci à l'utilisateur « blanc d'oeuf » est un élégant Je comprends que vous représentez des moyens, et a terminé la première version du blanc d'uf sur la ligne, couvrant principalement le type de question « description / chemin »;

    • Bibliothèque centrale

      Afin de purifier l'environnement Internet, d'améliorer la qualité du contenu, nos opérations minières + fonctionnement en mode l'écoulement d'un ensemble de base des bibliothèques;

    Compétences de connaissances Bibliothèque + + + Q & A chat bibliothèque bibliothèque, forment l'infrastructure de la scène intelligente du dialogue, à des services d'information, pour ne citer que quelques exemples pour répondre aux différentes bibliothèques pour différentes requêtes (enquête), les étudiants de poney assistez à un match de la NBA , at-il dit:

    « ? Maintenant, combien de points les Rockets à venir » - >  compétences Bibliothèque

    « Qui a inventé le basket-ball? » - >  Base de connaissances

    "Harden Hall of Fame peut faire?" - >  bibliothèque Q & A

    « Parlons-en de la NBA, non? » - >  bibliothèque dans le chat

    la couverture des services d'information générale et la qualité est toujours à la recherche de questions et de réponses, ce qui est des difficultés de l'industrie, y compris le traitement des données semi-structurées / non structurées, le modèle de production de contenu, le contenu des questions sensibles, et ainsi de suite pour répondre à l'utilisateur; Shenma recherche en un an explorer le système à plusieurs niveaux QA accumulé, UMPM diversification (machine / OGC / PGC / UGC) de la production, à grande échelle axés sur les processus systèmes de production durables à l'avant-garde de l'industrie, une collection de commentaires ces derniers jours sur le chat de l'assistant de recherche sur le taux de déclenchement atteint le taux de précision de 73% de 91%, ces données est ce que le concept peut faire référence aux produits représentatifs de l'indice de l'industrie:

    Selon une récente enquête Stone Temple, assistants virtuels Google peuvent répondre à 68% des problèmes des utilisateurs, 90,6% de la réponse est correcte, alors que la proportion d'utilisateurs de problèmes de Microsoft Cortana en mesure de répondre à taux de précision de 56,5% était de 81,9%, tandis que Siri d'Apple a répondu utilisateur émet un rapport de 21,7%, la précision était de 62,2%, la proportion des questions des utilisateurs de réponse Alexa Amazon 20,7%, la précision 87%

    Architecture du système

    La photo montre l'architecture du système comme une image grand tout. « Moteur » du bâtiment et de calcul de la charge responsable de données, « plate-forme » est responsable de la construction du moteur de base des solutions en boucle fermée (production, à locataires multiples de la consommation, les opérations, la gestion de la demande, etc.). système d'atterrissage, est à la recherche de précipitations accumulées depuis de nombreuses années. Le système de circulation est totalement découplée de l'activité de recherche, portant Lynx elfes et autres partis d'affaires (ainsi que deux à onze parties en direct Q & A). Ici vient de Dieu sera introduit séparément la plate-forme, le moteur de TaskBot, moteur QABot.

    Dieu vient la plate-forme

    Dieu vient plate-forme d'extension de la plate-forme de moteur de TaskBot pour répondre aux compétences à la production, la consommation, l'exploitation et d'autres questions. Pour les développeurs externes, il est BotFramework, il est pour l'entrée des appelants externes tout le dialogue intelligent Shenma, il est pour la plateforme RD interne et exploitation de production. Actuellement, le principal groupe de services de plate-forme dans l'entreprise. Dieu est venu par les compétences d'une plate-forme ouverte, les compétences de la plate-forme de production, la plate-forme d'analyse statistique, les composants de la plate-forme de gestion des opérations.

    • Compétences plate-forme ouverte

      Il y a deux niveaux d'ouverture: contenu ouvert + la possibilité d'ouvrir. compétences correspondantes plate-forme ouverte assume également deux rôles:

      1. La possibilité d'ouvrir (BotFramework): construire la plate-forme de compétences standards de classe api.ai, les développeurs externes pour construire leurs compétences;

      2. consommation de contenu (OpenAPI): en créant une application, sélectionner la compétence / Q, dialogue intelligent directement via l'API;

      À l'heure actuelle, nous n'avons pas encore ouvert la principale BotFramework push: Bien que de nombreux produits de plate-forme ouverte, mais le mode actuel est difficile de répondre aux besoins des développeurs, une compétence disponible à partir de la planification des produits à la production nécessite beaucoup de travail et un lien à long, engager à ne pas corpus point et le contexte du point de configuration sortie peut gérer (classe simple contrôle à peine). Dans nos compétences 20+ une compétence spéciale pour compléter environ 300 + différentes intentions, la création d'une collection de corpus, l'annotation, l'examen, la modélisation, les tests d'amélioration des processus. Donc, nous nous concentrons principalement sur les compétences réelles intégrées poli disponibles, ont une valeur réelle.

    • plate-forme de production de compétences

      plate-forme de production de compétences intégrée pour la production de compétences. Il est une des compétences plate-forme ouverte et les rôles sont conformes à la livraison finale du matériau à moteur TaskBot, mais l'utilisateur est une RD interne, couvre tout le processus de liaison de produit à Pearl River Delta sur les compétences en ligne, impliquant la préparation d'un PRD en ligne structuré, gestion de la demande, la gestion de corpus , la gestion de l'entité, le renforcement des compétences, la formation des compétences, la validation des compétences, les compétences d'édition.

      Pour les compétences universelles, chaque compétence que nous avons l'ensemble des compétences pour soutenir des scénarios multi-mode: écran standard, les écrans de téléphone mobile, grand écran, pas d'écran similaire au scénario standard pour les haut-parleurs elfes Lynx, les téléphones cellulaires scène assistant personnel pour le cheval de Dieu ils exigent en plusieurs tours, spectacle structuré, les politiques ne sont pas le même genre, les compétences également construites en plus des entités matérielles, corpus, scénario, soutenant la livraison c ++ DLL pour soutenir la politique de commande différente, les stratégies NLG.

      Grâce à la plate-forme de l'acquisition de compétences en ligne, PD / RD / QA / opérateurs de pipelines de production nette division du travail.

    • Plate-forme d'analyse statistique

      analyse RBI des statistiques multidimensionnelles, des rapports, des mesures. les questions concernant notamment la production et l'efficacité de la consommation (par direction de guidage de champ de la production de contenu statistique), le contenu du contrôle de rétroaction quasi-disant, et les compétences globales d'indépendance.

    • Plate-forme de gestion des opérations

      plateforme de gestion des opérations deux points: les opérations de contenu, les opérations d'application.

      opération Contenu: intervention en temps réel dans des domaines clés et des modules;

      Fonctionnement de l'application: application / CRUD et la formation professionnelle;

    Note 1: L'introduction d'orange intermédiaire Développer moteur TaskBot, ci-après

    Note 2: la figure TaskBot gros moteur, le QABot du moteur, les moteurs de chatbot architecture logique; QABot l'architecture physique et ChatBot en cascade pour TaskBot, une pluralité de modules et de rappel multi-canal déterminé pk

    moteur TaskBot

    moteur TaskBot est aux compétences de construction et le noyau des consommateurs. Il implique de calcul hors ligne, gestion de contenu, la planification, le service en ligne.

    • calcul hors ligne  Une plate-forme matérielle externe par un pour construire une donnée interne correspondant, y compris le dictionnaire de l'entité, le modèle de classification, destiné à identifier et pompage plug-in rainure / modèle / modèle, les politiques NLG et modèles, fiche de script DM, la fiche US le tri, la carte logique webhook, etc. .

    • gestion du contenu  Par version de l'application / compétences en gestion minutieuse des données ci-dessus. La gestion de contenu devrait être sans état, migration rapide, la restauration, la distribution.

    • expédition  Les données sont divisées en planification, gestion de l'environnement, la gestion des services. Responsable de données hors ligne de programmation à la distribution en ligne de données, un ensemble de moteurs SDS contiennent plusieurs rôles, chaque rôle charge les données correspondantes, les itérations de gestion responsable de l'environnement, vérifier, avance, production automatisée de gestion de l'environnement, les aspects de la gestion des services et de maintenance responsable du transport répartition du travail dont les branches (d'écoulement de branchement selon l'application, conformément à l'habileté consommation ventilées), la réduction du volume d'expansion supérieure et inférieure et analogues;

    • moteur en ligne : Moteur SDS, voir ci-dessous

    moteur SDS est la mission fondamentale du dialogue. Il accepte la requête de l'utilisateur au centre de contrôle de DM, afin de comprendre la NLU centrale, faite par le rappel et le rang des États-Unis à la sortie emballage NLG. l'information en cours de diffusion, le fuseau horaire, la ligne de limite, Aujourd'hui dans l'histoire, la conversion de l'unité, les prix du pétrole, un calendrier, nba, livres compétences Lynx Elf compétences en ligne taux de déclenchement taux de précision 97-98% de 95% +;

    • DM (Dialog Manager): que la gestion du dialogue, est un élément clé du système de dialogue, responsable du maintien du processus de dialogue de gestion de contexte de conversation, de maintenir un processus de dialogue en douceur. Entrée utilisateur pour générer des intentions, et d'autres informations dans la fente après le traitement NLU, DM de prendre les décisions correspondantes et les actions en fonction du contexte de ces données et la conversation en cours, y compris pour appeler le module NLG génère un langage naturel, le processus de dialogue nécessaire pour passer à travers une interface de service externe des informations supplémentaires. DM arbre de tâches de manière dialogue de gestion, chaque nud de l'arbre est un agent (enquête, exécution, réponse) Compte tenu de la polyvalence et l'évolutivité du système de dialogue, nous avons conçu le module de gestion de dialogue, le moteur de dialogue une partie des parties pertinentes du terrain et a fait un isolement clair, y compris le dialogue Agent des composants réutilisables, les mécanismes d'appels externes qui peuvent être modifiées options de contrôle de dialogue, polyvalent, facile à personnaliser différentes fonctions d'agent, pour réaliser différentes scènes de dialogue.

    moteur de dialogue comporte deux volets importants dans le contrôle du processus:

    • pile d'exécution du Dialogue: état d'exécution Agent d'entretien de la pile de forme, contrôler le flux du dialogue en fonction du contexte. La pile de dialogue Agent dans la pile, la pile est effectué par l'agent et sélectionner le sous-agent approprié continue d'exécution de la pile. Informations contextuelles dialogue correspond session de dialogue de stockage de la pile à une scène spécifique. L'agent peut être l'image du haut de la pile de dialogue compris comme l'objectif du dialogue, la relation de dialogue entre les arbres et combinés pile avec des sujets de l'ordre du jour de l'agent peuvent être mises en uvre pour suivre et gérer la mise au point de dialogue peut rester flexible, commutation sujet de conversation arrière.

    • Ordre du jour Sujets: responsable de la maintenance et la gestion des informations des paramètres de processus de dialogue pour les systèmes de collecte d'entrée de l'utilisateur attendent de recevoir. Agenda est divisé en plusieurs niveaux, chaque niveau correspond à un empilement de boîte de l'agent, de sorte que pour différentes informations de programme de la pile d'exécution au nom du dialogue dans cette scène d'entrée souhaitée. Lorsque l'utilisateur de maintenir ou changer le sujet, pour trouver les paramètres attendus correspondants et mises à jour.

      unité d'exécution de DM est « script », construit par le utilisateur de faire glisser et déposer dans un script d'arbre plate-forme Internet ouverte ou la production sera éventuellement construit de façon à être chargé en c ++ exécuté. À l'heure actuelle grâce à une combinaison de DM et NLU a été réalisée sur des compétences multiples pour remplacer omis, anaphore résolution, le sujet décalé, gestion des erreurs plusieurs séries de dialogue.

    NLU: NLU Il y a deux concepts différents:

    • BotFramework autour du NLU: Après une requête de l'utilisateur structuré Domaine / Intention / Logement retourné au développeur (apporter la confiance), certains produits BotFramework obliger les utilisateurs à juger eux-mêmes d'accepter ou non le résultat, sera plus gênant dans le cas de nombreuses compétences car au cur de cette conception est d'aider les utilisateurs à résoudre le problème de la compréhension sémantique

    • dialogue NLU autour du produit: NLU combinaison des résultats de la classification et de rappel faire une stratégie multidimensionnelle NBEST, ce qui est particulièrement important dans les scénarios de services d'information, comme un utilisateur a dit Li Bai, il pourrait être poète Li Bai, Sa Beining peut être la femme de Li Bai, aussi peut être Ronghao de « Li Bai », il existe différentes approches, par exemple au moyen d'un grand utilisateur clique de recherche, avec le comportement historique de l'utilisateur, qui peut même demander au DM Li Bai

      1 couvre les deux naturel, Dieu cheval NLU est le mode 2. Cette année, le système NLU a subi deux importantes mises à niveau, une fois NBEST mise à jour du SDS ensemble, le sous-NLU est l'un des sous-NLU peut faire autre domaine en fonction de leur propre reconnaissance particulière de l'intention de personnalisation interne et le canal principal de pompage, parallèle et améliorer RD degré.

    NLG / États-Unis / Savoir-Gateway ne démarre pas.

    moteur QABot

    Différents division de l'industrie de la dimension Q, en fonction du contenu peut être divisé en des données structurées dimension Q, données non structurées Q, Q et Q en fonction de la paire. Du point de vue technique, l'industrie est généralement divisée dans les systèmes de récupération de formule à base de Q-sur la base des systèmes de formule Q. Le premier est un système de recherche d'information construit sur une grande ensembles de données à l'échelle du dialogue pour parvenir à une réponse raisonnable aux questions des utilisateurs à travers la mise en place d'une adaptation efficace des questions et des questions et des réponses des modèles liés degré, celui-ci tente de fin de construction (de bout en -END) profondeur des modèles d'apprentissage, l'apprentissage automatiquement l'association entre les données de conversation de requête sémantique et la réponse dans la masse, de manière à atteindre tous les utilisateurs peuvent générer des problèmes automatiquement réponse.

    Nous sommes actuellement principalement concentrés sur la formule de recherche du système d'assurance qualité basé sur d'énormes quantités de données, alors qu'au niveau du système est divisé en: KG-QA, Baike-QA, DeepQA, PairQA, ils exercent sur les connaissances existantes de l'ordre, mais dans la source / exigence données le mode de traitement, adaptation de mode, et les différents scénarios de couverture. Je crois que le résultat idéal du monde est structuré (base de connaissances), mais cela peut atteindre jamais vraiment, comme la difficulté de continuer à produire et mettre à jour ainsi que le traitement sémantique naturelle de l'information, il est nécessaire d'avancer en parallèle dans les deux sens.

    KG-QA et Baike-QA haute précision, mais une couverture limitée, mais une forte pollution importante non structuré couverture profonde assurance qualité basée sur la production sociale de Pair-QA et augmente la productivité mais nécessitent de bonnes scènes et des problèmes, de nombreux défis de décision Q difficulté et les obstacles.

    Cela introduit PairQA et système DeepQA comme indiqué ci-dessous:

    • Comprendre le problème

      Question réponse compréhension du système est la clé pour comprendre l'anneau d'intention d'un utilisateur, en particulier DeepQA. Ici, nous avons la possibilité de réutiliser la grande base de recherche de la PNL (extension sémantique, analyse de poids, la reconnaissance de l'entité, la correction d'erreur de réécriture, etc.), la classification des questions et de l'algorithme de classification apprentissage automatique manière artificielle pour obtenir la classification des questions, telles que: sens, chat, les gens, l'organisation et le temps, l'accent reconnaissance des mots, principalement pour compléter les besoins d'information de positionnement précis, se réfère principalement à l'arrière-plan ou l'objet de questions en rapport avec le thème, de réfléchir sur le rôle des sujets descriptifs, tels que les entités, les attributs, les actions et d'autres exemples.

    • Recherche d'information

      La recherche d'information est responsable de la récupération d'informations / candidat concerné du corpus global, le module de distribution pour générer la réponse finale. Corpus de différentes informations et différents scénarios d'affaires, il existe de nombreuses formes de méthodes de récupération, nous sommes maintenant principalement utilisé est basé sur la recherche de texte inversé et de recherche basée sur le vecteur sémantique. Le premier est la façon traditionnelle d'utiliser le moteur de recherche en texte intégral, l'avantage de simple, une grande précision, mais la construction d'une base de données dépendant de corpus, ce dernier est un moteur de recherche sémantique une meilleure mise en uvre, l'avantage est forte capacité de généralisation, mais il y a un certain taux de déclenchement faux. Deux mécanisme d'indexation présente des avantages et des inconvénients, une combinaison de différents corpus et des scénarios d'affaires, à l'aide de différents mécanismes d'indexation, mais aussi combinés entre eux pour jouer leurs avantages respectifs.

    • Générateur de réponse

      Basé sur le terminal de récupération de réponse des candidats, nous avons besoin de plus de raffinement ligne, l'extraction de réponse, le calcul de la confiance, la précision finale, réponse simple. PairQA, commande plus stricte est faite par des modèles CNN, DSSM, GBDT et méthodes d'apprentissage de la machine + de calcul de confiance; DeepQA, est destiné à des documents non structurés / corpus communautaire, nous devons faire un niveau de traitement plus approfondi, y compris la liaison simple, extraction sommaire du modèle Bi-LSTM RNN, validation croisée entre les réponses synonymes aux questions liées à la vérification et ainsi de suite.

    • corpus Construction

      corpus de construction est le fondement QABot, que ce soit pour des questions et réponses des domaines spécifiques (par exemple: mère, trois, hip-hop), ou ouvert au domaine des questions et des réponses (tels que le chat), sont inséparables du soutien de corpus de haute qualité. Pour la scène de Lynx, nous avons mis en place une série de questions et de réponses pour les opérations d'exploration de données idiomatiques et les processus de production, contient un creusement de question ouverte, à creuser la question de la scène, la réponse à la socialisation de la production, la réponse de haute qualité extrait automatiquement.

    moteur Atlas

    Les cartes de connaissances sont à la recherche infrastructure de base plus intelligente, en utilisant la recherche de données volumineux et des technologies de traitement du langage naturel pour créer l'apprentissage en profondeur, mais aussi les plus anciens produits de données, à la recherche bien informé, le processus de développement intelligent ont joué un rôle clé. la cartographie basée sur la connaissance et la compréhension du langage naturel, nous construisons la carte de la connaissance, la recommandation de l'entité, des questions et des réponses précises trois produits principaux. Dans le dialogue d'affaires intelligent pour la scène haut-parleurs, a porté également sur la construction des recettes, la poésie antique, les trois pays, la plupart du monde et d'autres compétences spéciales, sortie à l'assistant Lynx. Du côté de la production, tout en continuant à introduire l'extraction de connaissances, pointe nouveau raisonnement de connaissances de la technologie, il a également établi un modèle de modèle de production sociale de continuer à construire des connaissances supplémentaires et domaines d'expertise, la carte de meilleure connaissance pour les entreprises plein d'énergie.

    résumé

    L'année dernière, l'équipe de dialogue intelligent achèvement préliminaire de la mise à niveau technique de la recherche au dialogue intelligent, précipité l'architecture AI +, des algorithmes, des opérations, des services d'information système contenu dans le combat réel. ère Thanksgiving, chemin AI du dialogue est très long, nous travaillons ensemble.

    bonne voiture défoncée garée là, comment faire?
    Précédent
    Super League course au titre avec confiance? Port 0 sur dédicaces Hengda pour traiter ensemble de super-ho, ou bassin versant à ce moment
    Prochain
    Marotta a tiré! Inter Milan sur le prêt et le visa, est sorti après une ligne entière!
    force concentrée détoner sens technologique! 201810 meilleure technologie automobile
    perdant jeu Rocket strie, encore quand Anderson fonte de fer pour bébés! Mais les remarques du commandant allemand des gens voient l'espoir!
    Donc, jour chaud aussi couru magasin 4S pour acheter une voiture? ah fatigué vous?
    public à l'épargne! L'application est construite sur les cartes de connaissances d'apprentissage en profondeur
    Jinshan colonies Typhoon: le personnel, la réinstallation des résidents « expérimentés » une réinstallation d'évacuation ordonnée
    Copiez le roi sur la source a échoué! Le transfert de Zheng a été arrêté, les Hengda deux facteurs sur le banc
    Entre 1 jour 2 allé championnat! Heung-Min Son douleur cardiaque, mais les fans des Spurs heureux fleur!
    Il se réfère à l'est à l'ouest! Donovan remarques après le match, vous perdez le pot directement à la formation et à la préparation des joueurs!
    FAW Xiali a les ventes de véhicules en Juin à 0, avec une perte moyenne de 3,88 millions par jour! Mais je l'aime toujours ......
    « Ours en peluche cinq nuits sarouel site soeur » installation télécharger gratuitement la version officielle publiée
    Smart a également poussé Cabriolet? ForEase Concept Dans les coulisses