Sur la base de la compréhension sémantique de la technologie et de l'application de la carte des connaissances

Source: DataFunTalk

Cet article sur 4900 mots lecture recommandée 9 minutes

Cet article présentera carte des connaissances Baidu basée sur les derniers progrès dans la compréhension et l'application de la technologie du texte au contenu multi-modal.

Tags: carte des connaissances

connaissances Grande cartographie de valeur dans les applications d'intelligence artificielle deviennent de plus en plus important. Baidu pour construire une carte à grande échelle des connaissances communes et largement utilisé dans la recherche, la recommandation, l'interaction intelligente et bien d'autres produits. En même temps, avec l'approfondissement du texte, de la voix, les technologies visuelles et autres intelligents, la cartographie des connaissances dans une représentation complexe du savoir, la compréhension sémantique des aspects techniques des applications multi-mode sont confrontés à de nouveaux défis et opportunités. Cet article présentera carte des connaissances Baidu basée sur les derniers progrès dans la compréhension et l'application de la technologie du texte au contenu multi-modal.

Les principaux contenus suivants:

  • fond
  • La connaissance des cartes texte compréhension sémantique
  • Connaissance vidéo Mapping compréhension sémantique
  • résumé

I. Contexte

1. compréhension sémantique multimodes forte demande

Pour Baidu, beaucoup de produits vidéo, tels que le flux d'information, petite vidéo tout le peuple, l'amour l'art fantastique, etc., ce qui correspond à la longueur de la vidéo, une courte vidéo, de la vidéo et d'autres faible profondeur la compréhension de ce type de vidéo pour l'activité vidéo de l'entreprise, il est très central la technologie sous-jacente.

2. La nécessité de comprendre la profondeur de la connaissance sémantique

Dans les scénarios d'application pratique, nous avons constaté que pour parvenir à une compréhension en profondeur sémantique de la vidéo, sur la base de la technologie de perception pure, la connaissance joue une valeur importante. Courts clips vidéo tels que ci-dessus, à partir du contenu apprécié, la vidéo traditionnelle est basée sur la perception compris plus, comme par reconnaissance faciale et l'identification des mots clés de l'OCR / mot.

Dans la scène réelle, nous avons constaté qu'il ya un effet important sur l'optimisation de l'espace, de sorte que le résultat ne soit pas identifié le portrait de l'intérêt des utilisateurs grains fins dans le noyau vidéo, tels que la connaissance du rôle du cinéma et de téléfilms, les relations et ainsi de suite. Mais la compréhension de la carte sémantique basée sur la connaissance peut résoudre ce genre de problème, il peut faire pour résoudre les structures profondes de la vidéo, puis la recommandation supérieure, la recherche peut appliquer ces connaissances pour faciliter la distribution efficace des contenus en fonction.

3. les objectifs et les valeurs

Selon la description ci-dessus, notre objectif est de la carte fournirait le calcul nécessaire et le raisonnement sémantique Intelligence supérieure les connaissances des utilisateurs / ressources sémantiques de connaissances d'analyse de améliorée multidimensionnelle, une assistance. Par rapport à la compréhension conventionnelle, sa valeur a deux aspects: Tout d'abord, il peut vraiment comprendre les ressources de connaissances derrière, en deuxième lieu, il peut être calculé sur la base des connaissances et des modèles de raisonnement.

En second lieu, le texte de la carte de la connaissance la compréhension sémantique

1. Une meilleure connaissance analyse sémantique multi-dimensionnelle

Contrairement à la compréhension sémantique du texte traditionnel, notre compréhension est que le texte du texte carte connaissance sémantique de la connaissance à faire une gamme complète d'entités de dimension d'analyse, les concepts, les relations, l'aide à fournir à l'application des connaissances sémantiques nécessaires.

Tout d'abord, les classes d'entités d'annotation de texte, puis entités associés à cartographier les connaissances, entité ainsi acquise correspondant aux informations et connaissances à travers la carte d'association, d'autre part conceptualiser, comprendre les connaissances derrière l'entité, éventuellement comprendre les relations entre les entités, y compris les entités propriété et autre côté. En établissant la connaissance de la cartographie sémantique compréhension du texte, il y aura trois caractéristiques techniques: l'homonymie sémantique, peut être l'explication de raisonnement généralisé et calculé.

2. Le texte sous une variété de formes et monde des affaires, de nombreux défis

Dans le scénario actuel, nous serons confrontés à de nombreux défis:

  • sous forme de texte multiples

Texte court: Le contexte est très clairsemée, ce qui exacerbe le problème de l'ambiguïté;

chapitre: De nombreux chapitres de la nécessité de comprendre le contexte des paragraphes-phrase croix ou comprendre croix, dans le scénario réel du projet, la performance et l'efficacité ont besoin d'une très forte demande, et la performance est de déterminer si la politique peut être un facteur important sur la ligne.

  • La nouvelle entité

Les cartes de connaissances ne peuvent pas être inclus dans toutes les entités, si la nouvelle entité n'est pas identifiée dans le texte, cette compréhension du texte aura un impact négatif.

  • Pour les différents scénarios.

Une variété d'entrée différents et une variété d'exigences personnalisées.

Notre solution est d'abord utiliser une technologie d'amélioration des connaissances pour renforcer l'effet de la compréhension sémantique, suivie par la profondeur du réseau de neurones, et enfin quelques-uns des opérateurs de base abstraction et componentization par manière à base de composants sur mesure pour soutenir différentes activités.

3. Entité étiquette: la technologie de marquage basée sur la connaissance améliorée

Dans le graphique des connaissances marquées entités cibles: entités texte étiquette, associée à la base de connaissances et homonymie. Celui-ci a une technologie clé, le processus est le suivant:

Tout d'abord, nous allons identifier les entités de saisie de texte, tels que « Li Bai Cette chanson sonne bien droit? », Pour « Li Bai » Cette entité, l'entité derrière elle il y a beaucoup de candidats, il peut être un poète, des chansons, des jeux où le héros ou le rôle les gens ordinaires. Il est une question très importante dans l'entité candidate - l'identification de la nouvelle entité, et il nous générons beaucoup d'échantillons de formation par le biais de la supervision et de la connaissance loin et conjointement avec Baidu modèle de pré-formation pour améliorer la reconnaissance nouvelle entité ERNIE.

D'autre part, avec les entités de tri sur tous les candidats après que l'entité candidate, que nous avons introduit cette représentation de vecteur de connaissance, l'entité commune des attributs et des relations structurées pour former l'intégration de l'entité dit, puis utiliser le modèle pour faire une mesure d'appariement sémantique unifiée entité de commande.

Enfin, l'entité candidate ayant la meilleure note détermine une entité, si l'entité associée à la base de connaissances.

4.: atlas conceptualisation sur la base du concept de conceptualisation à grains fins,

Suivant est la conceptualisation, le NER traditionnel est différent, par exemple « comment bien jouer ce héros Li Bai, » la reconnaissance de l'entité named « Li Bai » reconnu comme une personne, selon le contexte actuel dans la conceptualisation, dynamique identifiée entité correspondant à accueillir l'idée que ici pour la « Li Bai » reconnaîtra les personnages du jeu, des personnages virtuels. Ainsi, de la conceptualisation incarnera texte granularité plus fine de l'entité concept générique le plus approprié dans le contexte actuel, de sorte que, conformément à la connaissance de comprendre la scène en ce moment.

Dans la pratique, nous allons construire un réseau de connaissances pour fournir les connaissances nécessaires pour améliorer la compréhension du texte. Pour la saisie de texte à travers des réseaux de connaissances sera converti en un graphique, les noeuds du graphique seront les entités, les attributs, et certains adjectifs comme verbes. Avec ces nuds Par la suite, la marche aléatoire sur la figure, la marche aléatoire finale sera le plus approprié contexte actuel de chaque entité après l'achèvement de la convergence de concept générique.

5. conceptualisation - technologies clés: Knowledge Network

Pour la construction de la conceptualisation de la technologie la plus critique est la connaissance du réseau, le programme est le suivant:

  • réseau isA: Supérieure et inférieure du corps de la connaissance, comme Yang Yang est l'acteur, chanteurs;
  • réseaux de cooccurrences: creuser dans toute entité réseau maintenant, mais convertis au concept de co-occurrence, comme le chanteur et co-occurrence de la chanson;
  • Glossaire réseau: La construction d'un grand nombre d'entités, la relation de co-occurrence entre les concepts et les mots de signal, où le mot de signal plus adjectifs / verbes;
  • Web sémantique: vecteur sémantique ERNIE texte pré-entraîné la formation et la représentation vectorielle mentionnée ci-dessus de l'entité.

6 pour une variété de scénarios d'application

Dans les applications pour une variété de scénarios, ces technologies de base, nous allons l'opérateur abstrait, par l'opérateur de l'ensemble pour répondre de manière différente SceneText compréhension sémantique.

Exemples d'application:

Troisièmement, la carte des connaissances vidéo compréhension sémantique

1. Connaissance compréhension en profondeur vidéo améliorée

vidéo traditionnelle comprendra les catégories vidéo, telles que la vidéo ci-dessus seront classés dans le cinéma et la télévision, sera la reconnaissance par Tom Cruise, et par OCR et de la parole et le texte reconnu extrait quelques mots-clés, mais cela ne comprenait pas vraiment comprendre les connaissances de base vidéo, des problèmes également décrits précédemment dans la scène réelle.

Nous allons convertir la vidéo en une connaissance sous-carte, élargir les connaissances de ce sous-graphe par carte des connaissances, et le raisonnement de l'utilisation et les calculs pour calculer la confiance et la détection de collision. Il a trois caractéristiques techniques: compréhension de la profondeur du calculatoire et de soutenir plus l'innovation des produits.

exemple:

2. vidéo Cartographie des connaissances compréhension sémantique des défis

Dans le scénario actuel, il y aura deux défis:

  • Construction et utilisation des connaissances: Pour la compréhension sémantique vidéo quels sont les besoins de connaissances? Comment construire cette connaissance? Comment utiliser ces connaissances pour comprendre la profondeur de la vidéo?
  • multimodal: La vidéo elle-même est un multimodal typique, y compris le texte, visuel et vocal dans la façon dont ces fusion d'information multimodale, débruitage, comprendre?

3. compréhension approfondie du raisonnement et le calcul de la connaissance sémantique

compréhension sémantique vidéo du processus complet, y compris:

analyse multi-modale courte vidéo, y compris la compréhension visuelle, la compréhension de la parole et la compréhension de ces perception ci-dessus la compréhension du texte, ces résultats ont ensuite été mis en place pour les associer à comprendre l'utilisation des connaissances associées à la technologie vidéo, et enfin avec ces relations, les connaissances et plus résultat meurent de l'analyse, fera la fusion multimodale et calculée sur ce raisonnement figure.

Dans une petite compréhension sémantique vidéo, le processus avec une compréhension sémantique courte vidéo du même, mais il y aura quelques différences dans la courte vidéo, parce que la vidéo est plus biaisée en faveur du petit thème, classe la compréhension de la scène.

4. vidéo apprécié la carte: carte différente du traditionnel

L'objectif est de comprendre les connaissances nécessaires pour fournir le thème vidéo, entités, côté entité, des scènes et d'autres dimensions des besoins des utilisateurs et des ressources décrites dans la vidéo point, différent de la carte du savoir traditionnel, carte vidéo dans les noeuds de carte pour comprendre davantage sur des aspects du thème, côté solide, scène classe de la connaissance et la relation de ces connaissances que les relations de propriété, hyponymie et relations d'association, mettre l'accent sur la recherche vidéo journalise sources de connaissances, des critiques des utilisateurs, des vidéos, des cartes et d'autres ressources pour se creuser, plus d'attention aux recommandations vidéo en termes de scénarios d'application , la recherche et la production de contenu.

5. Vidéo comprendre la carte: Mise au point sur le renforcement des connaissances clés

La relation ci-dessus mentionnée entre la vidéo et la compréhension traditionnelle des cartes Atlas, notre idée est de construire la construction différenciée, en mettant l'accent sur la construction de la scène, côté solides, des sujets, des entités et leurs relations, et enfin la carte Mûrir une carte commune eux. Le processus est le suivant:

  • bâtiment Ontologie: Référence et de l'ontologie commune et le plan Construit pour construire la carte vidéo apprécié squelette de l'utilisation homme-machine;
  • Exploitation minière connaissances: Avec le squelette après le début de l'exploitation minière toutes sortes de connaissances, y compris les nouvelles entités minières, côté extraction d'entités, extraction du sujet et de la scène minière;
  • relations sémantiques: Avec le nud de la connaissance ci-dessus, commencer à construire des relations, telles que la relation entre les bits supérieurs et inférieurs, tels que la relation entre les scènes;
  • construction Carte: Avec les nuds et les relations, les modèles commencent construction, l'accent ici sera normalisé des entités / associations et côté de la construction;
  • Contrôle de la qualité, fonctionnalité calcul: Une fois que vous avez créé une carte vidéo, afin d'application cartographique, le conflit va tester la force et les caractéristiques thermiques des caractéristiques statistiques associées à l'informatique.

6. technologies clés: une variété de découverte de connaissances et de la technologie Data Mining

Entité, thème, découverte et entité côté excavation:

  • La nouvelle entité minière: Ce qui précède a été introduit;
  • Thème trouvé: Combiné avec l'utilisateur clique sur les thèmes de résolution des problèmes de démarrage à froid trouvé, puis utilisez l'étiquetage de la séquence minière thème manière;
  • côté entité minière: Lecture modèle basé sur la compréhension, utilisez le pointeur étiquette étiquette mi-chemin semi-solide.

7. Les entités comprennent

7.1 Calcul basé sur la fusion multimodale et le raisonnement, la vidéo principale est comprise

Il y aura beaucoup d'entités vidéo, comprendre l'essentiel de la vidéo, il y a des entités importantes ont aussi des entités importantes. Il faut distinguer l'entité fait l'objet de la vidéo, l'entité est le bruit, plus besoin de comprendre les connaissances véhiculées par l'entité, car pour voir une vidéo, où les gens et les choses semblent même une action et non une description complète du sujet de la vidéo, le dernier est besoins d'ambiguïté à éliminer.

Nos solutions sont:

  • Analyse Multimodal: En utilisant le réseau de correspondance sémantique, vidéo et préoccupations fondamentales sans supervision de type potentiel des entités de base intégré de façon dans l'extrait de mention vidéo;
  • associations entité: Mentionner modèle potentiel associé à l'entité, et homonymie sémantique pour résoudre le problème;
  • calculatoire: Attributs étendus de calcul entité relation d'entité, le raisonnement de l'incertitude pour déterminer quelle entité est la plus importante entité dans cette vidéo, la détection de collision serait incompatible avec l'entité sujet du contenu vidéo du filtre.

exemple:

7.2 Vision et connaissances combinées avec une source vidéo liée courte vidéo

Certaines scènes, après avoir vu la courte vidéo que nous voulons savoir qui provient d'une longue vidéo, même de ce qui est mis en longue vidéo. La pratique traditionnelle est d'utiliser manière fingerprinting vidéo pour trouver la source de la vidéo, nous ajoutons la connaissance sémantique pour comprendre la carte sur cette base pour aider rappeler la vidéo source. Pour certains premiers résultats d'une identification des empreintes digitales à la frontière de compréhension sémantique pour faire la vérification assistée; En second lieu, dans certains cas, la bibliothèque longue vidéo qui n'est pas un indice cible, nous allons déduire une partie de la vidéo source peut être associée à la compréhension sémantique .

8. compréhension scène: Calcul basé sur la fusion multimodale et le raisonnement, la vidéo principale est comprise

Introduit devant l'entité à comprendre, nous introduisons la prochaine compréhension de la scène, dans ce scénario il y a plus d'action, un événement. Nous avons divisé en deux catégories: Tout d'abord, scène à gros grains ; En second lieu, la scène à grain fin Tels que: scène automobile est à gros grains, permis de conduire, l'entretien des véhicules est une scène à grains fins.

La méthode traditionnelle consiste à faire du point de vue de la classification vidéo, nous trouvons un bon effet pour la scène à gros grains, mais l'effet de scène de mauvais grains fins. Grâce à l'analyse que nous avons trouvé plusieurs difficultés:

  • Il exige beaucoup de classification grains fins indiquée dans le catalogue;
  • Certaines scènes exigent l'introduction de connaissances, certaines personnes ne savent pas si l'arrière-plan est très difficile de voir;
  • Dans les applications pratiques, nous devons contrôler l'efficacité et la flexibilité, mais il est difficile de contrôler au moyen du modèle pur. Par conséquent, nous proposons l'utilisation de la connaissance et la vision combinée faire l'inférence de scène.

Notre solution est:

  • Tout d'abord, il est classé par la vidéo de modèle de classification à grain grossier;
  • En second lieu, la vidéo associée extrait les caractères, les mots-clés et similaires au modèle de fonctionnement dans la scène;
  • Enfin, le raisonnement symbolique sur la carte de la scène, et a ensuite aidé des connaissances pour classer les résultats get scène finale à grain fin fines.

Ce qui suit est basé sur la carte des connaissances vidéo compréhension sémantique des exemples d'application du produit.

Exemples d'application:

9. Q Visuel (VQA): Fusion et apprécié multimode

En plus de la description ci-dessus, le ministère de la cartographie des connaissances que nous faisons aussi beaucoup d'autres emplois, dont l'un est un quiz visuel.

Notre métier principal est de proposer une amélioration de « mécanisme d'attention intermodale multi-granularité » de la mise en valeur du plus granulaire de la compréhension et la capacité d'aligner le pouvoir explicatif de l'information intermodale. Alors que le modèle une meilleure intégration apprécié l'information multimodale. Bonne performance des résultats dans VQA2.0 ci-dessus, passez à 67,73 de 65,67.

10. La génération cross-média

Un autre travail est la production cross-média, principalement graphiques générés et la production vidéo. Nous avons basé la vidéo compréhension sémantique et la connaissance de la cartographie pour fournir du matériel, la génération de signaux et les connaissances nécessaires pour renforcer l'effet de génération vidéo.

exemple:

IV Résumé

La part présente:

Une compréhension sémantique multimodes de la valeur de: réaliser la profondeur de la compréhension sémantique, la compréhension des connaissances derrière elle.

En second lieu, le texte de la carte de la connaissance la compréhension sémantique: la connaissance de l'analyse sémantique multi-dimensionnelle améliorée, et le concept de généralisation de l'entité de marquage.

Troisièmement, la carte vidéo connaissances compréhension sémantique:

  • comprendre les tendances vidéo;
  • Image, voix, texte caractéristiques de fusion multimodale;
  • Association fondée sur la connaissance, la compréhension sémantique de la profondeur de l'informatique de raisonnement.

Partager sur ici aujourd'hui, je vous remercie.

Vous partagerez

Feng sait où, Baidu, directeur de la R & D Architecte

Editeur: Huang Jiyan

Commenté par: Lin Yilin

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel "  AI pour envoyer des données  « Sisters et n ° » Les données envoyées THU  « Pour plus de conférences et de bien-être contenu de qualité.

Stanford toilettes intelligent avec des veines anales peut connaître les gens, les selles et l'urine considèrent votre message « vendu »
Précédent
données d'image roman coronavirus ensemble de documents analytiques (avec liens)
Prochain
Watson Kennedy a parlé de la nouvelle infrastructure - l'industrie de l'Internet - valeur Cube (PPT télécharger)
Google auto-développé borne puce AI exposé des progrès importants, Samsung unissent leurs forces pour ordinateur portable téléphones mobiles
ère secrète 5G + AI du monde du robot! Sept technologie de base au changement la vie humaine
GitHub ouvert à la fonctionnalité de base de 40 millions de développeurs libres du monde! AI vient de mettre un grand modèle
l'intelligence artificielle et de la race de l'intelligence humaine: l'intelligence humaine contre le peigne ensemble
Utilisez Python pour écrire un émulateur Gameboy et entraîner des modèles d'IA!
Thé persistante pendant près de 60 ans, Meizhou Jiaoling saisir l'occasion pour polir « spéciale banane » nouvelle carte
Yangjiang policiers recueillaient à minuit, le réseau inter-provincial de gangs de fraude arrêté
Plus Carte Voir Hailing drill anti-terroriste! Restaurer les capacités d'intervention d'urgence de test de Somethin
observation du Sud | deux mois 3 fois sur le « Nouvelles du Réseau », Dongguan Shatin à faire quoi?
L'éducation juridique au printemps de la première leçon, les élèves des procureurs Huiyang nuage franco-prussienne
Regardez l'histoire à travers le « argent Yaner »: la relation entre l'argent et dynasties