Source: DataFunTalk

Cet article sur 4900 mots lecture recommand�e 9 minutes

Cet article pr�sentera carte des connaissances Baidu bas�e sur les derniers progr�s dans la compr�hension et l'application de la technologie du texte au contenu multi-modal.

Tags: carte des connaissances

connaissances Grande cartographie de valeur dans les applications d'intelligence artificielle deviennent de plus en plus important. Baidu pour construire une carte � grande �chelle des connaissances communes et largement utilis� dans la recherche, la recommandation, l'interaction intelligente et bien d'autres produits. En m�me temps, avec l'approfondissement du texte, de la voix, les technologies visuelles et autres intelligents, la cartographie des connaissances dans une repr�sentation complexe du savoir, la compr�hension s�mantique des aspects techniques des applications multi-mode sont confront�s � de nouveaux d�fis et opportunit�s. Cet article pr�sentera carte des connaissances Baidu bas�e sur les derniers progr�s dans la compr�hension et l'application de la technologie du texte au contenu multi-modal.

Les principaux contenus suivants:

fond
La connaissance des cartes texte compr�hension s�mantique
Connaissance vid�o Mapping compr�hension s�mantique
r�sum�

I. Contexte

1. compr�hension s�mantique multimodes forte demande

Pour Baidu, beaucoup de produits vid�o, tels que le flux d'information, petite vid�o tout le peuple, l'amour l'art fantastique, etc., ce qui correspond � la longueur de la vid�o, une courte vid�o, de la vid�o et d'autres faible profondeur la compr�hension de ce type de vid�o pour l'activit� vid�o de l'entreprise, il est tr�s central la technologie sous-jacente.

2. La n�cessit� de comprendre la profondeur de la connaissance s�mantique

Dans les sc�narios d'application pratique, nous avons constat� que pour parvenir � une compr�hension en profondeur s�mantique de la vid�o, sur la base de la technologie de perception pure, la connaissance joue une valeur importante. Courts clips vid�o tels que ci-dessus, � partir du contenu appr�ci�, la vid�o traditionnelle est bas�e sur la perception compris plus, comme par reconnaissance faciale et l'identification des mots cl�s de l'OCR / mot.

Dans la sc�ne r�elle, nous avons constat� qu'il ya un effet important sur l'optimisation de l'espace, de sorte que le r�sultat ne soit pas identifi� le portrait de l'int�r�t des utilisateurs grains fins dans le noyau vid�o, tels que la connaissance du r�le du cin�ma et de t�l�films, les relations et ainsi de suite. Mais la compr�hension de la carte s�mantique bas�e sur la connaissance peut r�soudre ce genre de probl�me, il peut faire pour r�soudre les structures profondes de la vid�o, puis la recommandation sup�rieure, la recherche peut appliquer ces connaissances pour faciliter la distribution efficace des contenus en fonction.

3. les objectifs et les valeurs

Selon la description ci-dessus, notre objectif est de la carte fournirait le calcul n�cessaire et le raisonnement s�mantique Intelligence sup�rieure les connaissances des utilisateurs / ressources s�mantiques de connaissances d'analyse de am�lior�e multidimensionnelle, une assistance. Par rapport � la compr�hension conventionnelle, sa valeur a deux aspects: Tout d'abord, il peut vraiment comprendre les ressources de connaissances derri�re, en deuxi�me lieu, il peut �tre calcul� sur la base des connaissances et des mod�les de raisonnement.

En second lieu, le texte de la carte de la connaissance la compr�hension s�mantique

1. Une meilleure connaissance analyse s�mantique multi-dimensionnelle

Contrairement � la compr�hension s�mantique du texte traditionnel, notre compr�hension est que le texte du texte carte connaissance s�mantique de la connaissance � faire une gamme compl�te d'entit�s de dimension d'analyse, les concepts, les relations, l'aide � fournir � l'application des connaissances s�mantiques n�cessaires.

Tout d'abord, les classes d'entit�s d'annotation de texte, puis entit�s associ�s � cartographier les connaissances, entit� ainsi acquise correspondant aux informations et connaissances � travers la carte d'association, d'autre part conceptualiser, comprendre les connaissances derri�re l'entit�, �ventuellement comprendre les relations entre les entit�s, y compris les entit�s propri�t� et autre c�t�. En �tablissant la connaissance de la cartographie s�mantique compr�hension du texte, il y aura trois caract�ristiques techniques: l'homonymie s�mantique, peut �tre l'explication de raisonnement g�n�ralis� et calcul�.

2. Le texte sous une vari�t� de formes et monde des affaires, de nombreux d�fis

Dans le sc�nario actuel, nous serons confront�s � de nombreux d�fis:

sous forme de texte multiples

Texte court: Le contexte est tr�s clairsem�e, ce qui exacerbe le probl�me de l'ambigu�t�;

chapitre: De nombreux chapitres de la n�cessit� de comprendre le contexte des paragraphes-phrase croix ou comprendre croix, dans le sc�nario r�el du projet, la performance et l'efficacit� ont besoin d'une tr�s forte demande, et la performance est de d�terminer si la politique peut �tre un facteur important sur la ligne.

La nouvelle entit�

Les cartes de connaissances ne peuvent pas �tre inclus dans toutes les entit�s, si la nouvelle entit� n'est pas identifi�e dans le texte, cette compr�hension du texte aura un impact n�gatif.

Pour les diff�rents sc�narios.

Une vari�t� d'entr�e diff�rents et une vari�t� d'exigences personnalis�es.

Notre solution est d'abord utiliser une technologie d'am�lioration des connaissances pour renforcer l'effet de la compr�hension s�mantique, suivie par la profondeur du r�seau de neurones, et enfin quelques-uns des op�rateurs de base abstraction et componentization par mani�re � base de composants sur mesure pour soutenir diff�rentes activit�s.

3. Entit� �tiquette: la technologie de marquage bas�e sur la connaissance am�lior�e

Dans le graphique des connaissances marqu�es entit�s cibles: entit�s texte �tiquette, associ�e � la base de connaissances et homonymie. Celui-ci a une technologie cl�, le processus est le suivant:

Tout d'abord, nous allons identifier les entit�s de saisie de texte, tels que � Li Bai Cette chanson sonne bien droit? �, Pour � Li Bai � Cette entit�, l'entit� derri�re elle il y a beaucoup de candidats, il peut �tre un po�te, des chansons, des jeux o� le h�ros ou le r�le les gens ordinaires. Il est une question tr�s importante dans l'entit� candidate - l'identification de la nouvelle entit�, et il nous g�n�rons beaucoup d'�chantillons de formation par le biais de la supervision et de la connaissance loin et conjointement avec Baidu mod�le de pr�-formation pour am�liorer la reconnaissance nouvelle entit� ERNIE.

D'autre part, avec les entit�s de tri sur tous les candidats apr�s que l'entit� candidate, que nous avons introduit cette repr�sentation de vecteur de connaissance, l'entit� commune des attributs et des relations structur�es pour former l'int�gration de l'entit� dit, puis utiliser le mod�le pour faire une mesure d'appariement s�mantique unifi�e entit� de commande.

Enfin, l'entit� candidate ayant la meilleure note d�termine une entit�, si l'entit� associ�e � la base de connaissances.

4.: atlas conceptualisation sur la base du concept de conceptualisation � grains fins,

Suivant est la conceptualisation, le NER traditionnel est diff�rent, par exemple � comment bien jouer ce h�ros Li Bai, � la reconnaissance de l'entit� named � Li Bai � reconnu comme une personne, selon le contexte actuel dans la conceptualisation, dynamique identifi�e entit� correspondant � accueillir l'id�e que ici pour la � Li Bai � reconna�tra les personnages du jeu, des personnages virtuels. Ainsi, de la conceptualisation incarnera texte granularit� plus fine de l'entit� concept g�n�rique le plus appropri� dans le contexte actuel, de sorte que, conform�ment � la connaissance de comprendre la sc�ne en ce moment.

Dans la pratique, nous allons construire un r�seau de connaissances pour fournir les connaissances n�cessaires pour am�liorer la compr�hension du texte. Pour la saisie de texte � travers des r�seaux de connaissances sera converti en un graphique, les noeuds du graphique seront les entit�s, les attributs, et certains adjectifs comme verbes. Avec ces nuds Par la suite, la marche al�atoire sur la figure, la marche al�atoire finale sera le plus appropri� contexte actuel de chaque entit� apr�s l'ach�vement de la convergence de concept g�n�rique.

5. conceptualisation - technologies cl�s: Knowledge Network

Pour la construction de la conceptualisation de la technologie la plus critique est la connaissance du r�seau, le programme est le suivant:

r�seau isA: Sup�rieure et inf�rieure du corps de la connaissance, comme Yang Yang est l'acteur, chanteurs;
r�seaux de cooccurrences: creuser dans toute entit� r�seau maintenant, mais convertis au concept de co-occurrence, comme le chanteur et co-occurrence de la chanson;
Glossaire r�seau: La construction d'un grand nombre d'entit�s, la relation de co-occurrence entre les concepts et les mots de signal, o� le mot de signal plus adjectifs / verbes;
Web s�mantique: vecteur s�mantique ERNIE texte pr�-entra�n� la formation et la repr�sentation vectorielle mentionn�e ci-dessus de l'entit�.

6 pour une vari�t� de sc�narios d'application

Dans les applications pour une vari�t� de sc�narios, ces technologies de base, nous allons l'op�rateur abstrait, par l'op�rateur de l'ensemble pour r�pondre de mani�re diff�rente SceneText compr�hension s�mantique.

Exemples d'application:

Troisi�mement, la carte des connaissances vid�o compr�hension s�mantique

1. Connaissance compr�hension en profondeur vid�o am�lior�e

vid�o traditionnelle comprendra les cat�gories vid�o, telles que la vid�o ci-dessus seront class�s dans le cin�ma et la t�l�vision, sera la reconnaissance par Tom Cruise, et par OCR et de la parole et le texte reconnu extrait quelques mots-cl�s, mais cela ne comprenait pas vraiment comprendre les connaissances de base vid�o, des probl�mes �galement d�crits pr�c�demment dans la sc�ne r�elle.

Nous allons convertir la vid�o en une connaissance sous-carte, �largir les connaissances de ce sous-graphe par carte des connaissances, et le raisonnement de l'utilisation et les calculs pour calculer la confiance et la d�tection de collision. Il a trois caract�ristiques techniques: compr�hension de la profondeur du calculatoire et de soutenir plus l'innovation des produits.

exemple:

2. vid�o Cartographie des connaissances compr�hension s�mantique des d�fis

Dans le sc�nario actuel, il y aura deux d�fis:

Construction et utilisation des connaissances: Pour la compr�hension s�mantique vid�o quels sont les besoins de connaissances? Comment construire cette connaissance? Comment utiliser ces connaissances pour comprendre la profondeur de la vid�o?
multimodal: La vid�o elle-m�me est un multimodal typique, y compris le texte, visuel et vocal dans la fa�on dont ces fusion d'information multimodale, d�bruitage, comprendre?

3. compr�hension approfondie du raisonnement et le calcul de la connaissance s�mantique

compr�hension s�mantique vid�o du processus complet, y compris:

analyse multi-modale courte vid�o, y compris la compr�hension visuelle, la compr�hension de la parole et la compr�hension de ces perception ci-dessus la compr�hension du texte, ces r�sultats ont ensuite �t� mis en place pour les associer � comprendre l'utilisation des connaissances associ�es � la technologie vid�o, et enfin avec ces relations, les connaissances et plus r�sultat meurent de l'analyse, fera la fusion multimodale et calcul�e sur ce raisonnement figure.

Dans une petite compr�hension s�mantique vid�o, le processus avec une compr�hension s�mantique courte vid�o du m�me, mais il y aura quelques diff�rences dans la courte vid�o, parce que la vid�o est plus biais�e en faveur du petit th�me, classe la compr�hension de la sc�ne.

4. vid�o appr�ci� la carte: carte diff�rente du traditionnel

L'objectif est de comprendre les connaissances n�cessaires pour fournir le th�me vid�o, entit�s, c�t� entit�, des sc�nes et d'autres dimensions des besoins des utilisateurs et des ressources d�crites dans la vid�o point, diff�rent de la carte du savoir traditionnel, carte vid�o dans les noeuds de carte pour comprendre davantage sur des aspects du th�me, c�t� solide, sc�ne classe de la connaissance et la relation de ces connaissances que les relations de propri�t�, hyponymie et relations d'association, mettre l'accent sur la recherche vid�o journalise sources de connaissances, des critiques des utilisateurs, des vid�os, des cartes et d'autres ressources pour se creuser, plus d'attention aux recommandations vid�o en termes de sc�narios d'application , la recherche et la production de contenu.

5. Vid�o comprendre la carte: Mise au point sur le renforcement des connaissances cl�s

La relation ci-dessus mentionn�e entre la vid�o et la compr�hension traditionnelle des cartes Atlas, notre id�e est de construire la construction diff�renci�e, en mettant l'accent sur la construction de la sc�ne, c�t� solides, des sujets, des entit�s et leurs relations, et enfin la carte M�rir une carte commune eux. Le processus est le suivant:

b�timent Ontologie: R�f�rence et de l'ontologie commune et le plan Construit pour construire la carte vid�o appr�ci� squelette de l'utilisation homme-machine;
Exploitation mini�re connaissances: Avec le squelette apr�s le d�but de l'exploitation mini�re toutes sortes de connaissances, y compris les nouvelles entit�s mini�res, c�t� extraction d'entit�s, extraction du sujet et de la sc�ne mini�re;
relations s�mantiques: Avec le nud de la connaissance ci-dessus, commencer � construire des relations, telles que la relation entre les bits sup�rieurs et inf�rieurs, tels que la relation entre les sc�nes;
construction Carte: Avec les nuds et les relations, les mod�les commencent construction, l'accent ici sera normalis� des entit�s / associations et c�t� de la construction;
Contr�le de la qualit�, fonctionnalit� calcul: Une fois que vous avez cr�� une carte vid�o, afin d'application cartographique, le conflit va tester la force et les caract�ristiques thermiques des caract�ristiques statistiques associ�es � l'informatique.

6. technologies cl�s: une vari�t� de d�couverte de connaissances et de la technologie Data Mining

Entit�, th�me, d�couverte et entit� c�t� excavation:

La nouvelle entit� mini�re: Ce qui pr�c�de a �t� introduit;
Th�me trouv�: Combin� avec l'utilisateur clique sur les th�mes de r�solution des probl�mes de d�marrage � froid trouv�, puis utilisez l'�tiquetage de la s�quence mini�re th�me mani�re;
c�t� entit� mini�re: Lecture mod�le bas� sur la compr�hension, utilisez le pointeur �tiquette �tiquette mi-chemin semi-solide.

7. Les entit�s comprennent

7.1 Calcul bas� sur la fusion multimodale et le raisonnement, la vid�o principale est comprise

Il y aura beaucoup d'entit�s vid�o, comprendre l'essentiel de la vid�o, il y a des entit�s importantes ont aussi des entit�s importantes. Il faut distinguer l'entit� fait l'objet de la vid�o, l'entit� est le bruit, plus besoin de comprendre les connaissances v�hicul�es par l'entit�, car pour voir une vid�o, o� les gens et les choses semblent m�me une action et non une description compl�te du sujet de la vid�o, le dernier est besoins d'ambigu�t� � �liminer.

Nos solutions sont:

Analyse Multimodal: En utilisant le r�seau de correspondance s�mantique, vid�o et pr�occupations fondamentales sans supervision de type potentiel des entit�s de base int�gr� de fa�on dans l'extrait de mention vid�o;
associations entit�: Mentionner mod�le potentiel associ� � l'entit�, et homonymie s�mantique pour r�soudre le probl�me;
calculatoire: Attributs �tendus de calcul entit� relation d'entit�, le raisonnement de l'incertitude pour d�terminer quelle entit� est la plus importante entit� dans cette vid�o, la d�tection de collision serait incompatible avec l'entit� sujet du contenu vid�o du filtre.

exemple:

7.2 Vision et connaissances combin�es avec une source vid�o li�e courte vid�o

Certaines sc�nes, apr�s avoir vu la courte vid�o que nous voulons savoir qui provient d'une longue vid�o, m�me de ce qui est mis en longue vid�o. La pratique traditionnelle est d'utiliser mani�re fingerprinting vid�o pour trouver la source de la vid�o, nous ajoutons la connaissance s�mantique pour comprendre la carte sur cette base pour aider rappeler la vid�o source. Pour certains premiers r�sultats d'une identification des empreintes digitales � la fronti�re de compr�hension s�mantique pour faire la v�rification assist�e; En second lieu, dans certains cas, la biblioth�que longue vid�o qui n'est pas un indice cible, nous allons d�duire une partie de la vid�o source peut �tre associ�e � la compr�hension s�mantique .

8. compr�hension sc�ne: Calcul bas� sur la fusion multimodale et le raisonnement, la vid�o principale est comprise

Introduit devant l'entit� � comprendre, nous introduisons la prochaine compr�hension de la sc�ne, dans ce sc�nario il y a plus d'action, un �v�nement. Nous avons divis� en deux cat�gories: Tout d'abord, sc�ne � gros grains ; En second lieu, la sc�ne � grain fin Tels que: sc�ne automobile est � gros grains, permis de conduire, l'entretien des v�hicules est une sc�ne � grains fins.

La m�thode traditionnelle consiste � faire du point de vue de la classification vid�o, nous trouvons un bon effet pour la sc�ne � gros grains, mais l'effet de sc�ne de mauvais grains fins. Gr�ce � l'analyse que nous avons trouv� plusieurs difficult�s:

Il exige beaucoup de classification grains fins indiqu�e dans le catalogue;
Certaines sc�nes exigent l'introduction de connaissances, certaines personnes ne savent pas si l'arri�re-plan est tr�s difficile de voir;
Dans les applications pratiques, nous devons contr�ler l'efficacit� et la flexibilit�, mais il est difficile de contr�ler au moyen du mod�le pur. Par cons�quent, nous proposons l'utilisation de la connaissance et la vision combin�e faire l'inf�rence de sc�ne.

Notre solution est:

Tout d'abord, il est class� par la vid�o de mod�le de classification � grain grossier;
En second lieu, la vid�o associ�e extrait les caract�res, les mots-cl�s et similaires au mod�le de fonctionnement dans la sc�ne;
Enfin, le raisonnement symbolique sur la carte de la sc�ne, et a ensuite aid� des connaissances pour classer les r�sultats get sc�ne finale � grain fin fines.

Ce qui suit est bas� sur la carte des connaissances vid�o compr�hension s�mantique des exemples d'application du produit.

Exemples d'application:

9. Q Visuel (VQA): Fusion et appr�ci� multimode

En plus de la description ci-dessus, le minist�re de la cartographie des connaissances que nous faisons aussi beaucoup d'autres emplois, dont l'un est un quiz visuel.

Notre m�tier principal est de proposer une am�lioration de � m�canisme d'attention intermodale multi-granularit� � de la mise en valeur du plus granulaire de la compr�hension et la capacit� d'aligner le pouvoir explicatif de l'information intermodale. Alors que le mod�le une meilleure int�gration appr�ci� l'information multimodale. Bonne performance des r�sultats dans VQA2.0 ci-dessus, passez � 67,73 de 65,67.

10. La g�n�ration cross-m�dia

Un autre travail est la production cross-m�dia, principalement graphiques g�n�r�s et la production vid�o. Nous avons bas� la vid�o compr�hension s�mantique et la connaissance de la cartographie pour fournir du mat�riel, la g�n�ration de signaux et les connaissances n�cessaires pour renforcer l'effet de g�n�ration vid�o.

exemple:

IV R�sum�

La part pr�sente:

Une compr�hension s�mantique multimodes de la valeur de: r�aliser la profondeur de la compr�hension s�mantique, la compr�hension des connaissances derri�re elle.

En second lieu, le texte de la carte de la connaissance la compr�hension s�mantique: la connaissance de l'analyse s�mantique multi-dimensionnelle am�lior�e, et le concept de g�n�ralisation de l'entit� de marquage.

Troisi�mement, la carte vid�o connaissances compr�hension s�mantique:

comprendre les tendances vid�o;
Image, voix, texte caract�ristiques de fusion multimodale;
Association fond�e sur la connaissance, la compr�hension s�mantique de la profondeur de l'informatique de raisonnement.

Partager sur ici aujourd'hui, je vous remercie.

Vous partagerez

Feng sait o�, Baidu, directeur de la R & D Architecte

Editeur: Huang Jiyan

Comment� par: Lin Yilin

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " �AI pour envoyer des donn�es �� Sisters et n � � Les donn�es envoy�es THU �� Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Sur la base de la compr�hension s�mantique de la technologie et de l'application de la carte des connaissances

I. Contexte

En second lieu, le texte de la carte de la connaissance la compr�hension s�mantique

Troisi�mement, la carte des connaissances vid�o compr�hension s�mantique

IV R�sum�