Hong Kong University of Science et technologie Professeur Feng Yan: comment obtenir le robot de comprendre le Big Bang Terrier

Pr�sident: Feng Yan | Universit� de Hong Kong de la science et de la technologie

�diteur de finition Xin Qu

Qubit produit | Num�ro public QbitAI

Cet article Professeur Feng Yan finition dans P�kin enregistrement � partager atelier novateur 18 Ao�t partager le th�me � Comment construire des machines empathiques �.

Feng Yan est maintenant compris inclure professeur voix de g�nie �lectrique et informatique � l'Universit� de Hong Kong de la science et de la technologie, les principaux domaines de recherche, la traduction automatique, traitement multilingue et la recherche d'information musicale.

Professeur Feng Yan 1988 baccalaur�at en g�nie �lectrique de l'Institut polytechnique de Worcester au Royaume-Uni, 1993 et 1997 pour obtenir une ma�trise et un doctorat en science informatique de l'Universit� de Columbia, respectivement.

D'ici � 2015, en raison de la contribution exceptionnelle dans le domaine de l'interaction homme-ordinateur et a accord� Honorary Fellow de l'IEEE, un ancien Transactions IEEE sur Audio, parole et du langage traitement, Lettre IEEE Signal Processing, ACM Transactions sur la parole et le traitement des langues et des transactions sur l'Association pour r�dacteur en chef adjoint de la Revue internationale de la linguistique informatique, etc., mais aussi le pr�sident et les membres de la Commission SIGDAT ACL.

�Professeur Feng Yan

Bonjour tout le monde l'apr�s-midi, tr�s reconnaissant � Lee Kai-fu invitation Dr. Aujourd'hui, je partage avec le th�me: Comment construire des machines Empathique, comment faire des robots plus empathique.

Pourquoi parler de ce sujet il? Parce que maintenant l'intelligence artificielle, nous allons voir beaucoup d'opportunit�s, mais en plus des possibilit�s, nous avons aussi besoin de voir l'avenir, par exemple 10 ans, 5 ans ou 20 ans apr�s l'IA se d�veloppera quoi.

Alors maintenant, il y a plusieurs gros probl�mes, nous devons r�fl�chir � leur propre:

L'intelligence artificielle est pas seulement des uvres simples de chose. D'autres machines avec intelligence artificielle ne sont pas les m�mes, il est tr�s important qu'il y ait une � personne �, le soi-disant � intelligence artificielle � � l'int�rieur � homme. �

Si vous une technologie au service de l'humanit�, cette technologie ne soit pas n�cessaire d'avoir � empathie � qu'il ne soit pas n�cessaire d'avoir l'intelligence �motionnelle non seulement QI.

Cette machine, il n'y a pas de valeurs correctes. Il y a deux ans, Microsoft en ligne un Chatbot, peu de temps apr�s que la ligne est en baisse, parce parl� des mots inappropri�s. Il est juste un Chatbot, si elle se fait lorsque le service � la client�le, le syst�me devra tr�s clair que dire ne devrait pas dire quoi que ce soit.

machines et services cibles sont les gens, et les gens sont une vari�t� de diff�rentes personnalit�s et diff�rentes �motions alors cette machine ne peut pas nous aider, nous avons d�tect� des probl�mes psychologiques.

Il y a deux autres questions que nous discuterons plus tard: AI ne peut pas avoir un sens de l'humour et son sens esth�tique.

Tout d'abord, je veux que vous ressentiez l'�motion est tr�s important, non seulement amusant. m�thode de traitement du signal, changer le son des couleurs �motionnelles, ce qui signifie comme son audible sera diff�rent.

Ici pour parler de ce qu'on appelle � l'empathie �, l'anglais appel� � empathie �: L'action de compr�hension, �tant au courant, �tre sensible, et �prouver les sentiments, les pens�es et l'exp�rience d'un autre moyen de dire que je peux rapporter � l'autre. les gens pensent et ressentent.

Donc, cette communication empathique est d'avoir de l'empathie communication cardiaque, ce qui est tr�s important chez l'homme et une partie de la communication humaine. Le sens commun ne peut pas �tre beaucoup, mais lorsque vous communiquez avec l'ordinateur, il n'y a pas � empathie �, aura des obstacles � la communication.

Nous parlons de la compr�hension du langage naturel, il y a beaucoup dans le domaine de l'IA, nous pr�sentons maintenant le � Empathie langage naturel �, est l'ajout de l'�motion dans la compr�hension du langage naturel, la reconnaissance d'intention, ainsi que sa r�ponse.

Que cela n'a rien � voir avec les affaires? � l'heure actuelle sur le march� avec l'intelligence artificielle peut voir ce qu'il faut faire avec elle?

Tout d'abord parler de l'agent virtuel: assistant virtuel, son march�.

Nous pouvons maintenant voyons qu'il ya beaucoup d'assistants virtuels ont besoin d'une sc�ne, comme robot de service � la client�le. D'ici les 15 prochaines ann�es, nous pouvons voir que le robot de service � domicile se d�place le centre de gravit� de ces march�s en Chine, en Asie, pas en Europe. Si le robot est d'aider les gens � faire l'homme de service, un grand besoin de logiciels pour comprendre les besoins des gens. Maintenant, le travail de service � la client�le, la machine peut �tre remplac�, mais ce que la machine a besoin de comprendre que les gens ont besoin. Pour voiture exemple lui-m�me est devenu un driverless assistant qui ont besoin de quelqu'un pour dire � nos besoins, l'autre est la maison intelligente, est maintenant la direction du d�veloppement de l'interaction homme-ordinateur.

Pourquoi la machine a besoin de l'intelligence �motionnelle? Parce que la machine a trois grands avantages:

Une fois la machine a l'intelligence �motionnelle peut �tre mieux que les gens qui travaillent identifient plus pr�cis�ment les �motions des gens, parce que maintenant l'ensemble de donn�es est la capacit� d'apprentissage de la machine, dans un champ plus puissant que l'homme.

La machine peut rapidement et adapter automatiquement � l'humeur actuelle de l'utilisateur, les �motions peuvent comprendre avec pr�cision le serviteur de la situation actuelle.

L'adh�sif de l'utilisateur augmente. Augmenter l'adh�sion des utilisateurs ne pas seulement besoin d'une pr�cision, la pr�cision a �t� en mesure de faire est maintenant tr�s �lev�, mais apr�s que la reconnaissance vocale, la machine, nous devons comprendre nos intentions, de comprendre ce que nous disons.

Comment l'interaction qui fait de l'ordinateur plus d'empathie il? En fait, faire de la recherche quand ils ont trouv� des points sont importants:

La plupart des gens n'utilisent pas souvent Siri similaires comme assistant mobile inconsistant parce qu'il n'y a pas d'images concr�tes vont faire croire aux gens qu'il dit il n'y a pas d'association substantielle, donc un syst�me a besoin d'avoir une image sp�cifique. Dans le dialogue que nous voulons qu'ils aient une image sp�cifique, parle dr�le, capable de comprendre mon expression, mon ton, je comprends l'intention, mais toutes ces machines n�cessitent une r�ponse en temps r�el.

Maintenant, la recherche peut se faire en temps r�el, et il est maintenant dans une direction: �tre la compr�hension empathique.

Un autre point est que, dans de nombreuses �tudes ont �t� trouv�s: l'image des gens comme des robots humains. Nous avons donc con�u un robot de laboratoire --Zara figuratif. Zara avec les principes et les fonctions sont similaires siri, sauf que nous sommes syst�me de dialogue orient�e t�ches.

Syst�me de dialogue de deux fa�ons: Chatbot et syst�me de dialogue orient�e t�ches. Chatbot telles que chiendent, l'objectif est de dialogue circuler. Dialog orient�e t�che fait r�f�rence � la n�cessit� d'achever une t�che, par exemple pour vous aider � faire l'investissement, pour vous aider � r�server des billets ou des restaurants.

Dialog orient�e t�che qui est divis�e traitement front-end, la reconnaissance vocale, les services de dialogue (traitement du langage naturel, la gestion du dialogue, la g�n�ration de langage naturel) et, enfin, la synth�se de la parole, c'est une pratique traditionnelle. Maintenant propos� est un module au milieu de l'empathie, que ce module identifiera les �motions de la personne, de la personnalit�, ou m�me de reconna�tre les probl�mes psychologiques de l'homme.

Ici pour parler de la fa�on de faire la reconnaissance vocale et l'�motion langue.

La premi�re partie est � ramper directement sur l'�motion des messages audio et vocaux.

Tout d'abord vous dire que l'analyse de la musique. La raison de faire de la musique, parce que la musique elle-m�me est l'expression des sentiments. L'axe horizontal sur la figure est en dessous d'une valence, ce qui indique le degr� de gens heureux, l'axe vertical repr�sente le degr� de gens excit�s excitation. La musique et l'�motion humaine est le m�me plan. Donc, nous faisons lorsque l'analyse de la musique, voir la m�thode ne peut pas �tre utilis� sur l'apprentissage machine, style direct pour s�parer le domaine de la musique.

M�thode il y a quelques ann�es que nous faisons est une extraction de caract�ristiques directe, l'extraction de caract�ristique de 1000-2000, chaque morceau de musique est repr�sent�e par des traits. avantage caract�ristique est: la visualisation.

Par exemple, on peut voir trois chanteurs, toutes leurs chansons en deux dimensions, nous pouvons voir visuellement le genre de chanteur chanteur rouge et bleu plus proche. Sur la droite est aussi une m�thode pour constater que la relation entre l'influence mutuelle des musiciens de Bollywood. Ceci est une chose tr�s importante dans la musique est recommand�e.

Ce qui il y a un probl�me est, l'extraction fonctionnalit� est tr�s lente. Si vous voulez reconna�tre l'�motion humaine, alors, nous avons besoin en temps r�el, et l'extraction de caract�ristiques ne peuvent �tre atteints en temps r�el. Plus tard, il y a eu un apprentissage en profondeur.

l'apprentissage en profondeur les avantages de la machine est automatiquement extrait. Nous mettons alors que la musique faite apr�s un �chantillon, sans aucun traitement directement en eux, vous ne pouvez pas voir moi-m�me extraire des caract�ristiques.

Plus tard, nous avons constat� que cette m�thode est r�alisable. Plus important encore, la machine est tr�s rapide, est un ancien 6 fois plus vite, afin que nous puissions r�aliser en temps r�el vers le haut. Cette m�thode de d�couverte en reconnaissance de l'�motion audio DNN peut se faire en temps r�el.

Nous pouvons regarder son effet, qui est en 2016, et son effet est presque traditionnel SVM et SVM est la n�cessit� d'extraire les caract�ristiques 1000-2000. La figure est le genre musical identifi�.

La figure est la reconnaissance de l'�motion musicale. Nous sommes les premiers � identifier toujours avec la formation de milliers de musique expert CNN, nous avons constat� que la vitesse et les r�sultats sont bons. Maintenant ne jouez pas l'�tiquette, sera en mesure d'identifier directement la musique de genre et de l'humeur.

Une autre est quand les gens parlent d'�motions, alors c'est de savoir comment l'identifier?

Nous venons de dire peut identifier la musique par l'algorithme CNN pour appliquer directement � la reconnaissance des �motions de la personne. CNN extrait puis trouv� mieux que les caract�ristiques d'origine, de meilleure qualit� et des r�sultats plus rapides. Le principal est d'identifier les principales �motions humaines, heureux, triste, en col�re, calme ces grandes �motions, et il y a une douzaine de secondes d'�motion, y compris l'humour, regardez vers le bas sur les gens et ainsi de suite.

Ces comparaisons difficiles, mais avec l'avantage de CNN est plus de donn�es seront plus tard �tre plus pr�cis. A ce stade, la machine est plus humaine, parce que les gens le font, l'empathie de chacun est pas le m�me, la norme sera diff�rent.

En reconnaissance d'une douzaine de secondes d'�motion que le processus de d�couverte originale utilisera SVM pour faire mieux, mais une certaine �motion, un peu identifiable est facilement pas facile, la moyenne tout est de 60%, donc � cet �gard, il y a beaucoup de travail � faire: la n�cessit� de gros volumes de donn�es, les besoins de l'algorithme � optimiser.

Ensuite, la structure de CNN. La premi�re couche CNN est en train de faire le traitement du signal, sera plus abstraite dans la partie sup�rieure.

Chaque niveau des oreilles de CNN avec notre syst�me auditif sont li�s.

Nous regardons le point plus profond est le suivant: Le traitement du signal audio ne se fait pas ce qui a besoin de voir. Il y a une question: la reconnaissance des �motions est pas un syst�me de reconnaissance des �motions dans la formation en anglais � �tre reconnu par des sentiments chinois. Ensuite, nous devons savoir est que l'ensemble de CNN, il est tous les niveaux � la fin ce processus.

Ce niveau, l'�motion et la personnalit�. De faible � haute fr�quence, lorsque la premi�re couche se trouve dans le d�but de l'�nergie d'extraction, le pitch, la fr�quence et d'autres informations.

Plus tard, nous avons une activation diff�rente, o� il peut distinguer les voix qui sonnent plus passionn�.

Nous utilisons une m�thode appel�e: t-SNE, il est pr�vu sur chaque point de vue du niveau, les diff�rentes langues dans diff�rentes couleurs pour repr�senter.

Nous pouvons voir l'int�rieur de la premi�re couche apr�s le traitement du signal pour chaque langue, ou ensemble mixte, CNN plus haut, plus isol� chaque langue, pour finalement sensiblement compl�tement s�par�s. Maintenant, l'apprentissage en profondeur, le plus bas d�pend de la langue, plus le plus il y a des informations de langue, un peu comme avec nos caract�ristiques humaines.

Ceci est notre base de donn�es.

Ce r�sultat vous dire: l'identification �motionnelle, si la premi�re couche avec de nombreuses langues pour le former, de cette fa�on est bonne, la langue sup�rieure � s�parer.

Ensuite, nous avons fait une exp�rience. robot Un tel reconna�tre le caract�re d'une personne.

Personne � la communication quand consciemment ou inconsciemment pour r�pondre au caract�re des autres, ce qui est dans la forme de communication humaine en coop�ration. La reconnaissance de caract�res peut �galement utiliser CNN, de l'expression du visage de la machine, la reconnaissance vocale directement. Par exemple l'identification sortant n'est pas, n'est pas un facile � vivre, et ainsi de suite.

Peut aussi �tre utilis� dans plusieurs langues mis en place cette m�thode de formation.

Les gens viennent, par exemple, lorsque le pays est en mesure d'identifier le caract�re de la vie par le langage, dans un pays �tranger apr�s une p�riode d'adaptation, car il y a la fondation dans le pays si t�t pour identifier le caract�re par le langage.

Il y a la capacit� de reconnaissance des �motions de base, se lever sans restrictions linguistiques.

Nous venons de dire que les aspects �motionnels de reconnaissance audio et de la parole. Derri�re parler de la reconnaissance des �motions avec le langage naturel et le texte correspondant.

�motions Textes, tels que les commentaires du public, de sa description de l'�valuation qui l'a jug� au magasin pour jouer quelques �toiles, que l'on appelle le texte dans la reconnaissance des �motions.

Lorsque les utilisateurs communiquent avec le robot, le visage du robot ne doit pas dire comment r�agir.

Plus de sujets dans la compr�hension du langage naturel: la n�cessit� d'int�grer l'�motion et les sentiments.

Ceci est de l'humeur d'une personne sur Twitter, nous utilisons essentiellement l'int�gration CNN et Word.

avantage l'int�gration mot est que les donn�es peuvent �tre utilis�es directement, tr�s bon usage dans leurs propres donn�es ne sont pas assez de temps.

Ceci est un sujet que nous faisons: comment extraire le titre dans un rapport de nouvelles dans.

Nouvelles titre dans un emploi summarization relativement simple, mais plus tard a d�couvert gros titres des journaux en ligne et le titre est pas la m�me chose, la machine est faite de vrai titre sommaire contenu, et maintenant beaucoup besoin est d'avoir succ�s dans le titre, et ce titre est avec �motion.

Comment devons-nous permettre � la machine de g�n�rer automatiquement les hits titre il? Structure d'extraction au-dessus du titre original et l'int�gration �motionnelle, donc hors du titre peut �tre plus attrayant.

Ceci est la premi�re fois que nous avons trouv� dans la langue naturelle traitement n�cessaire pour passer la reconnaissance des �motions, nous pouvons sortie titre plus acceptable.

Nous voyons la tendance du march� sur les nouvelles financi�res de certains des pr�c�dents experts europ�ens ont les recherches effectu�es, selon les nouvelles financi�res � l'�tude, peut pr�dire la tendance � 12 jours plus tard. En fait, c'est la grande exploration de donn�es et nous sommes �motionnel.

Comment traiter avec les gens et les robots, l'�tude a r�v�l� que 20% � 25% des gens vont dire quelque chose ne devrait pas dire, qui est un langage abusif, le robot comment g�rer. Il peut �galement �tre utilis� CNN pour apprendre, nous pouvons utiliser une �tape: cette remarque est abusive ou raciste ou sexiste, etc., ou en deux �tapes: d'abord savoir si je devrais dire cela, sachez alors ce mot appartient � quelle cat�gorie .

Nous pouvons valeurs Chatbot Riga, a deux emplois: comment faire plus Chatbot se rappeler le contenu de la session pr�c�dente, comment r�pondre. La formation quand il a mis l'�motion ajout�e � l'int�rieur.

Ceci est une analyse de caract�re. Lorsque nous et la communication homme-machine, si nous savons le caract�re de la machine, il peut �tre utilis� de la fa�on dont nous aimons nous parler. Alors, comment pouvons-nous reconna�tre qu'il a la personnalit�? Proc�d� de reconnaissance de caract�res CNN est utilis�.

Nous ne pouvons pas utiliser le m�me syst�me pour reconna�tre? Les gens qui parlent des langues diff�rentes de leur caract�re, semblent ne intuitivement pas la m�me chose, mais apr�s le test, nous proposons une m�thode: int�gration de texte bilingue, peu importe la langue, �tre en mesure d'identifier le m�me sens, nous pouvons avoir un syst�me pour trouver diff�rents types de langage pour analyser le caract�re.

Ensuite, c'est le psychologique li�, dire aux gens de probl�mes psychologiques. De certains email texte, Facebook, etc., ainsi que par le processus de discussion pour identifier ces probl�mes. R�sultat: le besoin de comprendre le sens de la langue, et ce statut audio. Ces deux points est plus important que vous comprenez ce qu'il faut dire.

C'est The Big Bang Theory, The Big Bang Theory il y a un homme du nom de Sheldon, notre laboratoire �tudiant fait un Chatbot appel� Sheldonbot, parce que parfois pas identifier l'argument massue, que l'on appelle Sheldonbot. Son th�me de recherche est: comment faire la machine un sens de l'humour. Sens de l'humour a deux �tapes: La premi�re �tape consiste � rire au point o� je rirais, cet appel ne peut pas reconna�tre un sens de l'humour, la deuxi�me �tape ne peut �tre manufactur�e sens de l'humour.

Comment il est venu pour y parvenir? De plus en deux �tapes: La premi�re �tape consiste � identifier, laisser les machines � comprendre l'humour, la formation source de donn�es est la com�die t�l�vis�e am�ricaine, parce que la beaut� de la com�die de jeu appara�tra � l'humour, le rire, rire si avant cette phrase il a un sens de l'humour dans le dialogue;

La deuxi�me �tape, la g�n�ration d'humour, est de laisser la machine peut jeter l'humour. Nous venons de dire Chatbot avec similaire, mais il y a un peu diff�rent est que son but est de faire rire les gens. En plus d'utiliser le mod�le d'apprentissage sequence2sequence, l'apprentissage de renforcement �galement ajout�, est dans le processus de formation pour am�liorer l'apprentissage � la place se moquait � l'int�rieur. Dans ce domaine concerne, ce n'est que le travail de d�part.

termes sommaires, le processus de dialogue robot besoin d'ajouter une analyse de l'empathie, que ce soit le service � la client�le ou Chatbot. Un autre point est que nous faire une analyse empathie, ils peuvent �galement �tre associ�s � la reconnaissance de l'expression du visage, ainsi que d'autres �tudes ajoutera le langage du corps, ceci est une expression de l'�motion.

Une autre est notre approche, notre groupe ne l'apprentissage machine il y a deux ans, avec tous les DNN, d'abord � cause de la vitesse, la seconde est plus facile parce que l'unit� avec DNN, �motions, expressions, etc. capable d'exprimer la reconnaissance des �motions de l'apprentissage ensemble pour former un syst�me capable d'identifier toutes les �motions exprim�es � cet �gard DNN est une bonne plate-forme.

Aujourd'hui, je partage ici, je vous remercie.

(R�pondre mot-cl� dans l'arri�re-plan " 170818 � Professeur Feng Yan peut obtenir la version compl�te du site � part PDF.)

- FIN -

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

qubit QbitAI

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

Hong Kong University of Science et technologie Professeur Feng Yan: comment obtenir le robot de comprendre le Big Bang Terrier