Hong Kong University of Science et technologie Professeur Feng Yan: comment obtenir le robot de comprendre le Big Bang Terrier

Président: Feng Yan | Université de Hong Kong de la science et de la technologie

éditeur de finition Xin Qu

Qubit produit | Numéro public QbitAI

Cet article Professeur Feng Yan finition dans Pékin enregistrement à partager atelier novateur 18 Août partager le thème « Comment construire des machines empathiques ».

Feng Yan est maintenant compris inclure professeur voix de génie électrique et informatique à l'Université de Hong Kong de la science et de la technologie, les principaux domaines de recherche, la traduction automatique, traitement multilingue et la recherche d'information musicale.

Professeur Feng Yan 1988 baccalauréat en génie électrique de l'Institut polytechnique de Worcester au Royaume-Uni, 1993 et 1997 pour obtenir une maîtrise et un doctorat en science informatique de l'Université de Columbia, respectivement.

D'ici à 2015, en raison de la contribution exceptionnelle dans le domaine de l'interaction homme-ordinateur et a accordé Honorary Fellow de l'IEEE, un ancien Transactions IEEE sur Audio, parole et du langage traitement, Lettre IEEE Signal Processing, ACM Transactions sur la parole et le traitement des langues et des transactions sur l'Association pour rédacteur en chef adjoint de la Revue internationale de la linguistique informatique, etc., mais aussi le président et les membres de la Commission SIGDAT ACL.

 Professeur Feng Yan

Bonjour tout le monde l'après-midi, très reconnaissant à Lee Kai-fu invitation Dr. Aujourd'hui, je partage avec le thème: Comment construire des machines Empathique, comment faire des robots plus empathique.

Pourquoi parler de ce sujet il? Parce que maintenant l'intelligence artificielle, nous allons voir beaucoup d'opportunités, mais en plus des possibilités, nous avons aussi besoin de voir l'avenir, par exemple 10 ans, 5 ans ou 20 ans après l'IA se développera quoi.

Alors maintenant, il y a plusieurs gros problèmes, nous devons réfléchir à leur propre:

  • L'intelligence artificielle est pas seulement des uvres simples de chose. D'autres machines avec intelligence artificielle ne sont pas les mêmes, il est très important qu'il y ait une « personne », le soi-disant « intelligence artificielle » à l'intérieur « homme. »

  • Si vous une technologie au service de l'humanité, cette technologie ne soit pas nécessaire d'avoir « empathie » qu'il ne soit pas nécessaire d'avoir l'intelligence émotionnelle non seulement QI.

  • Cette machine, il n'y a pas de valeurs correctes. Il y a deux ans, Microsoft en ligne un Chatbot, peu de temps après que la ligne est en baisse, parce parlé des mots inappropriés. Il est juste un Chatbot, si elle se fait lorsque le service à la clientèle, le système devra très clair que dire ne devrait pas dire quoi que ce soit.

  • machines et services cibles sont les gens, et les gens sont une variété de différentes personnalités et différentes émotions alors cette machine ne peut pas nous aider, nous avons détecté des problèmes psychologiques.

  • Il y a deux autres questions que nous discuterons plus tard: AI ne peut pas avoir un sens de l'humour et son sens esthétique.

    Tout d'abord, je veux que vous ressentiez l'émotion est très important, non seulement amusant. méthode de traitement du signal, changer le son des couleurs émotionnelles, ce qui signifie comme son audible sera différent.

    Ici pour parler de ce qu'on appelle « l'empathie », l'anglais appelé « empathie »: L'action de compréhension, étant au courant, être sensible, et éprouver les sentiments, les pensées et l'expérience d'un autre moyen de dire que je peux rapporter à l'autre. les gens pensent et ressentent.

    Donc, cette communication empathique est d'avoir de l'empathie communication cardiaque, ce qui est très important chez l'homme et une partie de la communication humaine. Le sens commun ne peut pas être beaucoup, mais lorsque vous communiquez avec l'ordinateur, il n'y a pas « empathie », aura des obstacles à la communication.

    Nous parlons de la compréhension du langage naturel, il y a beaucoup dans le domaine de l'IA, nous présentons maintenant le « Empathie langage naturel », est l'ajout de l'émotion dans la compréhension du langage naturel, la reconnaissance d'intention, ainsi que sa réponse.

    Que cela n'a rien à voir avec les affaires? À l'heure actuelle sur le marché avec l'intelligence artificielle peut voir ce qu'il faut faire avec elle?

    Tout d'abord parler de l'agent virtuel: assistant virtuel, son marché.

    Nous pouvons maintenant voyons qu'il ya beaucoup d'assistants virtuels ont besoin d'une scène, comme robot de service à la clientèle. D'ici les 15 prochaines années, nous pouvons voir que le robot de service à domicile se déplace le centre de gravité de ces marchés en Chine, en Asie, pas en Europe. Si le robot est d'aider les gens à faire l'homme de service, un grand besoin de logiciels pour comprendre les besoins des gens. Maintenant, le travail de service à la clientèle, la machine peut être remplacé, mais ce que la machine a besoin de comprendre que les gens ont besoin. Pour voiture exemple lui-même est devenu un driverless assistant qui ont besoin de quelqu'un pour dire à nos besoins, l'autre est la maison intelligente, est maintenant la direction du développement de l'interaction homme-ordinateur.

    Pourquoi la machine a besoin de l'intelligence émotionnelle? Parce que la machine a trois grands avantages:

  • Une fois la machine a l'intelligence émotionnelle peut être mieux que les gens qui travaillent identifient plus précisément les émotions des gens, parce que maintenant l'ensemble de données est la capacité d'apprentissage de la machine, dans un champ plus puissant que l'homme.

  • La machine peut rapidement et adapter automatiquement à l'humeur actuelle de l'utilisateur, les émotions peuvent comprendre avec précision le serviteur de la situation actuelle.

  • L'adhésif de l'utilisateur augmente. Augmenter l'adhésion des utilisateurs ne pas seulement besoin d'une précision, la précision a été en mesure de faire est maintenant très élevé, mais après que la reconnaissance vocale, la machine, nous devons comprendre nos intentions, de comprendre ce que nous disons.

  • Comment l'interaction qui fait de l'ordinateur plus d'empathie il? En fait, faire de la recherche quand ils ont trouvé des points sont importants:

    La plupart des gens n'utilisent pas souvent Siri similaires comme assistant mobile inconsistant parce qu'il n'y a pas d'images concrètes vont faire croire aux gens qu'il dit il n'y a pas d'association substantielle, donc un système a besoin d'avoir une image spécifique. Dans le dialogue que nous voulons qu'ils aient une image spécifique, parle drôle, capable de comprendre mon expression, mon ton, je comprends l'intention, mais toutes ces machines nécessitent une réponse en temps réel.

    Maintenant, la recherche peut se faire en temps réel, et il est maintenant dans une direction: être la compréhension empathique.

    Un autre point est que, dans de nombreuses études ont été trouvés: l'image des gens comme des robots humains. Nous avons donc conçu un robot de laboratoire --Zara figuratif. Zara avec les principes et les fonctions sont similaires siri, sauf que nous sommes système de dialogue orientée tâches.

    Système de dialogue de deux façons: Chatbot et système de dialogue orientée tâches. Chatbot telles que chiendent, l'objectif est de dialogue circuler. Dialog orientée tâche fait référence à la nécessité d'achever une tâche, par exemple pour vous aider à faire l'investissement, pour vous aider à réserver des billets ou des restaurants.

    Dialog orientée tâche qui est divisée traitement front-end, la reconnaissance vocale, les services de dialogue (traitement du langage naturel, la gestion du dialogue, la génération de langage naturel) et, enfin, la synthèse de la parole, c'est une pratique traditionnelle. Maintenant proposé est un module au milieu de l'empathie, que ce module identifiera les émotions de la personne, de la personnalité, ou même de reconnaître les problèmes psychologiques de l'homme.

    Ici pour parler de la façon de faire la reconnaissance vocale et l'émotion langue.

    La première partie est à ramper directement sur l'émotion des messages audio et vocaux.

    Tout d'abord vous dire que l'analyse de la musique. La raison de faire de la musique, parce que la musique elle-même est l'expression des sentiments. L'axe horizontal sur la figure est en dessous d'une valence, ce qui indique le degré de gens heureux, l'axe vertical représente le degré de gens excités excitation. La musique et l'émotion humaine est le même plan. Donc, nous faisons lorsque l'analyse de la musique, voir la méthode ne peut pas être utilisé sur l'apprentissage machine, style direct pour séparer le domaine de la musique.

    Méthode il y a quelques années que nous faisons est une extraction de caractéristiques directe, l'extraction de caractéristique de 1000-2000, chaque morceau de musique est représentée par des traits. avantage caractéristique est: la visualisation.

    Par exemple, on peut voir trois chanteurs, toutes leurs chansons en deux dimensions, nous pouvons voir visuellement le genre de chanteur chanteur rouge et bleu plus proche. Sur la droite est aussi une méthode pour constater que la relation entre l'influence mutuelle des musiciens de Bollywood. Ceci est une chose très importante dans la musique est recommandée.

    Ce qui il y a un problème est, l'extraction fonctionnalité est très lente. Si vous voulez reconnaître l'émotion humaine, alors, nous avons besoin en temps réel, et l'extraction de caractéristiques ne peuvent être atteints en temps réel. Plus tard, il y a eu un apprentissage en profondeur.

    l'apprentissage en profondeur les avantages de la machine est automatiquement extrait. Nous mettons alors que la musique faite après un échantillon, sans aucun traitement directement en eux, vous ne pouvez pas voir moi-même extraire des caractéristiques.

    Plus tard, nous avons constaté que cette méthode est réalisable. Plus important encore, la machine est très rapide, est un ancien 6 fois plus vite, afin que nous puissions réaliser en temps réel vers le haut. Cette méthode de découverte en reconnaissance de l'émotion audio DNN peut se faire en temps réel.

    Nous pouvons regarder son effet, qui est en 2016, et son effet est presque traditionnel SVM et SVM est la nécessité d'extraire les caractéristiques 1000-2000. La figure est le genre musical identifié.

    La figure est la reconnaissance de l'émotion musicale. Nous sommes les premiers à identifier toujours avec la formation de milliers de musique expert CNN, nous avons constaté que la vitesse et les résultats sont bons. Maintenant ne jouez pas l'étiquette, sera en mesure d'identifier directement la musique de genre et de l'humeur.

    Une autre est quand les gens parlent d'émotions, alors c'est de savoir comment l'identifier?

    Nous venons de dire peut identifier la musique par l'algorithme CNN pour appliquer directement à la reconnaissance des émotions de la personne. CNN extrait puis trouvé mieux que les caractéristiques d'origine, de meilleure qualité et des résultats plus rapides. Le principal est d'identifier les principales émotions humaines, heureux, triste, en colère, calme ces grandes émotions, et il y a une douzaine de secondes d'émotion, y compris l'humour, regardez vers le bas sur les gens et ainsi de suite.

    Ces comparaisons difficiles, mais avec l'avantage de CNN est plus de données seront plus tard être plus précis. A ce stade, la machine est plus humaine, parce que les gens le font, l'empathie de chacun est pas le même, la norme sera différent.

    En reconnaissance d'une douzaine de secondes d'émotion que le processus de découverte originale utilisera SVM pour faire mieux, mais une certaine émotion, un peu identifiable est facilement pas facile, la moyenne tout est de 60%, donc à cet égard, il y a beaucoup de travail à faire: la nécessité de gros volumes de données, les besoins de l'algorithme à optimiser.

    Ensuite, la structure de CNN. La première couche CNN est en train de faire le traitement du signal, sera plus abstraite dans la partie supérieure.

    Chaque niveau des oreilles de CNN avec notre système auditif sont liés.

    Nous regardons le point plus profond est le suivant: Le traitement du signal audio ne se fait pas ce qui a besoin de voir. Il y a une question: la reconnaissance des émotions est pas un système de reconnaissance des émotions dans la formation en anglais à être reconnu par des sentiments chinois. Ensuite, nous devons savoir est que l'ensemble de CNN, il est tous les niveaux à la fin ce processus.

    Ce niveau, l'émotion et la personnalité. De faible à haute fréquence, lorsque la première couche se trouve dans le début de l'énergie d'extraction, le pitch, la fréquence et d'autres informations.

    Plus tard, nous avons une activation différente, où il peut distinguer les voix qui sonnent plus passionné.

    Nous utilisons une méthode appelée: t-SNE, il est prévu sur chaque point de vue du niveau, les différentes langues dans différentes couleurs pour représenter.

    Nous pouvons voir l'intérieur de la première couche après le traitement du signal pour chaque langue, ou ensemble mixte, CNN plus haut, plus isolé chaque langue, pour finalement sensiblement complètement séparés. Maintenant, l'apprentissage en profondeur, le plus bas dépend de la langue, plus le plus il y a des informations de langue, un peu comme avec nos caractéristiques humaines.

    Ceci est notre base de données.

    Ce résultat vous dire: l'identification émotionnelle, si la première couche avec de nombreuses langues pour le former, de cette façon est bonne, la langue supérieure à séparer.

    Ensuite, nous avons fait une expérience. robot Un tel reconnaître le caractère d'une personne.

    Personne à la communication quand consciemment ou inconsciemment pour répondre au caractère des autres, ce qui est dans la forme de communication humaine en coopération. La reconnaissance de caractères peut également utiliser CNN, de l'expression du visage de la machine, la reconnaissance vocale directement. Par exemple l'identification sortant n'est pas, n'est pas un facile à vivre, et ainsi de suite.

    Peut aussi être utilisé dans plusieurs langues mis en place cette méthode de formation.

    Les gens viennent, par exemple, lorsque le pays est en mesure d'identifier le caractère de la vie par le langage, dans un pays étranger après une période d'adaptation, car il y a la fondation dans le pays si tôt pour identifier le caractère par le langage.

    Il y a la capacité de reconnaissance des émotions de base, se lever sans restrictions linguistiques.

    Nous venons de dire que les aspects émotionnels de reconnaissance audio et de la parole. Derrière parler de la reconnaissance des émotions avec le langage naturel et le texte correspondant.

  • émotions Textes, tels que les commentaires du public, de sa description de l'évaluation qui l'a jugé au magasin pour jouer quelques étoiles, que l'on appelle le texte dans la reconnaissance des émotions.

  • Lorsque les utilisateurs communiquent avec le robot, le visage du robot ne doit pas dire comment réagir.

  • Plus de sujets dans la compréhension du langage naturel: la nécessité d'intégrer l'émotion et les sentiments.

  • Ceci est de l'humeur d'une personne sur Twitter, nous utilisons essentiellement l'intégration CNN et Word.

    avantage l'intégration mot est que les données peuvent être utilisées directement, très bon usage dans leurs propres données ne sont pas assez de temps.

    Ceci est un sujet que nous faisons: comment extraire le titre dans un rapport de nouvelles dans.

    Nouvelles titre dans un emploi summarization relativement simple, mais plus tard a découvert gros titres des journaux en ligne et le titre est pas la même chose, la machine est faite de vrai titre sommaire contenu, et maintenant beaucoup besoin est d'avoir succès dans le titre, et ce titre est avec émotion.

    Comment devons-nous permettre à la machine de générer automatiquement les hits titre il? Structure d'extraction au-dessus du titre original et l'intégration émotionnelle, donc hors du titre peut être plus attrayant.

    Ceci est la première fois que nous avons trouvé dans la langue naturelle traitement nécessaire pour passer la reconnaissance des émotions, nous pouvons sortie titre plus acceptable.

    Nous voyons la tendance du marché sur les nouvelles financières de certains des précédents experts européens ont les recherches effectuées, selon les nouvelles financières à l'étude, peut prédire la tendance à 12 jours plus tard. En fait, c'est la grande exploration de données et nous sommes émotionnel.

    Comment traiter avec les gens et les robots, l'étude a révélé que 20% à 25% des gens vont dire quelque chose ne devrait pas dire, qui est un langage abusif, le robot comment gérer. Il peut également être utilisé CNN pour apprendre, nous pouvons utiliser une étape: cette remarque est abusive ou raciste ou sexiste, etc., ou en deux étapes: d'abord savoir si je devrais dire cela, sachez alors ce mot appartient à quelle catégorie .

    Nous pouvons valeurs Chatbot Riga, a deux emplois: comment faire plus Chatbot se rappeler le contenu de la session précédente, comment répondre. La formation quand il a mis l'émotion ajoutée à l'intérieur.

    Ceci est une analyse de caractère. Lorsque nous et la communication homme-machine, si nous savons le caractère de la machine, il peut être utilisé de la façon dont nous aimons nous parler. Alors, comment pouvons-nous reconnaître qu'il a la personnalité? Procédé de reconnaissance de caractères CNN est utilisé.

    Nous ne pouvons pas utiliser le même système pour reconnaître? Les gens qui parlent des langues différentes de leur caractère, semblent ne intuitivement pas la même chose, mais après le test, nous proposons une méthode: intégration de texte bilingue, peu importe la langue, être en mesure d'identifier le même sens, nous pouvons avoir un système pour trouver différents types de langage pour analyser le caractère.

    Ensuite, c'est le psychologique lié, dire aux gens de problèmes psychologiques. De certains email texte, Facebook, etc., ainsi que par le processus de discussion pour identifier ces problèmes. Résultat: le besoin de comprendre le sens de la langue, et ce statut audio. Ces deux points est plus important que vous comprenez ce qu'il faut dire.

    C'est The Big Bang Theory, The Big Bang Theory il y a un homme du nom de Sheldon, notre laboratoire étudiant fait un Chatbot appelé Sheldonbot, parce que parfois pas identifier l'argument massue, que l'on appelle Sheldonbot. Son thème de recherche est: comment faire la machine un sens de l'humour. Sens de l'humour a deux étapes: La première étape consiste à rire au point où je rirais, cet appel ne peut pas reconnaître un sens de l'humour, la deuxième étape ne peut être manufacturée sens de l'humour.

    Comment il est venu pour y parvenir? De plus en deux étapes: La première étape consiste à identifier, laisser les machines à comprendre l'humour, la formation source de données est la comédie télévisée américaine, parce que la beauté de la comédie de jeu apparaîtra à l'humour, le rire, rire si avant cette phrase il a un sens de l'humour dans le dialogue;

    La deuxième étape, la génération d'humour, est de laisser la machine peut jeter l'humour. Nous venons de dire Chatbot avec similaire, mais il y a un peu différent est que son but est de faire rire les gens. En plus d'utiliser le modèle d'apprentissage sequence2sequence, l'apprentissage de renforcement également ajouté, est dans le processus de formation pour améliorer l'apprentissage à la place se moquait à l'intérieur. Dans ce domaine concerne, ce n'est que le travail de départ.

    termes sommaires, le processus de dialogue robot besoin d'ajouter une analyse de l'empathie, que ce soit le service à la clientèle ou Chatbot. Un autre point est que nous faire une analyse empathie, ils peuvent également être associés à la reconnaissance de l'expression du visage, ainsi que d'autres études ajoutera le langage du corps, ceci est une expression de l'émotion.

    Une autre est notre approche, notre groupe ne l'apprentissage machine il y a deux ans, avec tous les DNN, d'abord à cause de la vitesse, la seconde est plus facile parce que l'unité avec DNN, émotions, expressions, etc. capable d'exprimer la reconnaissance des émotions de l'apprentissage ensemble pour former un système capable d'identifier toutes les émotions exprimées à cet égard DNN est une bonne plate-forme.

    Aujourd'hui, je partage ici, je vous remercie.

    (Répondre mot-clé dans l'arrière-plan " 170818 « Professeur Feng Yan peut obtenir la version complète du site à part PDF.)

    - FIN -

    recrutement sincère

    Qubits recrutent éditeur / journaliste, basé à Zhongguancun de Beijing. Nous attendons de talent, des étudiants enthousiastes de nous rejoindre! Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

    qubit QbitAI

    ' « suivre les nouvelles technologies AI dynamiques et de produits

    Bonnes nouvelles: Geely ventes de voitures sur sept millions d'Avril, soit une augmentation de près de la moitié
    Précédent
    CJ2018: quoi porter pour voir l'exposition ne marchent pas sur le mien? Quatre-vingts pour cent des gens vivent donc choisir!
    Prochain
    Super deux tueurs ont échoué à suivre! Incorporation au sol: Hengda devant Dieu + Demba Ba proche de rejoindre le sol ultra-riche
    15 fois! Curry a atteint un record de Dieu, égal à la somme des neuf joueurs, il a joué 10 ans ah!
    Réparateur Internet tous les « Fudge » est la bonne façon de prendre l'essence jusqu'à la lie
    Un peu moins de six ans, la grande carrière record, le compte à rebours O'Neal, c'est sa première saison a joué ah
    Zhao Ming coup rasa la tête, encore un retour d'adolescent? Un Cuiming disques, une deuxième variante de l'artillerie Milieu
    De qualité aux sentiments de la voiture toute la classe B est un drapeau rouge H5
    Exclusif | véhicules sans pilote Dajiang pour la première fois l'exposition, et Tesla a engagé des cadres de quitter la
    Aux attentes! Forbes publié sous l'âge de 30 liste d'élite, UZI, Meiko et beaucoup d'autres campagne électrique colonne de
    Après Manu, les Spurs ont trois personnes peuvent jersey à la retraite, cette réalisation duo est plus élevé que le PIB!
    Li Xuepeng blessure a été soutenue, l'aile super occasion précieuse ouvrir la voie? Un autre slogan U23 criant très fort!
    MG « champion » à double aide le taux de croissance des passagers SAIC de la première ascension des prix des voitures grand public
    « Apprentissage machine réelle » notes d'étude: K- le plus proche voisin l'entrée et le combat (dix mille mots l'article)