premier système de génération d'humour sans supervision au monde est né, la prochaine grande bataille apprentissage en profondeur: parler pièce!

Ji-won nouvelle compilation

résumé

Humour Generation est une question très complexe. Difficile à dire exactement ce qui fait une blague devient drôle. Pour résoudre ce problème est généralement admis que la compréhension sémantique profonde, ainsi que des indices culturels et autres contextuels. Des travaux antérieurs dans ce domaine est d'essayer d'utiliser la base de données et des exemples de formation étiquetés artificiellement créés spécifiquement pour servir cette modélisation des connaissances. Nous ne le faisions pas, mais a proposé un modèle pour générer un tel je comme je les aime je aime mon X-Y que l'utilisation de grandes quantités de données non marquées, des blagues Z (je aime mon X comme je les aime mes Y, blagues Z ) un mode, dans lequel X, y et Z sont les variables à combler. Ceci est, à notre connaissance, le premier système de génération d'humour totalement sans supervision. Notre modèle de base était nettement mieux que la concurrence, et de générer une blague drôle dans 16% du temps, les humains sont 33% du temps pour générer une blague.

contour

blagues générées sont généralement considérés comme une question de langage naturel très difficile, car cela signifie une compréhension sémantique profonde du texte, et souvent accompagné par la compréhension culturelle. Nous avons généré un type particulier de blague --- Je aime je aime je aime mon X-Y de la même, Z (I comme mon X comme je les aime mon Y, Z) - où X et Y sont des noms, Z est généralement décrit les propriétés x et y. Un exemple de ce type de plaisanterie est « Je aime mes joueurs comme je aime mon thé, est chaud, et le style britannique) - ces blagues sont très populaires sur Internet.

Bien que générer simplement perspective (système syntaxique est fixe), ces blagues ne sont pas très drôle, mais sa sélection de contenu est encore très difficile. En effet, pour la plupart des blagues dans le X, Y, Z, ne sera pas considéré comme ridicule. Par conséquent, le principal défi de ce travail est de remplir le modèle blanc dans cette blague, et toute la phrase ridicule.

Humour généré un travail différent fait avant, nous ne comptons pas sur des données de formation annotés ou des règles de codage manuellement, mais repose sur de grandes quantités de données annotées. Nous proposons un modèle d'apprentissage de la machine pour exprimer ce que nous sommes sur le point de faire de telles plaisanteries deviennent hypothèse risible. Nous avons également prouvé que, en utilisant ce modèle très simple et beaucoup de données, nous avons 16% du temps, produite dans le juge humain qui semble blague ridicule.

La principale contribution de cet article est, à notre connaissance, c'est le premier système de génération de plaisanterie complète sans supervision. Juste des données non étiquetés, nous avons utilisé, ce qui indique la formation d'une blague n'est pas comme on le croit généralement, toujours besoin de comprendre la sémantique de profondeur.

Nous vous proposons un système de génération de plaisanterie complète sans supervision, pour générer ce type la blague suivante

J'aime mes relations interpersonnelles comme je les aime ma ressource, très ouvert.

Je aime myrelationships comme je les aime ma source

J'aime mon café comme je comme ma guerre froide.

Je aime mycoffee comme je les aime ma guerre, le froid

« Je aime mon X comme je l'aime, comme mon Y, Z » (je aime mon X comme je les aime mon Y, Z) est la nécessité de remplir le modèle. À notre connaissance, c'est la première qui ne nécessite pas d'étiquetage ou manuelle des données codant pour des blagues système de génération de règles. Nous croyons que nous sommes sur ce qui fait une blague drôle hypothèse devient exprimée sous la forme d'un modèle d'apprentissage de la machine, et prouvé par le grand nombre de données sur les paramètres sans étiquette évaluation, nous pouvons générer sensation humaine blagues. Bien que nos expériences montrent que plus d'origine humaine à rire de blagues plus de temps, nous croyons toujours notre système peut produire des blagues drôles de sensation humaine dans 16% du temps, ce qui en soi est encourageante.

Modèle mathématique de blagues

Dans le « Je aime mon X comme je l'aime, comme mon Y, Z » (je aime mon X comme je les aime mon Y, Z,) modèle, nous supposons que X et Y sont des noms, Z est un adjectif.

Sur cette blague, notre modèle coder les quatre hypothèses principales:

1. Tous les biens le plus souvent utilisé pour décrire deux termes, les blagues plus drôles;

2. attribut moins commun, la plaisanterie plus amusante;

3. attribuent l'expression plus vague, les blagues plus drôles;

4. Les plus dissemblables les deux termes, les blagues les plus intéressantes.

La figure 1 est une représentation graphique du modèle de facteur. Et les facteurs variables sont représentés par un cercle représenté par des variables de bloc définit les impliquées ils sont attachés fonction de potentiel.

1 est supposé le plus direct, est représenté par (X, Z) et le facteur (Y, Z). Cette hypothèse peut être exprimée mathématiquement comme:

Où f (x, z) est une fonction de x et z mesurer la probabilité jointe d'apparition.

A propos de l'hypothèse 2, s'il y a des propriétés sont très fréquentes, il peut être utilisé pour décrire presque tout (comme une nouvelle, libre et bien), puis les exporter phrase est susceptible d'être une mauvaise blague. attribut Z plus rare, la cause plus probable surprise, cela est une source d'humour de plaisanterie.

Nous avons exprimé cette hypothèse dans le facteur 1 (Z) dans laquelle:

Sur la base de cette observation 3 est supposée, à savoir une propriété, dans une description sémantique des termes X, Y est décrite en termes d'une autre sémantique.

Nous utilisons dans 2 (Z), a déclaré:

Hypothèse 4 exprimée entre les deux termes dissemblance conduira à plus d'humour comme une propriété des deux en même temps à décrire l'auditeur dépassera les attentes. Nous utilisons (X, Y) pour encourager la dissemblance entre les deux termes:

Et des données expérimentales sur

Pour estimer f (x, y) et f (z), on utilise les données Google n-gramme (Michel et al., 2010), en particulier des données Google 2 grammes. Nous utilisons Wordnet (Fellbaum, 1998) avec le mot le plus commun associé à la partie de l'étiquette vocale (POS) pour marquer chaque mot dans le 2-gramme. Google 2-gramme dans les données que nous avons marqué POS on extrait l'ensemble (nom, adjectif) paires et leurs chiffres d'utilisation estimée f (x, z) et f (y, z).

On notera en particulier, bien que nous utilisons dans le document WordNet Nos méthodes ne dépendent pas de lui. Nous utilisons pour faire des informations superficielles.

Nous avons évalué les deux étapes de notre modèle. Tout d'abord, l'évaluation automatisée de recueillir des blagues de Twitter, puis prendre les blagues d'origine humaine et des blagues avec la façon dont nous générons la comparaison.

Pour en savoir plus sur les modèles et les données expérimentales, s'il vous plaît cliquer sur le lien pour lire le journal.

« Les candidats »

journalistes à temps plein, compilé et activités opérationnelles

Bienvenue stagiaire

Traduction et bénévoles de la communauté d'intelligence artificielle

Pour plus d'informations, s'il vous plaît cliquer pour entrer le numéro public « candidats »

Ou par courriel jobs@aiera.com.cn

Ji-won nouveaux emplois Cliquez sur « texte lu »

Ali, chef d'état-major Zeng Ming: S2b2c innovateurs donnent l'occasion de couper sur le marché
Précédent
Accidentellement rafraîchir! C'est virée de l'infrastructure de la Chine cette magie « de la ......
Prochain
Drill sauvage scout, Ontario pour vous donner les trois plus extrême ouverte
« Lecture recommandée » Ne manquez pas la machine classique d'apprentissage Good Man Top 10
Lourd! Ministère de l'Industrie et de la dernière exposition au tableau d'application, laquelle plusieurs nouveaux véhicules d'énergie viennent trop rapide!
Lourd! Ma haine Zhu Xiaohu avéré être vrai, pas un morceau?
Japon considérablement réduit après que la dette des États-Unis, à court haut, sell-off ou le début, même pas de yuans multi-ville
Jingdezhen City Centre des services administratifs est sur le point de commencer à mal, le retard, les services de réservation, heures non ouvrables peut faire des affaires!
Aujourd'hui, j'ai quelque chose à dire et papa (il coupe au cur, pour voir Ocean Spring, Quan Ling comment dire)
Je vous en prie, donnez-moi une raison de ne pas en Nouvelle-Zélande!
Liu Bei, Zhuge Liang pour trouver, Guan Yu et Zhang Fei nouveauté partenariat d'affaires? La raison en est
Il y a 19 ans aujourd'hui, le retour de Macao! Prenez-vous revivre ces moments passionnants
Cela peut être la plus belle sur Raiders de terre: la Bolivie « Sky Mirror » aux Etats-Unis pour rendre les gens Xinchan!
De nombreux pays, l'adieu mondiale à la flambée du dollar a été fixé, et a ajouté plusieurs dimensions, le dollar seront pressés ou de règlement multi-national