Vous avez une encyclopédie Wikipedia, et le ML apprendre à utiliser leur propre identifie la source d'origine

Notre approche, et finalement à la raison sur la nécessité d'ajouter une référence dans la page web du projet:

Ajouter les motifs cités

Ne pas ajouter de la raison invoquée

L'enseignement des références d'apprentissage machine

Ensuite, nous formons des modèles d'apprentissage de la machine pour trouver les phrases doivent référence, et de fournir des raisons correspondantes.

Nous commençons un modèle de formation pour apprendre à reconnaître la nécessité de la peine de référence de l'ensemble de l'éditeur communautaire. Nous avons créé un ensemble de données « Articles en vedette » Wikipédia anglais, ce qui est une haute qualité 859, chacun a cité de nombreux articles. l'article de la phrase en vedette contient la référence en ligne est marquée comme des cas positifs, il n'y a pas de phrase de référence en ligne est marqué comme un exemple négatif. L'utilisation de ces données, nous avons basé sur la séquence de mots dans une phrase RNN la formation d'un modèle de classification qui peut prédire une phrase comme un exemple positif (références nécessaires) ou des cas négatifs (pas de référence). Le modèle final des exemples positifs de jusqu'à 90% de précision de la classification.

algorithmes d'interprétation pour prédire

Alors pourquoi la place de modèle à 90% le taux de précision, il? Pour décider de la nécessité de la phrase à la référence quand les algorithmes sont ce qui ressemble?

Pour expliquer ces résultats, il faut se référer à la phrase ont été échantillonnés, et le modèle prend en compte la plupart des mots ont été mis en évidence marquée. Par exemple, dans l'exemple déclaration « avis », le modèle sera le poids le plus élevé à la « revendiquée, a déclaré que » le mot. Dans les « statistiques, les statistiques citées » raisons de cela, le mot le plus important dans le modèle est les verbes les plus couramment utilisés analyse numérique. Dans le cas des raisons « scientifiques, scientifiques » cités, le modèle sera plus d'attention aux mots spécifiques au domaine, tels que « quantum, quantum. »

Les modèles pensent besoin de phrases de référence de l'échantillon, les mots clés mis en surbrillance marqué.

La raison phrase citée prévisions

De plus, nous voulons que le modèle de fournir une explication complète des raisons citées. Nous utilisons d'abord Amazon Mechanical Turk crowdsourcing a conçu une expérience pour recueillir les raisons citées, et comme sa marque. Notre sélection d'articles à partir d'un échantillon aléatoire de 4000 phrases, que l'utilisation du personnel crowdsourcing huit raisons que nous avons identifiés dans les études précédentes menées marque. Nous avons constaté que lorsqu'une phrase liée aux faits scientifiques ou historiques, ou le discours direct, indirect, nous devons fournir des références.

Nous avons modifié le réseau de neurones dans les études précédentes utilisées pour permettre des phrases passives classées en huit catégories citées une raison. Nous utilisons des ensembles de données crowdsourcing marquer ce réseau re-formation et trouvé pour obtenir une précision raisonnable pour prédire le temps des raisons citées (précision 0,62), en particulier pour les classes avec beaucoup de données de formation.

Prochaines étapes: la prévision et la langue à travers les thèmes de « références nécessaires. »

La phase suivante du projet consistera à réviser notre modèle pour leur permettre de suivre une formation pour une des langues disponibles sur Wikipédia. Nous allons utiliser ces modèles pour quantifier la proportion de contenu Wikipédia interlangage en différentes versions non vérifiées et cartographier les citations de couverture à différents sujets d'articles pour aider les éditeurs à identifier les endroits que vous devez ajouter très haute référence de qualité .

Nous prévoyons de fournir le code source du nouveau modèle le plus tôt possible. En même temps, vous pouvez consulter notre document de recherche « Citation nécessaire: Une taxonomie et algorithmiques évaluation de vérifiabilité de Wikipédia, » le document récemment reçu la Conférence Web 2019, son supplément analyse détaillée de la politique ainsi que notre modèle de référence pour la formation toutes les données.

Kuang-chi, en tant que co-publier plus des données de détection d'objet source du monde mis Objects365, tenue CVPR DIW2019 Défi
Précédent
Après avoir créé l'appréciation de la richesse Shu yuans, cinq Voyage sortant à ces endroits et plus rentable
Prochain
CVPR 2019 | PointConv: nuage de points pour obtenir un fonctionnement efficace de convolution
Sentence cercle d'énergie positive des amis, il y a un sens profond, digne de le transmettre à vos amis
[Original] AET capteur 3D, AI, 4,0 industrielle, IdO 2019 technologie chaude dans les perspectives de l'industrie des semi-conducteurs
NBA | Harden puissante « trois paires de » fusée « boom volant » Sir, aspirations « Drummond » flétri Bucks « infréquentable » Pistons
Les propriétaires de voitures activistes Mercedes-Benz rêvent de retrouver la paix
Classe | Ceci est un danger possible à tout moment, a conduit un incontournable!
Cinq questions sur le suivi de lincident Mercedes-Benz: les frais de services financiers des autres propriétaires de voitures peuvent-ils être remboursés?
Cette entreprise « false », pourrait être tellement le feu! Vous pouvez également avoir utilisé ......
Publicité! Les collèges et universités du Fujian sur la liste de la liste clé de ce projet de construction exemplaire
premiers longs métrages d'exposition de la Chine peut en contact étroit « Toucan » avec la belle ouverture
[Technologie] pour part boucle de verrouillage haute tension des véhicules électriques principes et système de conception
Dans le village de « Sunrise », les villageois appellent même « Karma Ling » de Baoshan rencontre Monet