Notre approche, et finalement à la raison sur la nécessité d'ajouter une référence dans la page web du projet:
Ajouter les motifs cités
Ne pas ajouter de la raison invoquée
L'enseignement des références d'apprentissage machine
Ensuite, nous formons des modèles d'apprentissage de la machine pour trouver les phrases doivent référence, et de fournir des raisons correspondantes.
Nous commençons un modèle de formation pour apprendre à reconnaître la nécessité de la peine de référence de l'ensemble de l'éditeur communautaire. Nous avons créé un ensemble de données « Articles en vedette » Wikipédia anglais, ce qui est une haute qualité 859, chacun a cité de nombreux articles. l'article de la phrase en vedette contient la référence en ligne est marquée comme des cas positifs, il n'y a pas de phrase de référence en ligne est marqué comme un exemple négatif. L'utilisation de ces données, nous avons basé sur la séquence de mots dans une phrase RNN la formation d'un modèle de classification qui peut prédire une phrase comme un exemple positif (références nécessaires) ou des cas négatifs (pas de référence). Le modèle final des exemples positifs de jusqu'à 90% de précision de la classification.
algorithmes d'interprétation pour prédire
Alors pourquoi la place de modèle à 90% le taux de précision, il? Pour décider de la nécessité de la phrase à la référence quand les algorithmes sont ce qui ressemble?
Pour expliquer ces résultats, il faut se référer à la phrase ont été échantillonnés, et le modèle prend en compte la plupart des mots ont été mis en évidence marquée. Par exemple, dans l'exemple déclaration « avis », le modèle sera le poids le plus élevé à la « revendiquée, a déclaré que » le mot. Dans les « statistiques, les statistiques citées » raisons de cela, le mot le plus important dans le modèle est les verbes les plus couramment utilisés analyse numérique. Dans le cas des raisons « scientifiques, scientifiques » cités, le modèle sera plus d'attention aux mots spécifiques au domaine, tels que « quantum, quantum. »
Les modèles pensent besoin de phrases de référence de l'échantillon, les mots clés mis en surbrillance marqué.
La raison phrase citée prévisions
De plus, nous voulons que le modèle de fournir une explication complète des raisons citées. Nous utilisons d'abord Amazon Mechanical Turk crowdsourcing a conçu une expérience pour recueillir les raisons citées, et comme sa marque. Notre sélection d'articles à partir d'un échantillon aléatoire de 4000 phrases, que l'utilisation du personnel crowdsourcing huit raisons que nous avons identifiés dans les études précédentes menées marque. Nous avons constaté que lorsqu'une phrase liée aux faits scientifiques ou historiques, ou le discours direct, indirect, nous devons fournir des références.
Nous avons modifié le réseau de neurones dans les études précédentes utilisées pour permettre des phrases passives classées en huit catégories citées une raison. Nous utilisons des ensembles de données crowdsourcing marquer ce réseau re-formation et trouvé pour obtenir une précision raisonnable pour prédire le temps des raisons citées (précision 0,62), en particulier pour les classes avec beaucoup de données de formation.
Prochaines étapes: la prévision et la langue à travers les thèmes de « références nécessaires. »
La phase suivante du projet consistera à réviser notre modèle pour leur permettre de suivre une formation pour une des langues disponibles sur Wikipédia. Nous allons utiliser ces modèles pour quantifier la proportion de contenu Wikipédia interlangage en différentes versions non vérifiées et cartographier les citations de couverture à différents sujets d'articles pour aider les éditeurs à identifier les endroits que vous devez ajouter très haute référence de qualité .
Nous prévoyons de fournir le code source du nouveau modèle le plus tôt possible. En même temps, vous pouvez consulter notre document de recherche « Citation nécessaire: Une taxonomie et algorithmiques évaluation de vérifiabilité de Wikipédia, » le document récemment reçu la Conférence Web 2019, son supplément analyse détaillée de la politique ainsi que notre modèle de référence pour la formation toutes les données.