AAAI 2017 | Université de Géorgie: extrêmes gradients pour améliorer l'identification biométrique et le comportement

AAAI 2017 Résumés des étudiants

Extreme gradients pour améliorer l'identification biométrique et le comportement

Extreme dégradé Stimuler et comportement Biométrie

Université de Géorgie

Université de Géorgie

Résumé Avec les attaques internes sont de plus en plus fréquents, à l'intérieur du système, au lieu de l'utilisation habituelle de la vulnérabilité externe dans l'entrée d'une identification d'utilisateur valide devient de plus en plus utile. L'un des principaux objectifs de cette étude était de déterminer la mise à niveau de gradient pour prédire ou apprendre comment passer HCI (interaction homme-machine, l'interaction humain-ordinateur) identification biométrique basée sur le comportement ou la classification d'un effet utilisateur spécifique. Le cas échéant, l'autre après l'utilisation comme système biométrique peut être utilisé entre l'humain centre de données protégées, le programme pour authentifier l'utilisateur, mais moins invasive. Pour cette étude, l'algorithme de gradient de limite est utilisé pour améliorer l'ensemble de données contient des informations sur la dynamique de frappe pour la formation et les tests. Choisir cet algorithme particulier parce que la plupart de l'étude ont utilisé l'approche grand public, comme KNN et SVM, en supposant que cette étude a porté sur l'applicabilité potentielle de la prise de décisions pertinentes ou l'arborescence du modèle d'intégration. Le modèle prédictif finale produit une précision de 0,941, valeur Kappa de 0,942, ce qui indique que l'utilisateur sous la forme d'un comportement cinétique basé sur le clavier du HCl peut être utilisé pour le système d'identification biométrique.

Un arbre, et la levée de gradient intégré

arbre de classification est largement utilisé les types de problèmes de cette nature, comme ils peuvent, comme beaucoup d'autres algorithmes qui prédisaient la valeur des données de caractéristiques d'apprentissage de valeur variable dépendante contenu ou variable indépendante. Dans cette méthode, l'utilisation des caractéristiques les plus pertinentes à l'objectif ultime de ou en rapport avec la classification de catégorie variable dépendante. Dans ce processus récursif (Quinlan1986), la construction de chaque arbre de données caractéristique pertinente « split » ou « branche », ou jusqu'à ce que la cible ne soit plus variable de corrélation valide atteint le bas de l'arbre. Ces chemins séparés le long de dérivation division binaire, et est souvent présenté comme une décision binaire, qui décrit la relation globale des autres caractéristiques de la variable dépendante dans l'ensemble de données.

Un inconvénient majeur est que lorsqu'une donnée d'arbre ayant un grand nombre de fonctionnalités, avec une forte probabilité de devenir instable. Pour remédier à cet effet secondaire potentiel d'un ensemble de processus de formation itérative (Dietterrich2000) peut être utilisé pour introduire.

L'itération utilise une méthode différente, et de comparer les résultats d'un grand nombre d'appels pour construire le modèle au cours d'une seule session construction modèle. Les forêts au hasard est un bon exemple apprentissage intégré dans lequel une pluralité d'arbres de décision créés au cours de la formation (à savoir les forêts), et en utilisant une moyenne de tous les arbres dans la production forestière dérivée la production, mais moins fréquemment utilisés et approche intégrée ne tient pas compte du gradient est améliorée.

ascenseur gradient (Friedman2002) en utilisant la « méthode des moindres carrés dans chaque itération raccord simplement la fonction paramétrée à la valeur résiduelle de l'ordre de courant » pour construire le modèle additif. Plus simplement, le modèle et la forêt aléatoire que la construction des arbres de décision multiple, mais le gradient d'améliorer l'utilisation de toute perte différentielle de la fonction, plutôt que d'utiliser la moyenne des résultats pour faire des prévisions.

2 cours de sciences de données

2.1 Collecte de données

données dynamiques de cette étude Keystroke (Killourhy et Maxion2009) ont enregistré cinquante et un dactylo tapant le même mot (.tie5Roanl) quatre cents. Les chercheurs ont construit un système d'acquisition de données, les différents événements clés enregistrées, par exemple la corrélation entre le temps et le nom de la clé et la clé est en place touche est enfoncée et les différents événements de touche. Si un participant a une erreur lors de la saisie des données, leur demandant de réintégrer à nouveau le mot, et continuer le reste des itérations. Les données sont ensuite analysées pour créer des mots qui contiennent 20.400 observations individuelles et trente quatre variables - ensembles de données de table de temps: trente-trois dans laquelle l'horodatage représente les frappes dactylographiées mot impliqué et la variable dépendante est une variable représentant , ce qui signifie rendre les tâches de dactylographie liées à l'identité humaine.

2.2 prétraitement, Modèle Description et résultats

L'analyse de l'ensemble de données pour déterminer si vous pouvez supprimer toutes les caractéristiques de l'ensemble de données. Retirer des deux données caractéristiques: un identifiant de session représente une seule fonction et le second nombre représente une observation individuelle pour garantir que seules les caractéristiques associées à la non identifiés varient. Cela permettra de réduire la dimensionnalité de l'ensemble de données à trente une caractéristique et une variable dépendante, ces éléments sont utilisés pour la formation et à la recherche de modèles de test.

La sélection d'un paquet classification et la formation régression R (le curseur à l'intérieur) de formation de modèle et de test, des ensembles de données aléatoire stratifié, en données comprenant un ensemble de formation de 70 et 30%% de l'ensemble de données d'essai.

Sélectionné pour cette étude pour améliorer le gradient extrême de l'algorithme (XGB) est une descente de gradient (Burges et al, 2005) et une combinaison de stimuler (Dietterich2000), et fournit un paramètre d'ajustement différents, modifier ces paramètres pour établir le modèle optimal. Le réglage des paramètres, y compris le nombre d'itérations, la profondeur maximale de l'arbre, le retrait, la perte minimale est réduite, et des exemples de taux de sous-échantillonnage et les poids minimum. Afin de rendre les comparaisons nécessaires et le modèle XGB est également utilisé C50 et KNN créer, de sorte que vous pouvez facilement voir les avantages de l'utilisation XGB. Avant le début de la formation, également mis en place deux paramètres de réglage supplémentaires algorithmes similaires.

Lors de l'utilisation XGB, le nombre d'itérations spécifié données seront analysées; 150 cycles à travers un certain nombre d'itérations de formation a été choisi comme étant le meilleur pour réduire tout le temps de formation inutile. La profondeur maximale du modèle d'arbre est limité à deux branches, afin d'empêcher tout sur-ajustement. Taux de retrait est fixé à 3, afin d'assurer que le modèle est assez fort, vous pouvez faire des prédictions quand il sera étendu aux nouvelles données, ainsi que la meilleure façon d'améliorer la performance du modèle. Pour le processus de formation, de réduire ou de minimiser les pertes ensemble Gamma à 0, et est fixé à 0,6 la valeur observée de chaque arbre (taux de sous-échantillon).

Enfin, des exemples du poids à un montant minimum d'un réglage par défaut reste inchangé. En utilisant les paramètres ci-dessus, les résultats générés par le modèle représenté dans le tableau 1.

Tableau 1 Comparaison modèle métrique

3 Conclusion

Ces résultats sont en faveur de l'utilisation des données cinétiques du clavier pour identifier les utilisateurs du système est d'obtenir les mêmes utilisateurs de données de formation. Ce processus peut également être étendu à utiliser de plus grandes quantités de formation de données non structurées, telles que les médias sociaux dans les affichages quotidiens nécessitent la saisie de texte ou de routine commune et les tâches quotidiennes du système.

Taper la grande majorité de l'entrée globale basée sur le système logiciel interactif de l'utilisateur, et un modèle de prévision similaires intégrés dans le développement de logiciels de haute sécurité scénario du cycle de vie est très facile. Un minimum, cela aidera à prévenir de telles attaques d'initiés, ne sont pas une informations d'identification utilisateur valides ne sont pas le propriétaire des tentatives d'entrer votre mot de passe et d'autres informations de connexion dans le système, mais est considéré comme valide. Aider à vérifier les circonstances d'authentification multi-facteurs plus importants Par ailleurs, ce modèle peut également être utilisé dans un futur utilisateur d'entrer un utilisateur simple combinaison nom / mot de passe et d'autres informations de texte (par exemple, la réponse à la question de défi) est.

Les deux scénarios sont prévus deux exemples, un pour chaque partie du système, montre comment l'utilisation d'un modèle de gradient et un ascenseur d'apprentissage de la machine au sein du système afin d'éviter l'attaque, est identifiée par l'utilisation d'un comportement dynamique de frappe sous la forme de données biométriques identité de l'utilisateur, il convient de noter que, à la suite de cette étude fait partie d'une plus grande conception proposée système de soutien à la décision d'authentification multi-facteurs.

Papier Lien de téléchargement:

https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14934/14225

Les nouvelles subventions à l'énergie n'a pas acheté ces voitures ne vous inquiétez pas tant de concessions ou
Précédent
Pékin demi-marathon avril 14 tirs pour la première fois bénéficieront d'un accès direct à la qualification des chevaux de partition à partir du Nord
Prochain
Dans son apprentissage de temps libre comment analyser les données?
L'extraordinaire! Il y a quelques jours, la grande communauté des données a eu lieu une affaire ......
« Prix du chou » BBA alors ne pas acheter maintenant, quand! voiture de luxe de la marque enquête de marché
Aujourd'hui, le son de base | AI accompagnent les enfants de plus de 61, les enfants I-âge avec!
Kansas State University: Andrews effectuer la détection des logiciels malveillants avec des données standard de référence faible
Nous apprenons AI, saturation du talent futur nous censés?
interface USB a changé à nouveau? Enseignez-vous de distinguer entre l'interface USB grand public!
son coeur aujourd'hui | peur des robots se battre pour un emploi? Attirez venir l'industrie!
Comment éviter d'acheter des pommes de fil à faible qualité, vous apprendre un truc pratique
Si vous n'avez pas utilisé peut dire que vous ne faites pas un repas!
look « Petit-Trail » au 2019 QASHQAI 3 axe majeur de la mise à niveau Dans les coulisses
8 technologie de mil noir? Non, ces couleurs téléphone noir