CCS 2018 papier read: Utilisez une petite quantité de code texte exemple à se fissurer

Technologie AI Revue de presse , L'auteur était à l'Université Northwestern Yegui Xin, il écrit à Amnesty International Technology a examiné le CCS 2018 papier sur « L'utilisation d'un petit échantillon pour déchiffrer le code texte » interprétation exclusive, comme suit, reproduit sans autorisation interdite.

1. introduction

Je crois que nous allons rencontrer code de vérification « étrange » lorsque l'Internet tous les jours, et dans une grande variété de code de la famille, le code de texte est le plus largement utilisé l'un, est notre plus expérimenté un système de code d'authentification. Ces dernières années, grâce à la technologie avancée de l'apprentissage en profondeur, le code de texte de sécurité a été contestée. En recueillant un grand code de vérification du site cible, et un modèle de formation du réseau de profondeur, nous pouvons réaliser l'attaque sur le code de vérification du site cible. Afin de résister à des attaques basées sur le modèle d'apprentissage profond, d'une part, les principaux sites utilisent des personnages tels que tordus, adhérences confus, rotation, arrière-plan, les polices de contour et d'autres programmes de transformation complexes pour améliorer la sécurité du code de vérification de texte, d'autre part, certains tels que les codes de cryptage du code site distal utilisation de faux-fuyants clés pour prévenir la collecte de codes malveillants contre analytiquement, et rampants automatique, et de réduire davantage la probabilité de codes à être attaqué par le coût accru de crise. Cependant, ce qui précède deux méthodes peuvent vraiment améliorer le code de sécurité do?

Ensuite, je vais vous présenter un sur la construction d'un ACM CCS 2018 code de vérification du papier solveur basé sur un petit échantillon: « Encore un autre texte Captcha Solver: génératif accusatoire réseau basée sur l'approche », le document de l'Université du Nord-Ouest chinois Logement Ding Yi, professeur CHEN équipe Xiao-jiang, l'Université de Pékin et l'Université de Lancaster en Angleterre ont publié conjointement.

Documents Adresse:

https://dl.acm.org/citation.cfm?doid=3243734.3243754

Article décrit un code source:

https://github.com/yeguixin/captcha_solver

2. Idée d'origine

Nous sommes un groupe de recherche au sein de la discussion de la grippe aviaire a appris Génératif accusatoire Networks (GAN), quand nous avons appris GAN peut non seulement générer les données cibles, et sa technologie améliorée conditionnelle génératives accusatoires Networks (CGANS) peut aussi réaliser la tâche automatique d'annotation d'images (par exemple la conversion entre le style de l'image).

Figure 1: « RVB- > Peinture "transitions FIG"

Depuis GAN a une forte capacité à générer, alors il peut générer une masse similaire au code cible le site de style. Depuis CGANs peut réaliser une conversion entre le style d'image (figure 1), puis une image couleur peut être retirée, en d'autres termes, les codes d'image peuvent être éliminés dans une confusion complexe d'arrière-plan. Ces deux points sont envisagées pour réduire les échantillons de formation, de réduire le coût d'attaque a un rôle crucial. Plus précisément, si elle peut générer automatiquement un grand nombre de codes, directement permettre un libre attaquant des codes de collecte manuelle et l'étiquette des travaux lourds, afin de réduire ainsi les coûts d'attaque, si nous pouvons éliminer les codes CONTEXTE de vérification, il est possible de réduire les données de formation nombre, ce qui améliore le modèle de taux de reconnaissance.

Figure 2: Résultats de l'exemple prétraitement

Cependant, les choses ne sont pas aussi lisse que nous avions prévu. Bien qu'efficace pour éliminer les CGANs de fond du code de vérification (représenté sur la. Figure 2). Mais les GAN effet résultant, mais pas une bonne imagination. GAN sont générés par le bruit aléatoire ou les données de bruit gaussien et un grand nombre de données réelles lors de la formation requise comme référence et le code actuel ajouté à une transformation de caractère très complexe, le modèle de génération de code à la formation, est lié aux besoins plus véritable code de vérification comme référence.

Depuis l'utilisation du code généré du bruit aléatoire nécessite beaucoup de données réelles, alors nous avons commencé à envisager l'utilisation du générateur de code de vérification traditionnelle pour générer le code généré remplacé par le bruit aléatoire comme un GAN d'entrée, de sorte GAN le code de vérification généré pour faire peaufinage . Ensuite, en utilisant les codes d'authentification générés Evalue si le style réel similaire aux codes de style, à savoir, génère les mêmes données et la distribution réelle des données. Ainsi, nous avons une représentation paramétrique de codes, à savoir les caractères utilisés, l'angle de rotation du caractère, le degré de distorsion, comme avec l'arrière-plan, et d'autres paramètres de la police, et ensuite ajuster automatiquement l'utilisation de paramètres de réseau générés. Cette prise de conscience de la génération automatique des données, ce qui réduit la charge de travail de l'intervention humaine. L'utilisation des données générées, les codes d'identification peuvent former le modèle. Pour réduire encore la différence entre la génération de données et les données réelles, nous utilisons un modèle d'apprentissage transfert de technologie de mise au point pour améliorer la précision de la reconnaissance et la capacité de généralisation du modèle. En conséquence, notre idée entière ainsi produite.

Figure 3: Architecture du système

3. L'architecture du système et les modules Présentation

Le système est divisé en quatre modules principaux (figure 3), les modules fonctionnels suivants brefs et le rôle respectif.

(1)  Le module de codes . Avant de codes de synthèse, la première nécessité d'analyser manuellement les principaux éléments des codes de composition (appelées fonctions de sécurité du papier), comme indiqué par laquelle des caractères ou des chiffres, si le caractère a torsion et les caractéristiques de rotation, qui d'une composition de fond, etc., et les éléments mentionnés ci-dessus paramétrique, et attribuer une valeur initiale pour générer les codes d'entrée initiales à l'intérieur de GAN. Avec générateur de formation GAN génère constamment ajuster les paramètres, il ne peut pas être identifié jusqu'à ce que le discriminateur est généré ou un code réel. Afin d'assurer la cohérence du style, nous avons utilisé 500 le code réel pour participer au processus de formation. Après la formation soigneusement générateur, il peut générer un grand nombre de codes utilisés pour construire le solveur de code de vérification initiale. Par ailleurs, l'arrière-plan pour le code de vérification, un code de validation est nécessaire de générer de fond et de non-fond, respectivement, pour le prochain prétraitement. En particulier, aucun arrière-plan afin de générer le code de vérification, un paramètre qui veulent seulement mettre l'arrière-plan.

(2) Le module prétraiter . Ce module vise à code de vérification a une police d'arrière-plan ou un plan conçu, le but principal est de supprimer fond complexe de confusion, ou le type de police unifiée, afin de réduire le nombre de données de formation, réduisant ainsi la complexité du modèle, le modèle pour accélérer la vitesse de convergence . Nous avons utilisé le modèle Pix2Pix pour terminer cette étape. confusion CONTEXTE codes complexes Exemple (fig. 2) est entrée avec un code de formation d'arrière-plan, tandis que pas de codes d'entrée d'arrière-plan en tant que données de référence. Etant donné que le générateur utilise la perte L1, capable de gérer une partie à basse fréquence (image témoin) dans l'image, de sorte que la fonction cible est généré en ajustant les paramètres du modèle à utiliser pour avoir le code de vérification dans l'arrière-plan sans fond code de vérification.

(3) Construction de codes d'identification de modèle. Les codes d'identification utilisés pour générer des données pour construire le modèle, pour chaque type de code, nous utilisons la génération de données 200000, construit en utilisant les codes d'identification de modèle Lenet-5, avec un Lenet-5 légèrement différent, nous avons ajouté couche de convolution 2 et la couche de cellules de couche 3 pour améliorer sa capacité à identifier le modèle. Dans lequel chaque couche de la taille de la couche de convolution du noyau de convolution est égal à 3 * 3, en utilisant la couche max-mise en commun dans la piscine.

(4) modèles. Pour réduire davantage les différences entre les données et la génération réelle de données, étude de la migration, nous avons utilisé, avec une petite quantité d'échantillons réels, le (3) dans la mise au point du modèle. Depuis les couches arrières modèle CNN est des caractéristiques plus abstraites, et puisque le nombre d'échantillons de réelles limites, nous vous présentons dans le générateur abstrait avec les caractéristiques ci-dessus données de différence réelle, il nécessite une formation et en ajustant les paramètres des couches arrière du modèle, et maintenu en face de plusieurs couches des mêmes paramètres.

4. brièvement expérience

Les données expérimentales, en utilisant un total de 33 types de système de code d'authentification, impliquant plus de 50 sites, dont presque tous les grands sites du monde, dont 32 sites bien connus Alexa top 50 mondial avant. Pour chacun des codes, les codes réels ont été recueillies et marquées automatiquement ou manuellement 1500, 500, dans lequel la génération d'un modèle de formation et de réglage CNN, 1000 pour les essais. Les résultats expérimentaux montrent que notre méthode pour identifier non seulement nettement plus élevé que l'état des-arts (montre. La figure 5), et le temps est Complexité nettement plus petit (voir la figure 4). Pour certains système de code d'authentification, la reconnaissance de notre méthode est plus élevé que le taux de reconnaissance de l'humanité.

Figure 4: Résultats de la reconnaissance des codes actuels du site de la Fig.

5. Comment traiter

Afin d'atténuer ces attaques, le site proposé lors de l'utilisation de multiples ensembles de code de programme, le code de vérification de chaque caractère en utilisant différentes polices et styles, et nécessitent des mises à jour fréquentes (fréquence mise à jour meilleur jour) système de code de vérification pour augmenter l'attaque le coût de l'attaque difficile à réussir. Mais ce n'est que des mesures d'allégement temporaire, ne pas améliorer de façon radicale le code de sécurité sur les racines et système complexe de code d'authentification en raison de la facilité d'utilisation des pauvres et ne peut pas promouvoir l'utilisation du bien. Nous pensons également que l'attaquant senior (ou la production noire) seront plus efficaces et moins de temps à l'attaque. Nous travaillons actuellement sur un nouveau système de génération de code texte.

Figure 5: des-arts par l'État par rapport aux résultats de la figure.

6. Sécurité et réflexions sur le code de vérification en cours du site

Nous avons constaté que certains sites utilisent robot fond la technologie de détection automatique qui, selon la vitesse d'entrée lorsque le code de validation d'entrée, mais il devrait être caractéristiques comportementales de temps pour déterminer les opérations de fin d'avant est une personne ou d'un programme d'ordinateur automatiquement. Cependant, notre étude récente a révélé que la technologie de détection peut également être trompé. Si délibérément un certain temps entre les deux intervalles adjacents d'exploitation, vous pouvez facilement contourner ce mécanisme de détection. Nous utilisons le modèle de reconnaissance de code formé, des expériences sur le code de vérification dans deux sites majeurs utilisent encore du texte (qui utilise une technologie de détection automatique robotisée), dans la plupart des cas, l'attaque d'un succès.

Nous avons amélioré par l'attention de l'industrie de la recherche et le souci de la sécurité du code de vérification, et invite l'industrie à développer et à utiliser plus sûr, plus système de code d'authentification convivial, souhaitent également collaborer avec l'industrie, de la technologie d'authentification, recherche plus percée.

[Lire] demande d'extension

Université du Nord-Ouest - Laboratoire commun Irdeto Conseil de sécurité de l'information (NISL)

Juillet 2009, l'Université du Nord-Ouest et un chef de file de renommée internationale dans les fournisseurs de technologies de télévision numérique Irdeto (Irdeto) ont organisé conjointement la « Northwestern University - Laboratory sécurité de l'information Réseau international commun Irdeto objets », principalement dans:

(1) les réseaux sans fil, les réseaux de capteurs et réseaux théorie de base sont les technologies clés, et la conception matérielle et logicielle dans l'application exemplaire de grands sites historiques et de surveillance de la faune;

(2) Internet mobile, les réseaux industriels et à la maison et de la technologie de sécurité réseau personnel;

(3) les logiciels de sécurité, la technologie code obscurcissement combiné avec la technologie de protection du logiciel de machine virtuelle.

Laboratoire a entrepris un certain nombre de projets de recherche nationaux et provinciaux par la Fondation nationale des sciences naturelles de la Chine, le Programme de coopération internationale, la technologie de soutien national de la Chine en Europe, etc., « méthode de routage WSN regroupement inégal », « positionnement cible en mouvement », « chiffrement transparent Déchiffrer « et » dissimulation d'informations textuelles « plus de 20 brevets, a mis au point un sol le site de surveillance noeud capteur dédié pour la surveillance des passerelles propriétaire WSN de la faune et de la station de base de transmission de données multi-mode. Il a été dans le Ming Grande Muraille dans le nord du Shaanxi, Xi'an Hanguangmen, les ruines du Palais Daming demande préliminaire. Et l'Université de SALENTO Italie, le Canada et l'entreprise Pays-Bas Université VITORIA Irdeto a établi d'étroites relations de coopération.

Cliquez pour lire le texte, voir le code pour être cool? Recherche à l'Université du Nord-Ouest et l'Université de Pékin en Chine ou à la fin de l'ère de CAPTCHA

Kia trois 15th Anniversary Special Edition mis en vente à partir de 118800
Précédent
Ces chaussures sont si familiers! Déterminé à ne pas être le nouveau YEEZY?
Prochain
HMD nouvelle machine a gagné la certification Bluetooth: ou la version internationale du Nokia X7
La brise plus fraîche X7 tour 1.5T + 8AT, et sera cotée le 31 Octobre
garçon de 16 ans avec un vol de petite amie de 23 ans, conçu pour femme seule pour commencer! Deux personnes portant le vison
IC de l'existence, une partie des vulnérabilités du firmware Samsung SSD: Le chiffrement matériel est fissuré
La nouvelle Aston Martin Vantage remarque carte publiée! Publier une nouvelle voiture ou années
LeetCode de base algorithme premier titre 120: algorithme de recherche binaire
Industrie | Nvidia ou de ne pas lancer la nouvelle architecture de Turing ray-tracing GPU, voici quelques suspects
Une seconde pendant l'hiver? température minimale de Beijing de 5,1 , mais le plus terrible dans le dos ......
Samsung a également appris que Huawei mis en? Galaxy S10 exposée nouveau matériau: AI dual-core
Construire l'éco-industrielle chaîne, pour construire des voies autour de la cuisine écologique sain santé: Une meilleure vie organique
Le nouveau XC60 sera 17 pré-Novembre et 20 Décembre énumérés
Dong Mingzhu pourquoi Réparateur pressé d'un tel? Zhuhai argent longtemps sur le marché trop tôt!