la fraude de contrôle des risques financiers des algorithmes de graphique

Off, puis faire l'évaluation du crédit de la personne, selon le montant du modèle final, lorsque le montant du prêt est calculé pour maximiser les profits.

Il suffit de mentionner l'équipe de la fraude, donner un exemple réel. prêts agréable affiché leurs revenus, ils sont une ligne de gangs et ont fait plus de 2000 unique succès était des pièces de prêt sont agréables 4W, il a perdu 8000W! !

Alors, comment se prémunir contre ce risque, il. Ceci est aujourd'hui à des algorithmes part du graphique. La figure ci peut être l'un avec un bon dossier individuel associé pris.

Certains citent un gang comportement frauduleux. Par exemple, un gang, une entreprise réelle enregistrée Taobao, puis brosser un bon Taobao enregistrement. Ou le transfert en arrière, brosse une bonne eau de banque.

Il suffit de ne pas mentionner le montant des deux premiers modèles des enseignants, la simple introduction, si seulement aux utilisateurs prêteurs 5000, mauvais risque de la dette peut être petite, mais aussi moins d'intérêt, si le prêteur 10000, bien que l'intérêt a reçu beaucoup d'intérêt, mais le risque élevé de créances douteuses Ridge, nous devons être un compromis

graphique profil

G = (V, E) G = (, E)

  • V: ensemble de sommets
  • E: ensemble d'arêtes (dirigé, undirected, et aucun droit de reprise de pondération)
Par exemple, le lien entre les deux personnes, A à B d'acheter quelque chose, lorsque le nombre d'appels entre A et A et B entre de longue C.
  • degré de centralité (Degré centralité) - représente le nombre de bords connectés à un noeud. Dans un graphe orienté, on peut avoir deux mesures de centralité degré: entrée et sortie. Plus le degré d'un moyen de noeud que le noeud dans le réseau, plus importants.
  • A proximité du centre de (Closeness centralité) - longueur moyenne du trajet le plus court d'un noeud à tous les autres noeuds. Elle reflète la proximité entre un noeud avec d'autres nuds du réseau.
  • médiateurs centraux (Betweenness Centralité) - un nud sur le chemin le plus court vers le numéro de noeud. Numéro de référence est plus central pour tenir compte des mesures de centralité de noeuds de pont dans le graphique. Numéro référence reflète les noeuds correspondants ou des arêtes rôle et l'influence dans l'ensemble du réseau, a une forte signification pratique. Par exemple, dans un réseau de transport, plus le nombre de référence de la congestion routière d'une grande probabilité, dans le réseau électrique, le nombre de lignes de transmission à haute médiation et les noeuds sujettes à un danger.

algorithme de découverte communautaire générale sont:

  • régularisation coupe, coupe minimum: minimum calculé coupe la figure, à savoir le réseau est divisé en un nombre prédéterminé de paquets, et le nombre minimum de bords connectés à chaque paquet.
  • NMF: Le principe de base est la matrice d'origine et la matrice indique la matrice de base communautaire de décomposition
  • division communautaire de modularité
  • division communautaire du noeud de similarité
algorithme min-cut est largement utilisé dans l'équilibrage de la charge de calcul distribué, le nud de cluster de paquets permet de réduire la communication entre les nuds ne sont pas pertinents. Cependant, étant donné que l'algorithme définit le numéro du paquet final du réseau, et non pas par l'algorithme « découverte » lien intrinsèque entre le noeud et une pluralité de communautés naturellement constituées, et un algorithme minimum de coupe donc plus limitée.

Dans cet article, la plus grande part de ces deux types d'algorithmes, basés sur la modularité de louvain Et sur la base entropie de l'information touristiquesplan , Sur la base de la similitude des node2vec

formule simplifiée modulaire (modularité) et

des objectifs d'optimisation: croit généralement que la connexion entre les points à l'intérieur de la communauté est relativement dense, et le point de connexion entre les différentes communautés relativement rares.

Il peut être apprécié que d'un module du côté droit à l'intérieur de la masse de la communauté moins le poids de tous les bords et les noeuds connectés à la communauté et de poids, sans une meilleure compréhension du dessin, à savoir le côté intérieur des degrés communautaires (le nombre de fils à l'intérieur) moins la communauté le nombre total de degrés de noeuds.

Interprétation Module de formule

bord droit entre les noeuds i et j, le poids, lorsque le réseau est non graphique pondéré, tout le poids de bord 1 peut être vu;

Il représente le poids de tous les bords connectés au noeud i avec la somme des poids (degrés);

Je représente un nud communautaire appartient;

Elle représente les poids lourds de tous les bords de la somme de (nombre d'arêtes).

parmi

Elle représente la somme des poids des arêtes et dans la communauté c,

Le poids représente les poids des arêtes de noeud c sont connectés dans la communauté et celle de la communauté et le noeud C (comprenant des bords reliés à l'autre communauté).

Du point de vue de la probabilité:

Représentation de la situation actuelle, la probabilité de côté c généré dans la communauté.

Exprimé dans un boîtier idéal, tout degré donné de noeud i Ki, de noeuds i et j même côté aléatoire, la probabilité d'appartenance à la c latérale souhaitée de la communauté. Ensuite, sur la formule ci-dessus représente un nombre de bords connectés à la différence aléatoire dans le milieu désiré. Même le nombre d'arêtes attentes plus qu'aléatoire, meilleure est la division communautaire.

Utilisation de formules générales simplifiée en arrière, la formule simplifiée est déterminé si pour supprimer les deux noeuds désignés en fonction de la même communauté, dans une certaine mesure, ce qui réduit considérablement la valeur calculée de Q montant.

Louvain

idée de l'algorithme Louvain est simple:

  • Chaque noeud du graphe comme une communauté séparée, à ce moment le même nombre au nombre de noeuds dans la communauté;
  • Pour chaque nud i, à son tour, essaie d'allouer chaque nud i à sa communauté nuds voisins où, avant de calculer le changement de l'allocation du module et l'allocation

  • et enregistrement

  • Les plus grands voisins, si

  • , Noeud de distribution Mettre i

  • La plus grande communauté de voisins où restent par ailleurs inchangées;
  • Répétez 2, ne fait plus partie des changements de la communauté jusqu'à ce que tous les nuds;
  • La figure compression, compresse tous les noeuds dans la même communauté en tant que nouveau noeud, la communauté des bords droit entre les noeuds reconverti à la nouvelle masse de l'anneau des poids de noeuds, le poids de bord entre les communautés poids dans les poids des arêtes entre le nouveau poids de noeud , puis répété 3;
  • Répéter 2-4 jusqu'à ce que le bloc entier de ne figure plus des changements.

La première phase est appelée Modularity optimisation, principalement communauté divisant chaque noeud à noeud est situé adjacent à celui-ci, le module de telle sorte que on augmente la valeur de la constante;

La deuxième étape est appelée agrégation communautaire, principalement dans la première étape consiste à diviser la polymérisation de la communauté comme un point, à savoir l'étape en conformité avec les structures communautaires générées réseau reconfiguré. En répétant le processus ci-dessus, la structure ne change pas tant que le réseau jusqu'à présent.

mobile

poids de champ est le poids du noeud i et le noeud C et la communauté, puis multiplié par 2

Désigne la partie avant du noeud i est ajouté au module de communauté c, le noeud i en tant que partie d'une communauté et de ses modules distincts de c

  • Modularité et Louvain algorithme de découverte communautaire
  • Étincelle GraphX figure informatique distribuée réelle
  • touristiquesplan

    Du point de vue de la théorie de l'information, en supposant un travailleur aléatoire marche aléatoire sur le graphique, alors comment une longueur minimale de codage pour exprimer ses sentiers?

    Si le nud existe la structure communautaire, les nuds au sein de la communauté peuvent être partagés bit code binaire communautaire, peuvent être plus petits morceaux moyens, plus la communauté est divisée, la moyenne de bits requis pour représenter tout d'une marche aléatoire sur le chemin le plus petit.

    Si nous pouvons calculer la probabilité d'arrivée de chaque noeud, il peut être basé sur la formule d'entropie d'information pour quantifier le bit moyenne:

    Comment calculer la probabilité d'arrivée pour chaque point de celui-ci?

    Une façon de la violence est une longue marche aléatoire sur le graphique, la dernière probabilité statistique d'occurrence de chaque noeud. Trop violent.

    Après avoir utilisé les idées de pagerank, initialiser la probabilité d'arrivée de chaque nud, vous pouvez itérer la probabilité d'arrivée constamment mise à jour de chaque nud, le résultat sera bientôt tendance à converger.

    En fait, ce processus est un processus aléatoire de Markov, la valeur de départ initialisation aléatoire, la marche aléatoire est équivalent à changer sans cesse la multiplication des matrices de probabilité, et enfin nous pouvons atteindre l'état d'équilibre de Markov.

    Les événements de marche aléatoire se divisent en trois catégories: entrer dans une communauté, quittez une communauté, puis la promenade communautaire à l'intérieur.

    Il est clair que défini probabilité d'occurrence de divers événements, basé sur la formule d'entropie d'information, vous pouvez obtenir une moyenne de bits requis pour coder cette fois-ci, et son essence est du point de vue de la théorie de l'information.

    Infomap itération algorithme

  • Initialisation, chaque noeud est considéré comme une communauté distincte;
  • Alors que la valeur moyenne de bits diminue pas;
  • la figure noeuds dans une séquence d'échantillonnage aléatoire, selon l'ordre attribué à chaque noeud tentatives de noeuds voisins situés communauté, la chute de communauté moyenne bit maximale attribuée au noeud, voire diminué, la communauté de noeud inchangé .
  • Les liens de référence

  • L'équation de carte
  • https://mp.weixin.qq.com/s/qUxMesQA-edSyHeudQRRGA
  • DEEP GRAPH Infomax notes de lecture
  • https://zhuanlan.zhihu.com/p/58682802

    graphique embeddings

    Deepwalk

  • marche aléatoire (RandomWalk) de manière noeud commun obtenu par échantillonnage des relations de noeuds dans les dessins,
  • Utilisation aller-gramme, montre un vecteur généré à l'étape 1. séquence d'apprentissage de noeuds pour chaque noeud. skip-gramme est basé sur un noeud d'entrée donnée, le noeud de contexte de prédiction.
  • Deepwalk comment les lacunes, telles que la généralisation, quand un nouveau nud est ajouté, il doit modèle re-formation pour représenter le nud.

    Dans lequel un échantillon est, échantillonné de façon aléatoire à partir du noeud voisin en tant que noeud d'accès suivant, il est accédé pour accéder à une profondeur reproductible premier noeud algorithme traversal.

    node2vec est un enrobage graphique compte tenu du voisinage du quartier DFS et BFS

    node2vec

    Optimisé pour:

    hypothèses d'indépendance conditionnelle:

    symétrie spatiale:

    Optimisé pour:

    Le calcul est très grande, de sorte que le papier à l'aide échantillon négatif (échantillon négatif) est évaluée.

    Cette fonction objectif node2vec, car elle est la même chose avec la célèbre word2vec.

    Nous écrit à l'origine en Python avec un package, l'algorithme prend une semaine pour courir à nouveau. Ensuite, je pense, car objectif d'optimisation est le même, il ne peut pas être utilisé parce que word2vec package word2vec écrit en c, mais utilise également un Softmax hiérarchique, l'accélération de l'échantillonnage négatif.

    Ensuite, l'Internet pour trouver un paquet node2vec appliquer word2vec mis en uvre beaucoup plus grande vitesse.

    Random Walk façon

    En fait, la tâche complexe de traitement du réseau est indissociable de deux propriétés, également mentionnées plus haut: on est homogène, qui est, avant ladite communauté. La première est la similitude de structure, il convient de noter que des structures similaires ne peuvent être reliés aux deux points, deux nuds peuvent être éloignés.

    Vous pouvez améliorer la marche aléatoire DeepWalk de manière qu'il dispose d'ensemble DFS et BFS il? Par conséquent, nous présentons deux paramètres sont utilisés pour contrôler la marche aléatoire généré.

    Z est une molécule de constante de normalisation

    Si vous avez échantillonné (t, v), qui est maintenant coincé dans le nud v, puis le nud suivant x à échantillonner est qui? Auteur définit une distribution de probabilité, qui est, la probabilité d'un noeud pour transférer ses différents voisins:

    Intuitive expliquer cette répartition:

    • Si t est égal à x, x est l'échantillonnage probabiliste

    • ;
    • Si t est connectée à x, alors la probabilité de l'échantillon x 1;
    • Si t est pas connecté avec x, x échantillonnage probabiliste

    Paramètres p, q sens sont les suivantes:

    Renvoie la probabilité p:

    • Si p > max (q, 1), l'échantillon ne reviendra pas dans la mesure du possible, ce qui correspond au schéma précédent, le noeud suivant est pas susceptible d'être accédé par un noeud t.
    • Si p < min (q, 1), puis l'échantillon sera plus enclin à revenir à un noeud, ce noeud a eu un certain commence à se balancer autour de tourner.

    q paramètres d'accès:

    • Si q > 1, le pied aura tendance à tourner entre les noeuds autour du point de départ, BFS peut refléter les caractéristiques d'un noeud.
    • Si q < 1, la marche aura tendance à fuir, ce qui reflète les caractéristiques DFS.
    • Lorsque p = 1, q = 1, le chemin de promenade équivaut aux DeepWalk aléatoires de marche.

    En bref:

    Les visites répétées paramètres de probabilité des sommets de contrôle p Visité récemment,

    Q paramètre contrôle la migration vers l'extérieur ou vers l'intérieur, si q > 1, l'accès et marche aléatoire sont généralement le plus proche sommet t (BFS de polarisation). Si q < 1, ont tendance à rendre l'écart de la pointe de t (biais DFS).

    défaut

    • lent
    • Tout d'abord plongement re-regroupement, je me sens ces deux processus sont séparés! ! Fusion regard

    venir

    Après vecteur Graphembedding get, peut faire beaucoup de choses, vous pouvez simplement les nuds sont regroupés par groupe en termes de notre thème.

    Mais ce processus est relativement fragmenté, la première node2vec d'optimisation, puis le regroupement d'optimisation. Est-ce qu'une optimisation unique de l'ensemble encore terminé.

    VENEZ cet algorithme d'optimisation pour objectif de détecter et ajouté à la communauté intégrée. Le noeud délimité par un modèle de mélange gaussien.

    avant l'optimisation de ligne avec deux buts de similarité définie similaire:

  • https://blog.csdn.net/u012151283/article/details/87013915
  • Communauté d'apprentissage Embedding avec détection communautaire et Embedding nud sur les graphes
  • https://zhuanlan.zhihu.com/p/36924789
  • Communauté d'apprentissage Embedding avec détection communautaire et Embedding nud sur les graphes
  • https://github.com/vwz/ComE
  • évaluation

    modularité

    Normalisé information mutuelle NMI (Normalisé information mutuelle)

    Supposons par N points échantillons sont divisés en deux étiquettes U et V. inexactitudes de consigne de séparation d'entropie

    Auteur:

    Zhangxing Jun, directeur principal Abakus de l'algorithme de contrôle des risques. Il a du travail dans Baidu, 360 et d'autres entreprises.

    Cet article du camp de synthèse vocale dans la communauté DataFun, compilé par DataFun.

    Sun Li a parlé de la coopération, « Zhen Huan Biographie », jupes, chaussures à talons hauts à porter des vêtements avec 1,2 mètres de grandes jambes, puissant
    Précédent
    Fou! Manchester United veut frapper 50 millions de saisir le numéro un beau melon proie 3ème coupe Hu Manchester City?
    Prochain
    mère biologique était fosse misérable, porte maintenant une chemise avec une combinaison de volants, fille de 37 ans dans une délicate
    Que ce soit le réseau de neurones profondeur a littéralement monté?
    Magique! L'exposition entraîneur Juve devrait prendre en charge l'entraîneur Barca a terminé avec Macy C Luo et se précipita la Ligue des Champions?
    Premiership grosse surprise! Manchester United est l'inverse du premier tirage au sort, complètement raté la Ligue des champions la saison prochaine
    Heilongjiang, Sichuan FC FC niveau à domicile de la première balle de l'aide étrangère la saison des récoltes de la bibliothèque Chu
    Son Heung-Min données reproduction gardes! Ligue des Champions 10 dernières années de l'arrivée spectaculaire de la reproduction figure joueurs sud-coréen
    Rappelez-vous il y a 16 ans, "Dae Jang Geum" il? Aujourd'hui âgé de 48 ans d'activités, comme le blanc de la neige et de la peau tendre
    Ligue des Champions 64 ans classique! Spurs générales dernière seconde chapeaux de retournement Lore Barcelone plus fou que Liverpool
    filles Rocket Xumeng Jie, pull lâche avec un pantalon denim demi, veau blanc doux à la déesse mince de beauté
    Netty et l'apprentissage Stratégies avancées
    Ligue des Champions 64 ans et Les miracle! Tottenham Hotspur Liverpool Barcelone plus fou que ce qu'ils deviennent inopinément perdants
    Monopoliser vote amoy cinquante et un double pic fichier réputation, « Pourquoi la maison » classé deuxième au box-office en second lieu seulement pour re-liaison