CNCC 2016 | Université du Zhejiang Chen Chun: Qu'est-ce que le streaming Big Data?

Note de l'éditeur: Chen Chun, un spécialiste de l'application informatique, professeur d'informatique et de la technologie, l'Université du Zhejiang, Académie chinoise d'ingénierie. État Commission de l'éducation, d'abord apparu « Programme de formation Talents siècle » dans les experts, la troisième science et de la Jeunesse de Chine Technology Award gagnant. Actuellement directeur du Centre national de recherche en génie du train intelligent, Comité Degree Conseil d'Etat des disciplines. Le professeur Chen Chun longtemps engagé dans la recherche de pointe dans le domaine des applications informatiques, publié plus de 160 articles dans des revues académiques et conférences internationales, il a remporté le Prix Invention technologique État deuxième prix, le deuxième prix de la National Science et technologie Progress Award 2, National Science et de la technologie prix progrès, la science provinciale et l'attribution de la technologie 6.

CNCC 2016 grande ouverture aujourd'hui à Taiyuan, le discours d'ouverture, CCF Fellow, Académie chinoise d'ingénierie, Université du Zhejiang, le professeur Chen Chun a fait un rapport intitulé « la diffusion en temps réel de grandes technologies de traitement des données, des plates-formes et applications », ce qui suit est le contenu du rapport pour bien.

Les bons dirigeants, distingués invités, collègues du matin, je parle aujourd'hui fait l'objet de grandes données technologie de traitement en continu en temps réel, des plates-formes et applications.

Streaming Big Data

Grand flux de données à partir de ce point de vue, peut être un gros volumes de données en deux: l'un est un grand lot de données, l'autre est un grand flux de données.

Prenons, par exemple

Nous mettons que comme un réservoir, puis il y a l'eau à l'intérieur du réservoir est grand lot de données, l'eau entrante est en streaming Big Data.

il y a 10 ans, de la Troïka traditionnelles pour faire maintenant 60, 70 écosystème énorme lié. Key on peut voir, à partir de 2012, a été préoccupé par le grand flux de données est flux de données en mode. Avant, tous les grands algorithmes de données et systèmes est un grand lot de données, depuis le début de 12 ans a été mis en place spécifiquement pour la diffusion de grandes quantités de données.

Comme les données du traitement des flux, des scénarios d'application principalement en deux catégories:

L'un est l'Internet

L'autre est l'Internet mobile

Les services mobiles Internet et de la personnalité d'Internet et d'améliorer l'expérience utilisateur pour les besoins en temps réel sont très élevés. Généralement, les échantillons de correspondants, et les données des capteurs de l'Internet à des décisions d'affaires grâce à une analyse intelligente. Avant que partager de grandes données, nous pouvons diviser en recul et risque rétrospective, mais les applications les plus importantes dans l'analyse des entreprises, processus.

Les solutions existantes sont principalement deux types:

  • Pour trunking, les solutions distribuées, mais sa réponse en temps réel est plus lent.

  • Une autre est de mettre en place un grand flux de données, à savoir calcul en mémoire, mais ses données en temps réel correspondant échelle limitée.

Mais les grandes techniques de traitement des données, il y a quatre problèmes majeurs. Ils sont les suivants:

  • Sur la base de l'opération de calcul de la mémoire distribuée

Probablement de nombreux ordinateurs, chaque ordinateur multi-CPU, vous allez sur une mission, la mémoire calculate en même temps sur l'ordinateur, il est possible de faire le stockage distribué.

  • Analyse de la performance des grandes quantités de données historiques

Lorsque des données en temps réel, vous traitement de flux flux juste dans le réservoir, mais aussi de mettre vos données il y a une base de données construite ensemble. Depuis cette fenêtre de temps pour répéter le calcul et le delta du complexe massif des données à calculer.

  • Après le flux de données entrant, la façon de calculer les données en continu avec les données historiques?

Les soi-disant gros volumes de données, le streaming doit être considérée, la solution peut commencer à partir d'une base progressive.

  • Le modèle pour résoudre les problèmes d'application pratique

Zhang a dit que le modèle statistique, des modèles basés sur des règles qui peuvent être une bonne combinaison. Nous devons donc mode de réalisation modèle d'analyse traitée séparément, peut donc être réalisée peut être calculée pour des problèmes différents.

Les quatre est le plus important des quatre questions, nous sommes maintenant des résultats de recherche - calcul en temps réel du flux Cube, la fenêtre de temps de données, calcul de l'indice ainsi que la base du calcul de l'incrément, qui est, pour résoudre les performances de stockage distribué, et calcul de la meilleure combinaison en fonction de la mémoire.

Cube flux

Maintenant, nous présentons les grandes données downflow temps réel plate-forme de traitement, nous savons que cette plate-forme est pas seulement l'écoulement moteur de calcul cubique. Reliure de grandes données, correspondant au débit calculé allant de plus de 60 composants du moteur cubes à l'intérieur de la section d'extraction constituant une telle plate-forme, ainsi que la mémoire distribuée, la base de données, y compris une grande plate-forme de traitement de données de nuages, il y a d'autres endroits constitués la plate-forme, en fait, cette plate-forme est un système très puissant.

Ici, il y a des applications, cette application est un flux de cadre cubique.

Il y a des lignes rouges pour calculer la présence d'un grand flux de données des indicateurs, les indicateurs statistiques, il existe un modèle d'analyse gauche qui repose sur les orientations de modèles mathématiques. Donc, quand vous mettez un problème à résoudre, tels que:

Pour apprendre les échecs, vous pouvez jouer record jeu d'échecs transmis. Elle peut être calculée sur cette plate-forme, qui est un système d'applications externes.

Elle peut être appliquée à un grand nombre, sur la base du système actuel, un système parallèle à faire la détection en temps réel sur streaming en temps réel la plate-forme de cube, à travers le modèle d'expertise à l'analyse en temps réel.

Le regard spécifique suivant à quelques cas:

la fraude de contrôle des risques financiers

Chacune des cartes de crédit nous, la consommation, le temps de payer, en fait, au système de contrôle des risques de la CUP pour déterminer si vous n'êtes pas un menteur.

Le système de paiement d'origine est très simple, par ordinateur, par téléphone directement dans les paiements. Mais vous pouvez être soumis à la fraude, cette fois, comment faire?

Le système précédent à 00h00, UnionPay raconter les données d'aujourd'hui vers le bas, vous trouverez le nombre d'escroqueries. Plus tard, sur Internet, tout le monde veut envoyer un bouclier U pour vérifier. Lorsque vous payez, pour déterminer si oui ou non de payer l'argent pour aller faire une identification de données, le contrôle des risques est le moteur.

Le moteur de contrôle des risques est de se concentrer sur les outils de fraude sur Internet actuellement utilisés par le CUP système

Seulement quatre PC de calcul, peuvent être traitées simultanément 50000 par seconde. La règle a plusieurs millions, est réalisé grâce à l'apprentissage de la machine.

Un accent particulier sur les soi-disant grandes applications de données, ne peut pas faire sans cadre un tel. Parce que d'abord, nous avons besoin de connaître les données les plus importantes sont les données d'identification. L'utilisation d'un téléphone mobile, ou la fraude informatique, le processus précédent est simple - par rapport à comme, faire de grandes règles de données. Cela devra analyser, il doit y avoir identité. Parce qu'il est grand l'analyse des données, donc il doit guider la technologie, l'équipement et des règles contraignantes.

Maintenant sur les paiements électroniques, en plus de fourmis robe d'or et faire leur propre contrôle des risques de paiement micro-canal extérieur, essentiellement tous les systèmes sont basés sur flux cubique à faire.

Système anti-crawler

Le deuxième exemple, le système cubique est réalisée avec un système de robot anti-flux.

Maintenant, les soi-disant gros volumes de données, en commençant par la personne de montée d'autre données, les données des autres grimpent à écouter son modèle d'affaires.

15 ans, 16 ans, alors que la plupart du site est dans les reptiles qui rampent sur tous les sites divers, y compris les banques, la classe gouvernementale, la classe sociale, et ainsi de suite. Nous consommons des ressources et affecter les points d'accès normaux, l'augmentation des coûts d'exploitation.

Cube système de flux est maintenant utilisé, il peut augmenter les données de service, les données de guide, l'identification et l'analyse du comportement humain reptilien sont pris en compte (sous la forme d'experts en sécurité, les experts du réseau règle il pris en compte). Ceci est un très bon reptile en temps réel réparé.

plate-forme de cube peut contrôler la base des flux, le moteur de contrôle des risques pour la montée de percevoir toutes les informations. Lorsque vous faites le système de contrôle des risques, la première observation du modèle de contrôle des risques, puis activer le contrôle des risques.

Chemin de fer Ticketing 12306

Le troisième cas, je pense qu'il est probablement plus étroitement avec vous, est le site de billetterie ferroviaire 2306.

Nous savons que 12306 billets, alors ce besoin? Code de vérification de l'image. Pourquoi cette image pour le vérifier? Quels sont peur? bétail grillé à la fraude électorale.

Mais quand nous allons vraiment réservation, code complexe peut être lourd. 12306 maintenant la plupart des plaintes de discrimination est mon code ne vient pas pour la première fois de vérifier dehors, plus difficile le second retour de temps à votre image. Parce que vous ne pouvez pas être vu, il pensera que vous êtes le bétail, plus difficile pour vous.

C'est très complexe, nous nous sentons comme le bétail était fini. Mais il a fait un reptile, vous Crowdsource oncle, tante, maintenant encore aucun moyen, le bétail descendent au moment de voter, il est à la retraite tante, oncle de le faire. Ce dernier est très gênant, de plus en plus de plaintes.

Nous avons donc aucune possibilité de faire une intelligence artificielle de même, l'analyse comportementale en temps réel basé sur le bétail, selon son numéro de téléphone cellulaire, ID, de fixer les règles à des centaines de traitement en temps réel?

Cela ne, relativement plus difficile. Nous avons parlé, en 0,1 secondes sur l'analyse de chaque acheteurs de billets, qui est, nous parlons de portrait précis. Mais l'identification précise de vote, beaucoup plus élevé que notre méthode actuelle d'identification des billets.

Les visites habituelles, nous faisons des statistiques, des visites de l'utilisateur, lors de la Fête du Printemps, est de 3,1 millions par jour. Mais le reptile le plus horrible, des visites d'insectes est de courir 150 milliards par jour, le pic a été de 1,7 millions par seconde.

Nous sommes maintenant cube en streaming, et essaie maintenant de 40 billions de par seconde, ou même en mesure de faire 16, 24 ensembles de montée équilibrée.

Pourquoi reptile? Et ils ne savent pas grand-chose au sujet, je vous ai parlé, de nombreux sites sont des billets achetés à 12306. Avec les données de reptiles, le bon billet pour séjour, par des billets de reptiles en 10 minutes ou moins, il n'a pas d'importance si vous ne payez pas, il peut être le billet pour revenir en arrière. Sur le site, nous n'avons pas des réserves, tandis que 9 minutes, et sont retournés au ticket. Quelqu'un site de réservation en moins de 10 minutes pour télécharger l'identité réelle lorsque ce billet aller immédiatement à votre transaction, de sorte que l'ensemble du système 12306 site de billetterie à éclater.

perspectives

La perspective d'une très large gamme d'applications: financière, les télécommunications, le transport, la sécurité publique, les douanes, l'Internet peut être appliquée.

expérience

  • le traitement en temps réel des flux de données

Streaming analyse en temps réel des données, il doit y avoir quelque chose de régulier, modèle. Analyse complexe et calcul, plus en temps réel les deux ensemble, si bien faire, sera en mesure d'accélérer les grandes applications de données dans diverses industries.

  • Big Data

Nous vendons maintenant des données ou grandes sont des données, des données comparatives, différentes après analyse, par la suite retracé chose, cela est très important.

Mais nous sommes maintenant le plus important, ou à une combinaison de différentes mise en uvre des données spatiales en continu l'analyse des données. Cette plate-forme peut avoir toutes les données (Internet, Internet mobile, ainsi que Internet +) expérience commune, la mise à niveau.

Je dirais tant, je vous remercie.

module de commande de lecture: dimension divine illimitée x anachorète · gk
Précédent
« Ark » Développeur: PS4 et Xbox n'est pas difficile à mettre en uvre multi-plateforme en ligne
Prochain
film chinois « l'action du Mékong » réalisateur de cinéma en Corée « initiés » nouveaux seigneurs de la drogue jouent votre Song Kang-ho
Jouer commande de mode: 1:60 Nielsen refroidir l'hérésie rouge
CNCC 2016 | Sogou PDG Mme Yu: la méthode d'entrée suivante est QA
Le service national "Counter-Strike: Global Offensive" sera bêta ouverte le 15 Septembre
module de commande de lecture: 00 Series, GNX-603T GNX
Jouez en mode contrôle: BB types de changement de barre, l'ancienne tombe géante
La société a gagné 100 millions d'années de cuisine à la télévision au lieu de jouer pour nourrir Nicholas Tse Faye Wong ambitions encore plus grandes
l'évaluation des performances Android et optimisation - Mémoire
Lecture module de commande: toujours classique! RX-78-2 GUNDAM ver1.0
Cette histoire de côté « Harry Potter » pour que Feng Xiaogang est pas calme l'acteur Prince William étudiants
CNCC 2016 | Université de Tsinghua Académicien Zhang Bo du fond: l'intelligence artificielle pour apprendre la profondeur des temps
Hulu ce drame adapté de l'affaire de matricide très réelle de réexaminer la relation entre l'amour de la famille et la haine