Comment maximiser la valeur des données? Ali interprétation de la profondeur globale des grands systèmes de données

En 2016, Alibaba Group a proposé le concept à Taiwan, la technologie de données Alibaba et de la division des produits dans le cadre de la table de stratégie, portant le groupe de travail de la table de données, son noyau est la construction de grandes données mondiales. Quelles sont les données mondiales à la fin est quoi? Comment faut-il construire?

Dans l'Assemblée générale, Ali Yunqi grand sous-forum de données, les experts techniques Alibaba supérieurs Lei donne une réponse détaillée. Ce qui suit est le texte intégral du compte rendu Partager:

Alibaba principal expert technique Zhang Lei

tableau de données

Alibaba technologie de données et le positionnement du produit

2016 Alibaba Group a proposé le concept à Taiwan, la technologie de données Alibaba et le produit qui porte la table de données du groupe de travail, le noyau est de construire de grandes données mondiales.

Du point de vue du contenu, notre gestion et l'exploitation et l'entretien du groupe Alibaba, le noyau des données de base;

D'un point de vue technique, nous couvrons tout de la collecte de données, le traitement de calcul à tous les aspects des services de données de liaison de données, les applications de données, fournissant un lien vers le plein utilisateurs écologique et en dehors des affaires Ali, petites et moyennes entreprises, l'ensemble canal de données service.

Par exemple, le bien connu de deux jours, 11 des données grand écran est visible frais par notre département responsable.

panorama ensembles de données Ali

La figure est un panorama des ensembles de données Ali de ce chiffre, nous pouvons voir les données dans le tableau sur la composition de l'architecture Ali, présente une structure « quatre verticales et trois horizontales », l'infrastructure cloud sous-jacente d'Ali la plate-forme.

Tout d'abord en termes de quatre à l'horizontale. Le diagramme d'architecture tout en regardant du fond, la pièce de fond du contenu de la collecte de données importante et l'accès à l'angle, conformément aux formats de données d'accès (tels que Taobao, Lynx, boxes à chevaux, etc.), on extrait les données à la plate-forme de calcul , suivi par le système OneData, « dimensions d'analyse des secteurs d'activité + » en tant que cadre pour la construction « centre de données publiques », puis sur la base du centre de données publiques en fonction des besoins d'affaires pour aller dans la construction supérieure: les systèmes de données à la consommation, l'architecture de données d'entreprise, l'architecture de données et d'autres contenus , après le traitement en profondeur, les données peuvent être utilisées pour jouer la valeur des biens, des services, fournit enfin un service de données unifiées grâce à un service de données unifiées middleware « OneService ».

Dans Ali interne, les produits de données Ali sur la plate-forme ont été des dizaines de données chaque jour des milliers de personnel interne dans l'utilisation des produits de données, notre plate-forme officielle pour « conseiller en affaires » données unifiées produits accumulé plus de 20 millions d'entreprises servi ......

Suivie de trois vertical. Basé sur Alibaba derrière de sorte que le volume général du système de données de construction, nous devons passer par un certain nombre d'outils pour assurer rapide, efficace, l'accès aux données de haute qualité, qui fait partie de notre R & D est réalisée par la plate-forme intelligente de données, notre théorie et la pratique, par un ensemble d'outils et de processus de développement du système à l'atterrissage de garantie, afin d'assurer que chaque équipe, chaque BU, par des règles uniformes pour construire un système de données, en même temps, lorsque les données plus après le problème le plus immédiat est le coût, nous avons également établi des données uniformes plate-forme de gestion de la qualité.

Les données globales à la fin est quoi?

Alibaba construction actuellement écologique, y compris l'activité de base des fournisseurs d'électricité, Taobao, Lynx, rentables poly, et là aussi le secteur du divertissement Youku, pommes de terre, navigateur UC, et bien sûr, les services locaux tels que le bouche à oreille, et tellement faim qu'il . Derrière base des formats ainsi que les fourmis, la recrue, Ali Mama, Ali nuage et ainsi de suite.

Les données écologiques de cette série, nous centraliser le stockage et la gestion, et constituent le cadre de notre couverture globale des données.

Dans un aspect, chacun des formats de données ci-dessus est une source mondiale et, d'autre part, ces données de haute qualité, l'analyse et de traitement, compte tenu des opérations de réalimentation. Nous voulons réaliser est: l'utilisation des données mondiales pour conduire des affaires, rendre les données plus de valeur.

Lavage à la main, par exemple, l'écran du téléphone est très faible, comment nous avons présenté à l'utilisateur de voir ce qu'ils veulent vraiment voir dans un espace limité? Derrière les « mille mille visages » pour cette application, il est en fait un algorithme basé sur des scénarios de gros volumes de données, pour atteindre. Il crédit Sesame, recrue logistique intelligente, mère Ali de marketing de précision, etc., ils sont tous animés par de grandes données ci-dessous constituent l'entreprise Unicom données en boucle fermée.

Ali intention de construire les données globales

Pourquoi est-ce que nous devons faire des données globales?

Tout d'abord, pour réduire les coûts. Nous savons tous que l'argent dans la construction de gros volumes de données est en fait très grande. Par exemple, les investissements dans les infrastructures, salles de télécommunications, racks, serveurs, bande passante du réseau, y compris la construction de plate-forme logicielle, l'exploitation et l'entretien du bâtiment de l'équipe de développement, etc., coûtera aux entreprises beaucoup d'argent et de la main-d'uvre. Pour (appelé pommes de terre Youku) excellent sol, par exemple, excellent sol l'an dernier, après l'ajout du groupe Alibaba, nous avons commencé projet d'intégration de données: Avant cela, un excellent sol a son propre cluster Hadoop, la taille des données d'Alibaba est beaucoup plus grande, la fusion d'une excellente données du sol pour Ali grande plate-forme qui permet une excellente plus résiliente des ressources du sol, peut également être fournie sur la base de Shiyun Wei, l'exploitation humaine et de l'entretien, l'exploitation et l'entretien du groupe de réutilisation de la plate-forme de système technique, OneData basé grande construction du système de données, les normes de collecte de données unifiées, ce qui réduit la main-d'uvre et les coûts opérationnels. Lorsque le projet a pris fin, nous avons constaté que le sol coût actuel avantage sur la construction des données moins de 50% d'origine.

En second lieu, par la technologie. Objectivement parlant, en compagnie de Varie capacité de données écologiques Ali, ainsi afin de dynamiser autre société écologique, nous avons migré le système de données pour un court laps de temps, de sorte qu'ils ont le même groupe Ali et une grande capacité de données. sol excellent projet de fusion ci-dessus est à travers les six mois, pour atteindre l'autonomisation technologique.

En troisième lieu, la connexion de données. Nous savons que le phénomène de l'île de données existe non seulement dans les industries traditionnelles, l'industrie de l'Internet aussi bien. Par conséquent, seules les données connectées, il peut jouer une valeur plus grande, éliminer les silos de données, de sorte que les données de liaison est également l'un des objectifs de notre construction de données globales.

Enfin, propice aux affaires. Peu importe combien la taille de notre groupe, la quantité de combien le corps de service, par la suite pour revenir l'entreprise pour refléter nos valeurs à travers les données montrent entreprises - après que le système de données unifié, en plus de l'entreprise peut être plus précis et un accès rapide à l'analyse décisionnelle des données externes, mais fournissent également des occasions d'affaires pour le procès rapide et erreur, ce qui réduit finalement le seuil à l'innovation des entreprises.

Comment construire les données globales?

Tout au long de l'ensemble du processus d'accès aux données de domaine, bien que l'infrastructure a été très forte, mais dans le processus actuel, nous sommes toujours confrontés à de nombreuses difficultés et défis. Encore un excellent sol, par exemple, sa grande salle de données à Qingdao, Ali Group, la plupart des données sont regroupées en Mongolie intérieure et Zhangbei, mais implique également la migration des données ne sont pas « tirer un câble » aussi simple que cela - qui implique l'application système, grande architecture de données devra personnaliser le programme pour le faire;

En outre, le processus de collecte de données unifiée sera effectuée dans un système unifié sorte d'accès aux services existants, y compris derrière la validation des données, les gens ne les données doivent savoir où les points de douleur, en même temps lors de la migration, les données d'origine les entreprises de service ne peuvent pas arrêter ce que nous appelons - changer la roue sur le plan, tandis que les composants de base pour être mis à jour, tout en maintenant un vol à grande vitesse;

Enfin est le cycle du projet, basé sur la réalité, la construction de grandes quantités de données nécessite généralement une période plus longue, ne peut être achevé dans quelques semaines, en raison des grandes quantités de données de construction n'est pas facile, mais un processus systématique.

En ce qui concerne l'infrastructure, Ali après le développement des fournisseurs d'électricité, y compris le test de moins de 11 ans de double de cette scène particulière, dans l'infrastructure, du centre de données au réseau au serveur middleware de base de données, plates-formes informatiques, la plate-forme de données, la plate-forme d'algorithme il y a beaucoup de précipitations.

Par conséquent, lorsque la construction de données globales, nous devons le faire est la première étape dans les données de l'entreprise sur la scène de la fusion des infrastructures écologiques.

Nos composants de données répartis comme suit:

Le bas - acquisition de données, qui est la source des données; - intermédiaires plates-formes informatiques de stockage: calculé en temps réel en utilisant l'auto-développé des clignements, est utilisé en mode hors connexion MaxCompute.

Le chiffre est encore plus de détails sur nos composants de données:

Est-ce que la collecte de données basées sur le comportement en ligne (nous avons un PC et un système d'acquisition sans fil) de l'utilisateur, puis dans le temps réel, la plate-forme informatique hors ligne vers le haut, les deux plates-formes informatiques, en plus de lui-même la puissance de calcul, il y a beaucoup basé sur SQL, graphique et d'autres programmable la capacité, le sommet est le développement d'outils, produits et services, outils de BI.

Avoir un tel solide soutien de la fondation, la capacité de se développer dans l'application ci-dessus aussi à la force: les outils de développement, par exemple, il y a environ deux millions d'ingénieur R & D Ali et Ali travailler chaque jour en fonction des élèves de la plate-forme de données auront près d'un million de personnes !

Sur la base de ces grands ensembles de données riches, la plupart de la recherche et le développement des élèves, des étudiants professionnels ou non professionnels peuvent faire un peu d'exploration et d'essayer sur les grandes données qu'il contient.

Voici quelques-uns d'entre nous dans la construction du système de données globales.

Regardez d'abord le système de la circulation, C'est la plus grande différence entre l'industrie de l'Internet et des industries traditionnelles.

Par exemple, si l'on peut être vu comme centre de distribution du trafic Taobao, les utilisateurs viennent pour la circulation des marchandises pour donner au vendeur. Ainsi, lors de la conduite de collecte de données de trafic, il peut donner des scénarios différents.

Sur la base de nos Alibaba années d'expérience dans le secteur de l'électricité, a également précipité un ensemble uniforme de spécifications de collecte de données de trafic - Super Model Lieu:

Page Taobao, par exemple:

Taobao est le site, il y aura les pages suivantes, la position du bloc, qui doivent être enterrés en fonction des besoins réels des points d'affaires et obtenir visuellement des données partout sur la page, telles que l'analyse de la page de profil, l'analyse du chemin, l'analyse de saut, nombre de visites, l'analyse de l'utilisateur et ainsi de suite. Les entreprises ont besoin seulement à un point enterré selon les spécifications, nous sommes en mesure de capacités d'analyse de trafic basé give-rapidement, et sur cette base, correspondant aux produits de données correspondant peut résoudre le problème 80% de la zone de trafic de données.

Ensuite, le calcul de l'assemblage.

Comme nous le savons tous, sur la base du contenu de l'Internet est en fait capable de guérir les exigences spécifiques à résoudre par le milieu des capacités d'ingénierie de processus, puis mettre rapidement la configuration de ces choses sans avoir à faire tous les besoins de développement de code sont calculés - il est calculé componentization.

L'avantage est, tout d'abord, la configuration simple, haute réutilisabilité, tout en accordant une attention après normalisé, l'accès futur uc, l'accès haute entreprises allemandes, nous pouvons faire un accès en un seul clic.

Le noyau de la construction mondiale de données du système est le système --OneData.

Actuellement, de grandes données du point de vue ensemble du processus de construction, il est divisé en définit la spécification d'accès aux données, le traitement de calcul, la validation des données, la stabilité des données, ces parties constituant les données combinées de l'ensemble du processus de développement.

OneData système est de protéger les outils mondiaux de construction - nous savons que ce n'est pas le stockage et calcul des goulots d'étranglement possibles. Avec le développement de la technologie distribuée à Hadoop en tant que représentant typique, serveur pc pas cher pour construire une super puissance de calcul, de stockage, et donc l'avenir de l'informatique deviendra de plus en plus cher, mais le temps est ingénieur des coûts relativement coûteux .

Par conséquent, l'outil est un élément clé de la résolution de l'efficacité de la R & D. Nous avons mis beaucoup de mécanique, de la chair humaine, et non pas la valeur du travail produit par l'outil pour compléter, tels que l'accès aux données depuis le début, nous devons assurer un accès efficace OneClick, selon Ali Baba métadonnées complètes, nous avons la possibilité de mettre sur un db d'affaires des données extraites une plate-forme clé de l'informatique, ce processus est presque sans aucune intervention humaine.

En même temps, par des outils OneDefine pour faire en sorte que les données est de réglementer le processus de construction, tels que: le modèle hiérarchique, les conventions de nommage des tables, des conventions de nommage et d'autres domaines.

processus de calcul Look, Ali applications de données de groupe dans leur capacité à être inégale, une donnée de R & D, il existe des algorithmes ingénieurs, analystes, et peut-être des opérations commerciales, de nombreuses personnes peuvent tout simplement après l'auto SQL, vous pouvez exécuter vos propres données: général ensuite, SQL ne peut pas garantir la qualité, la quantité de données si la requête est très grand, probablement des milliers de machines à demi-tour jusqu'à, afin d'éviter des incidents similaires, nous allons faire vérifier le code dans la présentation de son mandat, des problèmes de performance, les questions de réglementation , les problèmes de qualité de code sera donné les conseils nécessaires, tels que sql requête SQL dans le code, tels que les partitions ne se divisent pas par zéro conditions pour ne pas faire compatible avec le code, tels que nos déclarations ddl ne fixent pas le cycle de vie des données, et même votre code sql que quelqu'un d'autre a déjà calculé qui n'a pas besoin d'être recalculé en utilisant les résultats de ces problèmes peuvent être complexes, nous donnerons précis à l'invite.

Au cours des données de recherche et de développement, Écrivez le code peut représenter seulement 20% de la charge de travail, la plupart du temps à faire jusqu'à? La validation des données, et les modifications du code, après les données à la fin comment bien pire avant que les modifications de code, la différence où? Si le passé est pas un tas d'outils ne peut écrire cet angle, aller vérifier, extrêmement inefficace et sujette aux erreurs, il est maintenant « de l'autre côté » outil que nous pouvons simplement tick tick avant et après l'élection de connaître la différence à la fin quelle différence ? Et puis rapidement au rapport d'essai pour assurer la qualité des données tout au long du processus de développement est garanti.

Enfin, la ligne sur la tâche, beaucoup de temps en fonctionnement et à l'entretien, suivi de la qualité des données, le suivi du temps de sortie, etc. Ces préoccupations aller travailler tous les jours et nous aurons les outils pertinents à l'appui, de sorte que l'outil du système OneData est la construction de données globales sauvegarde importante.

Avec l'outil, avec le cahier des charges, et nous devons passer à travers l'ensemble du processus de développement, nous pouvons nous assurer une véritable mise en uvre de la spécification à tous les développeurs qui, afin que nous puissions arriver à comprendre le processus de développement: en faisant des étudiants en recherche dans les exigences de données, pour compléter la première spécification définit le code afin de continuer à se développer.

développement Code prescrira vérifier:

La première piste est SQLScan : Il vérifiera la normalisation du code, la qualité du code, les problèmes de performance peuvent se produire, afin d'éviter ces problèmes sur;

Une autre façon est des données de test « l'autre côté » Une fois les données importantes à faire les changements de données, vous êtes invité à faire processus de tests de régression, contrôle facile et simple, vous pouvez tester rapidement est donné. Si la tâche à exécuter dans un environnement de production, après ces deux aspects doivent être remplis pour soumettre l'ensemble du processus de développement, nous sommes le processus OneData système basé.

Alibaba a dépassé la quantité de données actuellement niveau EB, le nombre total de tables a plus d'un million, de sorte que le prochain volume général, comment nous pouvons obtenir efficace et flexible, mais sans perdre la spécification de la construction de grandes données, nous n'explorer depuis longtemps.

Grâce à l'expansion continue des affaires Ali, pour les grandes exigences de capacité de données sera de plus en plus élevé techniquement, comment briser le nombre traditionnel de l'architecture de l'entrepôt etl? Nous avons commencé à explorer séparées du stockage informatique, tissu et autres infrastructures mixtes hors ligne, je crois que dans un proche avenir, nous aurons le nombre traditionnel de l'entrepôt etl re-définition.

Guide Michelin Jingxian change! Bibendum sera publié en avance sur l'individu, mais aussi à la boutique allée réseau rouge
Précédent
Coupe recrue asiatique de faire l'histoire! Les joueurs naturalisés mis en scène gibus, presque verrouillé la qualification des lieux
Prochain
Donner un peu plus satisfaisant? Une maison convenable était une bonne voiture
Nous devons partir, et conduit à jouer l'attention de rémunération pro doit à ces choses!
Paul a gagné la semaine, Harden pas heureux: Paul, tu dois me le gaz! Mon MVP?
Coupe du monde Top 8 équipes tout est sorti: la moitié supérieure sont favoris pour gagner, l'Angleterre a conduit la moitié inférieure
Carrières! 2018 la ville a accueilli les Britanniques, américains, les étudiants chinois d'élite du Canada rencontrera Shanghai professionnel
Votre connexion Wi-Fi est en sécurité? défaut majeur KRACK rapport détaillé des WPA2 d'analyse du monde
Manchester United a passé seulement 19 millions d'années de renforcement boardshort! Mike Mussina aimera deux ou reproduire les deux ailes pour voler tactiques
Ne sont généralement pas mal de mouvement, pourquoi obtenir sur certaines voitures mais un halo puissant?
31 minutes 4 minutes, Donovan a expliqué Anthony indifférence abandonnée! Melon propres remarques trop d'amertume!
Coupe du monde magique scène maintenant: Comme 28 infraction d'équipe et les données de la défense, devrait se joindre au rendez-vous en demi-finale
éliminatoire de l'équipe chinoise pour déterminer l'adversaire! Orangistes ont été la honte l'industrie manufacturière, si la coupe peut frapper l'Iran
plugin "Statut Ali Baba Java Development" utilisations Guide détaillé