Apache CarbonData est parrainé par Huawei et open source, un format de stockage de données haute performance, grâce à l'intégration de la nouvelle solution de stockage de données pour une variété d'applications, tout en soutenant des scénarios de données pour résoudre l'industrie du stockage en raison de l'analyse de scénario actuel des besoins résultant de redondance et d'autres questions. Pendant ce temps, CarbonData par indexation à plusieurs niveaux, le dictionnaire de codage et d'autres fonctionnalités pour améliorer la mémoire de balayage de la colonne IO et les performances de calcul, atteignant 10000000000 secondes niveau de données de réponse, il apparaît comme un gros volumes de données de requête faible latence fournit une nouvelle idée et direction .
Pour les développeurs d'aide se concentrer CarbonData en profondeur la compréhension de la technologie, nous avons lancé une campagne pour Apache CarbonData + Spark de séminaires techniques sur, et des experts de haut de l'industrie invités des États-Unis Databricks, Huawei, SAIC, veulent utiliser la scène par Spark SQL, Spark 2.2 caractéristiques de base des rapports du CBO, part application pratique de l'objet CarbonData +2,0 planification de nouvelles technologies, Utilisons plus facile CarbonData.
Le temps et lieu
Lieu de l'événement : Voiture Shanghai pour profiter du bâtiment (plancher de la salle de conférence)
Les coûts d'activité : Sans limite
Calendrier des événements
Chargés de cours et sujets de cours
Session I: Spark SQL: Passé, présent et futur
instructeur profil : Fan Wenchen, de la société Databricks États-Unis, Apache Spark membre PMC, les membres de l'équipe de développement Spark SQL. Après avoir été diplômé en 2013 de l'Université du Zhejiang, il a été engagé dans les travaux liés aux systèmes distribués. 2014 est entré en contact avec Spark, et est devenu l'un des contributeurs les plus actifs. 2015 a officiellement rejoint Databricks, devenir Databricks Division de la Chine (en construction) du premier employé, responsable des aspects du travail de la communauté open source, tels que: PR d'autres membres de la communauté à soumissions d'examen, conduisant Spark SQL quelques-unes des principales caractéristiques de la conception et du développement, des vérifications périodiques de la qualité du code.
Résumé des sujets : Spark SQL comme cadre de base de Spark, a déjà une base d'utilisateurs large et a eu une longue histoire de développement. Le sujet nous mènera regardons l'évolution de l'histoire Spark SQL, et l'état actuel et les perspectives d'avenir de certains, pour vous aider à mieux comprendre certains des scénarios décisions de conception Spark SQL et d'utilisation.
Session II: CarbonData Application de +2,0 introduction du nouveau plan technologique
instructeur profil : Kun Li, Apache CarbonData committers, Huawei Technologies Co., Ltd Big architecte logiciel Data. Huawei a rejoint en 2004, des accords à long terme dans les télécommunications, l'intelligence d'affaires, visualisation de données, de recherche de système d'analyse de comportement des utilisateurs et de développement. Ces dernières années, en travaillant sur les grandes technologies de données, la participation à Hadoop, Spark, Alluxio et d'autres communauté open source en 2016 en tant que membres CarbonData PMC dans le projet d'incubateur Apache CarbonData, la recherche d'opportunités d'innovation et un point unique et la plate-forme d'analyse de données.
Résumé des sujets : Apache CarbonData est un nouveau stockage de données à haute performance, l'analyse, les exigences de redondance de stockage de différents scénarios pour le courant provoquée par un grand champ de données, CarbonData fournit une nouvelle fusion de solutions de stockage de données pour les données tout en supportant une grande analyse des données provenant de plusieurs scénarios (par exemple: « une combinaison de l'analyse des données de dimension, balayage rapide, les détails d'une seule requête, mise à jour ou suppression de données »), et par un indice multi-niveaux, dictionnaire de codage et d'autres caractéristiques de la colonne pour améliorer le stockage I / O balayage et le calcul de la performance, la réalisation 10000000000 secondes niveau de données de réponse.
Après CarbonData open source, les données globales par les amateurs de technologie attention, à ce jour, le monde a plus de 100 développeurs impliqués dans les contributions de code, il y a le système de production 10+ entreprises en ligne. Cette présentation se concentre sur les applications pratiques et 2.0 nouveau plan technologique CarbonData pour vous aider à mieux utiliser la technologie CarbonData.
Session III: Spark 2.2 caractéristiques essentielles introduites CBO
instructeur profil : Wang Zhenhua, Huawei est actuellement ingénieur de recherche, Apache noyau Spark Contributor, développeur principal CBO, est engagé à construire une plate-forme haute performance pour la grande analyse des données. Auparavant, il est diplômé de Zhejiang University School of Computer Science et de la technologie, la recherche sur des bases de données spatiales, la recherche d'information, l'exploration de données.
Résumé des sujets : Dans le Spark Catalyst optimiseur SQL, de nombreuses technologies d'optimisation à base de règles a été atteint, mais l'optimiseur lui-même a encore beaucoup de place à l'amélioration. Par exemple, il existe des statistiques détaillées sur la distribution des données, il est difficile d'estimer avec précision la filtration (filtre), la connexion (rejoindre) et la sortie, comme la taille et la base de données de l'opérateur cardinalité (cardinalité). En raison des estimations inexactes, il conduit souvent à suboptimale optimiseur pour générer requête plan d'exécution.
Dans Spark 2.2, le moteur Spark SQL intérieur ajoute un cadre d'optimisation basée sur les coûts, et génère ce calcul taille du cadre de base de chaque opérateur de base de données. Selon des estimations statistiques fiables et précises, pour prendre de bonnes décisions dans ces domaines: le hachage correcte join (jointure de hachage) construction de la fin de l'opération (côté construction), sélectionnez l'algorithme de connexion correcte (par exemple, hachage de diffusion se joindre et brassé hachage rejoindre), et ainsi ajuster l'ordre de connexion. Dans cet exposé, nous montrons cadre Spark optimiseur SQL du nouvel impact des coûts et de la performance sur TPC-DS à base de requêtes, .
Session IV: CarbonData fonction de partition + SAIC pratique importante CarbonData Partager
instructeur profil : Cao Lu, Apache CarbonData noyau Contributeur, développeur principal de la partition, le développement de données SAIC Directeur de Big Data Platform. Principalement axé sur grande architecture de la plateforme de données, le stockage de données, la compression, et les applications de recherche de l'index et flux en temps réel le traitement des données. La société était responsable d'un ETL de l'industrie financière, le développement de systèmes BI, une gestion des capacités de l'entrepôt de données de l'entreprise fournisseur d'électricité Internet, l'optimisation des performances et ainsi de suite. Plus d'infos sur les technologies open source, contributeurs de la communauté Apache CarbonData.
Résumé des sujets : Propriétés de la partition CarbonData seront officiellement libérés dans Apache 1.2.0 CarbonData la version, cette fonctionnalité permettra d'améliorer considérablement les performances des requêtes de données volumineuses. SAIC CarbonData grand ensemble de base de données en tant que plate-forme pour répondre à la croissance rapide du volume de données, cette question partagera les pratiques et les données de test articles CarbonData SAIC.
Adresse Inscription gratuite
balayage de code à deux dimensions ci-dessous l'image ou cliquez sur Lire l'original , Et remplissez les informations d'enregistrement soumis, après examen par notre personnel vous enverra un SMS participants de confirmation. Que vous soyez Apache CarbonData fans fidèles et les fans qui ont, ou avec des questions et des idées sur l'utilisation CarbonData, nos experts techniques vous attendent dans le domaine!