L'apprentissage machine, Voyage de faire mieux - pièces Interview de données ingénieur minier a dit

Moment, « big data » et « machine learning » est célèbre, la chaleur sans précédent, les industries émergentes et les entreprises comment utiliser des données grande technologie pour soutenir le développement de produits, d'élargir et de maximiser les avantages de préoccupation des utilisateurs. À cette fin, les données envoyées par THU la série de l'industrie de la planification de la recherche spéciale des entrevues, des étudiants d'entrevue par du personnel de première ligne de l'industrie, l'accès au monde universitaire de collision et de l'industrie. En échange de réunion algorithme THU d'envoyer l'organisation de recherche de données, le Smart City Group ont une interview exclusive avec des gouttes d'ingénieur des mines de données Voyage Il avait fait Monsieur. Il est docteur en mathématiques de l'Université de Rochester, avait engagé des investissements quantitatifs à New York, les intérêts de recherche incluent des équations aux dérivées partielles stochastiques, l'arbitrage statistique, négociation de produits dérivés, l'apprentissage statistique et l'exploration de données. Dans cette interview, il avait fait grand De l'industrie, grand point de vue de la technologie de données avec un voyage peu comment utiliser l'apprentissage de la machine afin d'optimiser l'expérience utilisateur pour la référence et le chemin de carrière minière proposée pour les futurs étudiants dans l'analyse des données et des données.

Note: Ce contenu est une opinion personnelle, ne signifie pas que Voyage gouttes.

Sur les industries: tendance économique partagée, et des morceaux continueront à jouer un rôle important

Après 2010, avec l'avènement de Uber, Airbnb et une série de plate-forme de partage réel, le partage de départ d'un partage purement volontaire, le partage de l'information, afin de recevoir une récompense dans le but principal, en fonction de la présence d'étrangers et le transfert temporaire de droit aux biens d'usage " économie du partage ». Son essence est l'Internet en tant que moyen, les biens de repos, le travail, l'éducation et les ressources en soins de santé dans l'intégration de la ligne, chacun d'une manière différente à la rémunération et des avantages, a partagé les dividendes économiques.

Au vu une fois dit, l'Internet peut connecter les gens à travers un réseau, il utilisera les ressources supplémentaires, réduire le gaspillage des ressources, de réduire les coûts d'utilisation des ressources. Et gouttes aspirés le partage des ressources de transport. En Chine, la part tombe à voyager comme une économie de modèle, a joué un rôle important. Zeng Yan estime qu'il doit être partagé tendance économique à l'ère de l'Internet, et des gouttes partagera la route plus loin et plus loin.

Discussion technique: Les données Big ne se reflète dans le processus

Une grande données proviennent du développement continu de l'Internet, en particulier le contenu généré par l'utilisateur augmente, comme les utilisateurs de recherche Baidu pour le contenu, microblogging, journaux Web. Comme le nombre est trop important, le logiciel d'analyse de données traditionnelles deviennent étirée. Par conséquent, les grandes données distribuées technologie cadre MapReduce se généraliser, la plate-forme Hadoop correspondante, cadre Spark, ruche cadre de base de données, HDFS et langage de programmation scala, également largement utilisé. En comparaison, le cadre d'allumage de manière plus efficace sur la vitesse de calcul et de mémoire, qui est utilisé dans le bit de trame interne.

Bien que les grandes données traitent le développement des technologies constamment mis à jour, mais les algorithmes d'exploration de données classiques traditionnelles, telles que le regroupement, la classification est toujours le moyen le plus efficace d'utiliser l'analyse des données, le seul changement est la nécessité d'un algorithme traditionnel et non linéaire parallélisation pour améliorer grande vitesse de traitement des données et de l'efficacité, des techniques d'optimisation de ce processus est essentiel. Une fois qu'il a dit, par exemple, des gouttes dans en ligne version Voyage 5.0.0 de la « voiture recommandée sur place » fonction (l'image d'un « petit point vert ») est l'utilisation d'algorithmes d'exploration de données, recommander les meilleurs endroits pour les passagers à bord du train, communiquer et sauver les coûts de temps, d'optimiser l'expérience utilisateur.

Sur le bit: constamment mis à jour, seulement pour la meilleure expérience utilisateur

En ce qui concerne les technologies Big Data et des algorithmes à l'intérieur Didi, nous avions fait un projet spécifique détaille l'ensemble du processus de traitement et d'analyse des données.

Institut projet de gouttes, carte de chaleur, l'approvisionnement et la prévision de la demande, la planification des capacités coopèrent entre eux pour résoudre le problème du déséquilibre entre l'offre et la demande dans la macro. Carte de chaleur est un diagramme montrant la répartition des commandes directement au conducteur, mais ce spectacle ne suffit pas précise, le conducteur peut facilement être induits en erreur. Ainsi, en fonction thermodynamique figure, compte tenu de la demande nécessaire dans une certaine zone sur une période de temps alloué à la demande du conducteur et, pour compléter la capacité de planification, l'équilibre biologique de l'offre et de la demande.

processus d'analyse des données

Une fois qu'il a dit à un cas spécifique, peigner l'analyse de flux de données d'entreprise.

1. Identifier les besoins de l'entreprise (compréhension des affaires)

L'objectif est d'améliorer la croissance des entreprises en volume d'affaires tout en maintenant les avantages. Zeng Yan a déclaré que le processus d'analyse des données, clairement les plus importants besoins d'affaires à répétition et la communication d'entreprise, en particulier une profonde compréhension des besoins de la logique métier sous-jacente, et confirmer avec les unités commerciales enregistrées sous la forme de documents, de sorte que retours en arrière après.

2. comprendre le format de données (compréhension des données)

Sur la base des besoins d'affaires spécifiques, bien comprendre les sources de données et les formats de données et aux entreprises, en particulier ce que les besoins de données pour former une perception des données dans son ensemble.

3. L'extraction de caractéristiques (extraction de caractéristiques)

Ensuite, pour le traitement ultérieur des données, les caractéristiques de modélisation d'extraction qui peuvent être nécessaires, comme une fréquence de taxi, la proportion de coupons, coupons avec le taux de rétention, bien sûr, et aussi de l'expérience personnelle et l'analyse de l'activité spécifique. Zeng Yan a souligné que cette étape est également connu comme l'ingénierie des fonctionnalités, il est important de tester les compétences individuelles et peuvent généralement être résolus avec les caractéristiques d'un hachage de la route.

4. Nettoyage des données (nettoyage de données)

5. La construction du modèle (algorithme)

L'algorithme de sélection de modèle et les questions opérationnelles et des données caractéristiques, y compris la régression logistique commune, les forêts aléatoires, les réseaux neuronaux, les réseaux de neurones, et la profondeur d'un réseau neuronal convolutif.

6. Modèle Tuning

Les principaux paramètres de l'algorithme est d'ajuster le modèle en cause, les résultats les plus de formation optimale, qui analyste de données de test en général au niveau individuel et la capacité.

Sur le développement de carrière des étudiants de la capacité individuelle est cruciale

La capacité à construire et à développer les connaissances des élèves

Lorsque les élèves apprennent cadre technique, en plus des connaissances des manuels scolaires, mais aussi besoin de se concentrer sur des algorithmes et de frameworks. Avait fait conseille aux étudiants de comprendre l'entreprise via Internet et plus couramment utilisés dans l'architecture technique, et constamment mettre à jour leur base de connaissances dans une ère de l'itération rapide, pour suivre le rythme du développement, avec des compétences de base dans les candidats.

En outre, les étudiants doivent prêter attention au développement des compétences personnelles. La première est la capacité d'apprendre, se référant principalement à la possibilité d'accéder à l'information, l'auto-apprentissage par l'avant-garde scolaire des documents de développement technologique, suivi par la capacité mathématique, incarnent les principes de l'algorithme dans l'apprentissage de la machine, en profondeur la compréhension des principes de l'algorithme pour ajuster les paramètres du modèle et l'optimisation grand avantage, la capacité de programmation troisième, les élèves maîtres qualifiés moins une langue, par exemple Python, R et autres.

l'analyse des données de développement de carrière

Avant de combiner leur expérience de travail dans l'industrie financière, a dit une fois les données dans l'industrie Internet optimiste quant à l'évolution future des professionnels de l'analyse, en particulier divisé en quatre directions.

Tout d'abord, étudier la route. Exigences générales praticien doctorat des universités à l'étranger, une étude approfondie dans un domaine particulier, a été publié dans des revues top des documents liés à l'entreprise peuvent être labourage en profondeur un champ, comme la reconnaissance vocale. En général, les plus hauts niveaux de rémunération dans cette voie.

En second lieu, la route de l'algorithme. exige habituellement des praticiens de l'apprentissage machine algorithme classique en profondeur la compréhension et l'utilisation du langage de programmation spécifique, l'algorithme nécessite moins d'innovation, mais a besoin d'avoir une expérience en assistant et d'essais. Les étudiants peuvent exercer leurs compétences grâce à leur participation à la compétition.

En troisième lieu, la route du projet. En comparaison, la grande demande de cette voie, ce qui nécessite des praticiens d'avoir la capacité de développer, il y a des données de fond minier sera un avantage.

Quatrièmement, la route analyste de données. Ce cours met l'accent sur le praticien a une connaissance approfondie de l'entreprise spécifique, ainsi que des statistiques mathématiques, traitement de données SQL, utilisez Excel, les connaissances et le développement de compétences.

Quel que soit le choix de l'itinéraire n'est pas nécessaire dans tous les aspects en profondeur, tant que leur savoir-faire et les compétences de base, afin de se démarquer en application.

Wen: envoyer un groupe de recherche de données Hao smart center ville

la recherche de données d'envoi THU

données de recherche est d'envoyer des données à envoyer un groupe de réflexion, fondée en Septembre 2016, principalement des membres des étudiants de Tsinghua. La recherche de se concentrer sur les différentes directions de l'équipe du projet en tant que noyau (intérêts actuels comprennent: la technologie financière, grande technologie de données, ville intelligente, l'industrie 4.0, les soins de santé), grâce à la recherche et des entrevues accostant industrie, du monde universitaire grand café dans les grandes données des technologies clés sur la base des études de cas et la pratique d'explorer l'application et le développement de la voie de gros volumes de données, puis résumer les expériences et les modèles, les partis d'intégration de données pour aider les entreprises ou les institutions de recherche pour explorer la pratique de pointe dans le domaine, combiné avec communauté très active revigoré par la recherche la situation générale.

Les cambriolages au total dans le « rendez-vous au lendemain » objets de valeur ne récidiviste a pris pas oublier de prendre le long de la volaille
Précédent
Coupe des Confédérations finale - Allemagne 1-0 Chili remportant le premier championnat de but gagnant Shitingdeer
Prochain
Jingdong « Robot Restaurant » a ouvert une tête de pont « non » serment sur le terrain « plus de 95% du restaurant du monde »
Tsinghua Fédération de l'industrie Big Data a organisé avec succès le troisième Conseil
Il est le premier football chinois méchant! Feichan à plusieurs reprises bousculade, le nez de la volonté de l'aide étrangère en cinq Tiduan
Discussion sur la construction et le développement du centre des médias financiers comté du Sichuan route 95 comtés (urbain) se sont réunis à Zigong
« Maladie précurseur » des données biomédicales grandes - la « maladie » du diagnostic quantitatif
Université Enseignante retraitée exposition Dan Tian Ronggui Cherish le public pouces vers le haut
Wu Lei a ensuite choisi deux meilleure équipe! Deux avant partenaire de Dieu, menant 3-1 Messi
Deloitte a publié "Technology Fast 500"
Liu Pei Zhang Yang et d'autres hauts Vang Pao a conduit la comédie hilarante « oreilles de rake heureux de Tony Robinson Story » cérémonie de lancement
Best-seller du livre « cube de valeur » de lecture des données Tsinghua Enregistrement
Super Bowl de la femme a fini Chengdu, Dalian droit au sommet de la santé « Roi des Rois »
classe mondiale exclusive des connaissances Big Sommet des données SHW (c)