Data Analyst vs algorithme ingénieur, Python programmeurs comment choisir la naissance?

Auteur | Liu pour se lever tôt pour se lever tôt

Zebian | Tu Min

Épidémie dispersée bientôt, est allé à la saison de recherche d'emploi. Comment apprendre Python vous qui choisissent leur orientation de carrière, algorithme ingénieur ou analyste de données? Suivez le long de la voir!

acquisition et traitement des données

Les données d'échantillons recueillis dans le filet de crochet de traction, parce que l'objectif de cet article est l'analyse des données de recrutement, alors que dans l'article précédent, nous avons expliqué à plusieurs reprises comment utiliser les requêtes de données exploration du Web, ne pas les répéter ici, regardez les rampants du site une partie du code:

url_html = 'https://www.lagou.com/jobs/list_' + job_position + '? labelWords = & fromSearch = true & suginput =' params = { 'City': job_address, « Première »: « true » si je == 1 autre « faux », 'Pn': i, 'Kd': job_position} # Création d'un objet de la session s = requests.Session # L'envoi d'une demande pour obtenir les cookies s.get (url_html, les en-têtes des en-têtes =, data = params, timeout = 4) biscuit = s.cookies res = s.post (url_request, data = params, têtes = en-têtes, les cookies = cookies, timeout = 4) # Note Analyse acquisition de données de format de page res.encoding = res.apparent_encoding text = json.loads (res.text)

Cet article sélectionne les données originales à Beijing, Shanghai, Guangzhou, Shenzhen, Hangzhou, cinq villes, respectivement, les analystes de données, les ingénieurs algorithme de filtrage des critères à recueillir des échantillons recueillis après les travaux net crochet de traction dans:

Bien sûr, il ne faut pas besoin d'une analyse multivariée figure nous acheminant des données, les données après le nettoyage taille de l'échantillon final était 1979, et sélectionner ont été analysées les variables suivantes:

salaires

Tout d'abord, nous examinons les niveaux de salaires et répartition de la densité des analystes de données algorithme ingénieurs paient représentés graphiquement sur la densité de distribution figure de ces deux positions et marquer le salaire moyen (ligne brisée sur la figure).

La partie rouge de la densité de distribution des ingénieurs algorithme de paie, la partie bleue de la densité de distribution salaire analyste de données, on peut voir Que les ingénieurs analyste de données ou d'un algorithme, leurs salaires sont relativement élevés, Mais les ingénieurs algorithme de salaire sera plus élevé un peu, de la position des deux lignes en pointillés peut être vu L'ingénieur de l'algorithme de salaire moyen à 29,619 yuans de plus que 18,841 analystes de données de yuans! Il est à noter que ces deux salaires de postes a montré beaucoup plus en forme de pointe, ce qui indique qu'il ya une classe de salaire considérable des positions d'élite.

Entreprises Analyse de l'industrie

En faisant cette section le nuage de mot à publier dans le domaine des sociétés de recrutement appartenant / analyse des secteurs:

Le chiffre pour le champ de texte nuage de mot d'entreprise d'information appartient de communiquer les renseignements de recrutement / industrie tirée de la figure peut être vu de l'algorithme des analystes et ingénieurs données a une section plus grande industrie, appartiennent principalement à l'Internet mobile, liée au financement l'entreprise, mais les services de données des analystes de données, les fournisseurs d'électricité, la vie des consommateurs plus d'affaires et plus des algorithmes intelligence artificielle ingénieur entreprises connexes ont représenté, afin que les élèves veulent se livrer à des algorithmes d'intelligence artificielle emplois liés vont dans la direction pour le préparer.

L'impact de l'éducation sur les salaires

Dans cette section, nous utilisons une parcelle de case pour analyser l'impact de l'éducation sur le salaire:

La largeur de chaque boîte représente le nombre des travaux de l'enseignement dispensé par l'axe vertical représente le niveau des salaires, on peut le voir sur la figure, à la fois l'analyste de données ou d'un algorithme ingénieur, La plupart des emplois orientés objet pour étudiants de premier cycle. Et il est clair que les exigences de l'enseignement supérieur des ingénieurs de l'algorithme, les analystes de données il y a 33 postes nécessaires qualifications minimales pour les maîtres et les algorithmes requis par le Master ingénieur a 389 positions, et à noter: Près de 1000 emplois analyste de données avait pas d'exigences de doctorat et exigences de l'emploi algorithme ingénieur Dr. proportion supérieure à l'université junior. Donc, nous voulons engager dans des emplois connexes ou les premiers ingénieurs de l'algorithme s'efforcer d'améliorer l'éducation de celui-ci.

analyse des besoins en compétences

Nous avons extrait les données des analystes et ingénieurs algorithme de travail requis compétences / informations relatives à la langue (non seulement les besoins d'étiquettes pour extraire les exigences détaillées pour les compétences de la demande), de le visualiser

Vous pouvez voir l'analyste de données, la plus forte demande est SQL, suivi par le logiciel BI et SPSS liés aux données Hive et Hadoop et d'autres grands, bien qu'il existe Java, etc., mais la demande globale pour les langages de programmation n'est pas élevé, il convient de noter que seulement une entreprise a besoin des candidats utiliseront python (avec un seul a vraiment besoin d'une garantie amie contient Python). Regardez les ingénieurs de l'algorithme de droite, la plus forte demande pour la PNL, suivi de C / C ++, Python, JAVA, GO et d'autres langages de programmation ont, il convient de noter que certaines entreprises ont également besoin de comprendre quelques-uns des demandeurs d'emploi de connaissances liées au transport Linux dimensions.

un modèle de régression

L'analyse ci-dessus est à seulement quelques degrés par rapport à l'analyse descriptive, dans cette section, nous modèle de régression des divers facteurs qui influencent les salaires à quantifier, parce que l'original trop de variables multicolinéarité, donc nous avons choisi le modèle de régression composantes principales: extraction des composants principaux de chaque variable, le centre du traitement logarithmique variable, modèle de régression, et, enfin, la conversion de l'équation de régression composante principale de la première composante principale des variables initiales.

Analyste de données facteurs qui influent sur les coefficients de régression

Algorithme des facteurs de génie affectant les coefficients de régression

En comparant deux chiffres sont disponibles, que ce soit il est un analyste de données ou d'un algorithme d'ingénieurs ont des exigences élevées pour une expérience de travail, les ingénieurs de l'algorithme ont 3--5 années d'une expérience de travail considéré comme un « positif » pour les salaires des impact. D'autre part, les analystes de données SQL et Hive des exigences plus élevées requises par l'ingénieur algorithmique est Python et C / C ++, bien sûr, ce sont seulement des facteurs personnels qui affectent le niveau de rémunération de l'analyse, les facteurs de niveau de l'entreprise est laissée au lecteur intéressé faire.

L'analyse typologique

Dans cette section, nous Pour une compréhension plus détaillée de la répartition des deux postes au sein de l'industrie, notre algorithme de facteur d'impact pour les analystes et les ingénieurs données analyse typologique, les résultats de clustering sont résumés concluent que ces deux positions trois emplois typiques

Analyste de données trois positions typiques:

  • Statut Elite: Niveau besoin maître ou au-dessus, plus de cinq ans d'expérience professionnelle, à maîtriser une variété de langages de programmation, des salaires plus élevés

  • poste supérieur: Baccalauréat ou au-dessus, avec une certaine expérience de travail, à maîtriser un langage de programmation

  • Courrier ordinaire: comprendre les méthodes d'analyse de base pour comprendre le logiciel de base

Ingénieur algorithme de trois positions typiques:

  • Statut Elite: Niveau besoin maître ou au-dessus, plus de cinq ans d'expérience professionnelle, la PNL maître, Python, GO et d'autres, des salaires plus élevés

  • poste principal: maîtrise, plus de cinq ans d'expérience professionnelle, la maîtrise de la PNL avec un langage de programmation

  • Courrier ordinaire: baccalauréat ou plus, plus d'un an d'expérience de travail, le salaire est faible

analyse discriminante Fisher

Au-dessus ont fait beaucoup et est la modélisation de régression composante principale est le regroupement de cette section est à l'analyse discriminante, nous pouvons utiliser la méthode discriminante Fisher (avant que l'article a parlé oh) selon les conditions des demandeurs d'emploi sur l'un des un trois types de positions discriminent et substitués dans notre modèle peut estimer le salaire du demandeur, par exemple,

Demandeurs d'emploi:

  • Je veux appliquer l'analyste de données

  • Undergraduates

  • Il utilise SPSS, Mysql et comprendre quelques-unes des méthodes d'analyse des données

Utilisez ensuite la méthode discriminante Fisher peut déterminer si les candidats appartiennent à l'analyste de données d'emplois ordinaires, et peuvent tirer profit du modèle précédemment établi pour prédire le salaire est d'environ 5247 yuans, mais si le demandeur d'emploi peut apprendre Hadoop Hive et le salaire passera à 7144 yuans.

conclusion

D'après les résultats, les algorithmes des analystes et ingénieurs données sont tous des emplois relativement bien rémunérés, ce qui explique pourquoi ces deux positions de feu, bien qu'il existe quelques deux positions transversales, mais encore quelques différences, comme les deux positions langage de programmation besoin est pas la même chose. Et les ingénieurs de l'algorithme de mesure ont besoin d'un peu plus haut, mais la demande de l'expérience des analystes de données de travail ne demande pas des ingénieurs de l'algorithme. Donc, les demandeurs d'emploi peuvent aller à leur propre situation en compte.

Sur le python est utilisé ici (reptiles (demandes) Nettoyage de données (PANDAS) Modélisation (sklearn)) Echarts (dessin) R (plot (ggplot2) Densité de la figure, boxplots, modélisation) le SPSS (Modèle: analyse en composantes principales) il est également mentionné dans l'article précédent, d'apprendre l'utilisation intégrée d'une variété de langages de programmation.

Ce sont des mines et auteur analyse des rampants aux données de recrutement, bien sûr, en raison de la capacité limitée de l'auteur, et dans la modélisation du modèle précédent peuvent ignorer certaines variables clés ont conduit ne sont pas très précis, l'intérêt les lecteurs peuvent obtenir les données reconnaissants de répondre Job utilisé ici, une analyse plus approfondie -

Avertissement: Cet article est pour les échanges techniques d'interdire commerciale.

Java GC vu de nombreux articles, ces cinq questions que vous ne savent pas
Précédent
Trois opérateurs vont résoudre les anciens et nouveaux émettent des droits différents paquet utilisateur, la coopération avec Surchauffe vibrato, Git 2,26 | libération Geeks titres
Prochain
Comment changer la vie humaine dans l'interaction humaine-ordinateur | Million de personnes apprennent l'IA
A perdu 30 millions de dollars Bitcoins en espèces, car une carte SIM?
Le cahier détruit par Zuckerberg, caché tout le succès ou l'échec de Facebook
Congrès du Parti branche de SISHUI People « marque d'arbre pour mettre en valeur leur cur et l'âme pour aider à sortir de la pauvreté. »
« Chef-d'uvre » dans le centre-ville solitude
Wuhan dialogue en tant que bénévole français: médecine boisson protection renforcée, un bol de nouilles sèches à répondre
Plus de 900 personnes sont arrivés à Jingzhou, Hubei Dongguan, secrétaire du parti et l'accès maire site
Le premier voyage de retour aux travailleurs migrants Hubei retour au travail le train profond est arrivé! Point de livraison précis 169 employés
Train spécial G4368: train réusinage Hubei à destination du premier voyage dans le Guangdong
Australie épidémie mise à niveau: l'achat du supermarché j'ai mangé fast food pendant 14 jours, 20.000 étudiants étrangers médecine d'études ou de combat
Épidémie publique 60 jours d'observation: Shanghai et Shandong informé fréquemment, Guangdong cas importés en dehors de la fine piste
lumières waistline! Bienvenue à la maison héros Contagion