"Historique" Chronique de la puce du serveur Arm

Auteur : Winnie Shao

Réimprimé de Enterprise Storage Technology

Table des matières

1. Introduction

2 La première vague (2008-2013)

2.1 Départ 2008

2.1.1 Calxeda 2011

2.2 Computex2012

2.3 Marvell Armada XP 2013

2.4 Calxeda s'est effondré en 2013

3 La deuxième vague d'Armv8.0 (2011-2018)

3.1 AppliedMicro X-gène (2011)

3.1.1 eMAG-X-Gene32018

3.2 A1100 d'AMD (2012)

3.3 Cavium Thunder X 2014

3.4 Broadcom Vulcan ThunderX2

3.5Qualcomm 2017

3.6Samsung (2012-2014)

3.7 Projet Nvidia Denver 2011-2014

3.8 Balkans

3.9 Phytium

3.10 HiSilicon1616

3.11 Socionext

3.12 La fin du commentaire privé

4 La troisième vague de Neoverse

4.1 Huawei Kunpeng 920

4.2 AWSGraviton2

4.3 AmpèreQuickSilver 2019

4.4 Marvell ThunderX3

4.5 FujistuA64FX 2016

4.6 Autres nouveaux entrants

5 Résumé

6 Littérature

Il s'agit d'un matériau préparé pour le partage de technologie au sein de l'entreprise.Bien sûr, au sein de l'entreprise, si j'avais osé parler à partir de 2008, j'aurais été battu à mort il y a longtemps. De plus, le contenu de la NDA doit être légèrement omis.

Si je devais résumer mon parcours de devenir serveur Arm en une phrase, ce serait "le chemin de la route et du fil bleu, pour éclairer les montagnes et les forêts".

Clause de non-responsabilité : Opinion personnelle, ne représente aucune entreprise. Les données répertoriées dans l'article proviennent de l'actualité publique et de conférences.

Afin que tout le monde sache plus facilement qui je suis, je me donne une étiquette : une personne responsable de tout le chemin, du CPU PPT au cloud.

De plus : l'open source n'est pas gratuit, merci de récompenser consciemment l'auteur. ( Les amis qui donnent un pourboire à la fin de l'article soutiendront directement l'auteur, le Dr Winnie shao )

La première vague de serveurs Arm a commencé et s'est terminée avec une société appelée Calexda. Bien que je pense que l'annonce officielle de l'architecture Armv8 en 2011 est la fin du serveur 32 bits. Mais les hauts et les bas de la première vague ne sont pas aussi simples que 32bit et 64bit, il y a aussi un mot Microserver, micro serveur. C'était aussi une exploration conjointe de l'industrie à cette époque, y compris le camp x86. Techniquement et logique commerciale, tous les bons produits n'ont pas réussi sur le marché.

Un constat que j'ai personnellement obtenu : le marché des serveurs est un marché conservateur pour la stabilité, par opposition à un marché final actif.

En 2008, Arm a commencé à préparer des plans de serveur en interne. Quand le cur bouge, Arm a participé à l'investissement dans une start-up appelée Smooth Stone à l'époque, qui a ensuite été rebaptisée Calxeda. L'investissement total du premier tour à ce moment-là était de 48 millions de dollars.

L'objectif initial de Calxeda était de réduire la consommation énergétique des centres de données et d'augmenter la densité de la puissance de calcul dans un même espace. Veuillez garder ces deux objectifs à l'esprit.Pour le moment, notre intention initiale reste la même.

Les produits Cortex-A8 étaient toujours sur le marché cette année-là, et les produits basés sur le premier cortex-A9 multicur n'étaient sur le marché que trois ans plus tard. (Cela me manque l'époque lente où un produit n'est sorti qu'en 2 ou 3 ans).

À cette époque, le Xeon d'Intel était encore à 4 curs, bien sûr, la fréquence principale était déjà de 3,x Ghz, et le processeur Opteron 45 nm d'AMD venait d'être lancé.

Cette année-là, IBM vient d'annoncer la gamme de produits Power, qui comptait jusqu'à 64 curs.

Apple a sorti l'iPhone 3G, l'iPhone 2. (Oui, c'était encore l'ère de la 3G.)

Le processus principal de TSMC est de 40 nm, avec un revenu annuel de 10 milliards de dollars.

Je fais également du NP3 dans une entreprise appelée EZchip, où NP n'est pas un processeur neuronal mais un processeur réseau. C'était une époque de grands processeurs de réseau, et je peux en nommer une longue liste, mais ils sont tous morts maintenant. De manière discrète, en fait, la partie dans laquelle je suis le meilleur est le TM-Traffic Manager et pas seulement la partie processeur, qui est également la caractéristique la plus importante de cette société israélienne de plus de 100 personnes (environ 60 millions de dollars de revenus annuels). J'omets quelques mots ici, mais en réalité, je peux parler d'une semaine de formation par moi-même, du genre qui coûte des dollars américains.

2.1.1 Calxeda 2011

En 2010, Smooth Stone a officiellement changé son nom en Calxeda et a déménagé son siège social à Austin.

En 2011, Calxeda a sorti sa puce basée sur l'EnergyCore ECX-1000 de l'A9.

Figure 2.1 Architecture CalexdaEnergyCore

Il s'agit en fait d'une conception qui mérite d'être examinée de plus près.Le module processeur composé de cortex-a9 à 4 curs est tout à fait satisfaisant, et la partie contrôleurs d'E / S est également une interface conventionnelle (l'interface conventionnelle n'est pas facile, le cur de un bon produit est la partie conventionnelle. au meilleur de l'industrie). Mais le moteur de gestion et la partie Fabric Switch est une technologie très innovante.

EnergyCore Fabric est un commutateur L2 intégré prenant en charge le maillage, l'arbre papillon, la topologie 2D Torus, la bande passante entre les ports virtuels peut être allouée selon différentes spécifications de 1 Gb/s, 2,5 Gb/s, 5 Gb/s, cur 10 Gb/s . Grâce à lui, le nud serveur peut former un réseau par lui-même, sans avoir à passer par le commutateur du haut, il y a donc 4 puces sur une plaque de Calexda, soit 16 curs. Il existe donc des systèmes de serveurs qui peuvent avoir jusqu'à 480 curs.

Ce concept de conception est raisonnable. Si vous concevez une puce de serveur à très faible coût, mais que le réseau de support est toujours coûteux, la conception à haute densité ne fera qu'augmenter le coût. Cette structure peut connecter 1024 cartes système, c'est-à-dire 4096 puces avec des interfaces réseau 10G, et les intégrer dans un système.

EnergyCore ManagementEngine est un BMC intégré, prend en charge IMP2.0 et DCMI, et prend également en charge le protocole SoL de débogage à distance. La partie la plus puissante du moteur de gestion est la gestion de l'alimentation.La consommation d'énergie de la puce serveur de Calexda peut être ajustée dynamiquement de 4w à 1w.

Le coût de fabrication par nud est d'environ 28 $.

Figure 2.2 Carte système Calexda avec 4 nuds

En 2011, j'ai rejoint Arm Network Marketing. À cette époque, j'ai prêté attention à l'ARMCortex-A15 à 16 curs LSI Axxia AXM5500, qui était encore au stade de la conception, à la série QorIQ Layerscape de Freescale, à KeyStone de TI et à la série hixxxx de HiSilicon. C'était une époque où Arm explosait dans le réseau marché. . Mais bientôt, un an plus tard, j'ai suivi le patron de l'époque, une beauté indienne senior au tempérament de star de cinéma, pour passer du marché en ligne au marché des serveurs. Depuis lors, je me suis consacré sans réserve au marché des serveurs et construction écologique.

En 2009, une présentation publique à Taipei était le premier effort pour présenter le serveur au public. Se tenir avec lui est

Ubuntu

(l'écologie logicielle est un sujet important, cet article se concentre principalement sur la puce, la conception matérielle du système et les sujets logiciels seront abordés séparément). il a cité

lesdites valeurs.

En ce qui concerne les serveurs Arm, Ian Ferguson doit avoir un nom (il m'a appris la phrase la plus élémentaire du travail de marketing, "Allez-vous rapporter des nouvelles ou faire des nouvelles ?", maintenant je suis également prêt à dire avec mon amis, venez Venez, faisons les choses ensemble.) Comme il l'a dit lors de la conférence, dès le premier jour, Arm a l'intention d'examiner le marché des serveurs, toute l'industrie est pleine de scepticisme. Non seulement douter de sa réussite, mais même à la racine, douter de la motivation.

Je ne suis pas pressé de répondre à ces questions, si vous avez la patience de lire jusqu'au bout, tout aura ses propres réponses.

Dans la première vague de serveurs, la série quadricur Marvell Armada XP est également à mentionner. Et le noyau ici n'est ni A9 ni A15, mais le noyau personnalisé de Marvell.

C'est aussi grâce à Armada que j'ai une réponse très familière à ce qu'est l'autorisation d'architecture.

Figure 2.3 Marvell Armada XP

Ce SoC hautement intégré et basse consommation est idéal pour les applications de stockage. Avec cela comme noyau, Dell a produit le système de serveur bras "Copper". Baidu l'a également utilisé. Il s'agit du premier cas d'un serveur Arm dans une société Internet.

Si Calxeda peut lever le troisième tour d'investissement, alors selon les panneaux de signalisation suivants, une puce A15 sera produite en série immédiatement et deux puces Armv8 sont prévues. Malheureusement, l'effort de collecte de fonds a échoué. Calxeda a été créée de 2008 à 2013 avec un investissement total de 103 millions de dollars (48 millions de dollars en 2010 et 55 millions de dollars en 2012) et un total de 130 employés.

L'émergence des serveurs Arm, "l'industrie sera transformée à jamais". A partir de maintenant, oui.

Figure 2.4 Panneau routier de Calxeda

des analystes disent qu'ils sont

Annoncé en 2010, le plan annoncé, en fait, la deuxième vague de la vague des serveurs a déjà commencé.

L'effondrement de Calxeda marque la fin du premier tour.

Bien que sous le nom littéraire de Chronicle, je souhaite l'écrire sous la forme d'un article d'analyse technique, axé sur les caractéristiques et l'évolution des puces de serveur Arm, sans expliquer pourquoi cette entreprise réussit et cette entreprise échoue. En fait, une analyse de produit est facile à faire, et le succès ou l'échec d'une entreprise est vraiment affecté par des facteurs accidentels.

Les trois mots clés de la deuxième vague sont le noyau auto-développé (noyau personnalisé), les performances grand public et la conception standard. Au cours des premières années du serveur Arm, les sociétés de conception de puces venaient de différents domaines et chacune livrait ses propres produits avec sa propre compréhension des puces CPU du serveur. Je me concentre sur le X-gene d'APM, le ThunderX de Cavium et le Centriq 2400 de Qualcomm. En même temps, nous essayons également de donner à tous les autres jetons un indice pour ceux qui sont intéressés à approfondir.

J'ai créé une feuille Excel et essayé de comparer tous les SoC de serveur, y compris la taille de l'entreprise, les investissements et les ressources humaines dépensées. Avoir une chance de communiquer hors ligne.

Un paragraphe de plus, car à cette période de l'histoire, les curs auto-développés étaient majoritaires, et le débat sur l'architecture et l'ISA s'est poursuivi, je ne veux pas m'étendre, car ce serait hors sujet. J'ai appris un mot d'une grosse vache qui fait du cloud privé, "l'avantage cumulatif", faire du CPU, de l'ISA et de la puce est en fait un avantage cumulatif lent. Au fil des ans, j'ai pris les besoins, les cas et les données de test du client, et je me suis rendu en toute confiance au siège de l'entreprise pour trouver un architecte ou un chef de produit, demandé de modifier la conception et ajouté des instructions (oui, je m'en soucie toujours) , le résultat Quoi ? Je ne peux pas dire que je n'ai pas réussi une seule fois, mais mon architecte et mon chef de produit sont tous deux des rôles impitoyables, et ils échouent rarement dans des données et des cas d'application concurrents.

De plus, Hock Tang doit mentionner que cette personne est simplement une épine dans le chemin du développement du serveur Arm et de ma carrière, un homme qui a pris le double kill et le double kill. Il a d'abord acquis Broadcom, vendu le projet de puce serveur, puis a proposé d'acquérir Qualcomm.Afin de se protéger, la direction de Qualcomm a proposé de réduire 1 milliard de dépenses annuelles, il a donc interrompu tous les projets d'investissement à long terme et le bon fonctionnement projet de serveur vient de poser le pistolet.

En octobre 2011, à peu près au même moment où Arm a annoncé pour la première fois l'architecture ARMv8, Applied Micro a annoncé ses plans d'auto-architecture x-gene (la grande nouvelle concernait les principaux clients).

Si vous lisiez les nouvelles à cette époque, vous auriez remarqué le concept de SoC, bien sûr maintenant, le concept de SoC n'a pas besoin d'être expliqué. À ce moment-là, il faut encore souligner que SoC est égal à la conception intégrée de puce + chipset.

La première génération de X-gene est composée de 8 curs auto-développés-Storm, et les deux curs partagent un cache L2 de 256 Ko, ce qui est différent des 4 curs et d'un cluster d'Arm. Dans le chapitre suivant, le processeur Opteron A1100 d'AMD, nommé Seattle, n'utilisait pas un cluster de 4 Cortex-A57 et une conception de deux clusters, mais une conception de 2 A57 et 4 clusters. Les deux A57 de l'A1100 d'AMD partagent 1 Mo de cache L2, soit 4 fois plus grand que X-gene. Cependant, le noyau auto-développé de X-gene, Storm, a 4 problèmes, et l'A57 est toujours au point idéal du ratio d'efficacité énergétique de 3 problèmes.

Figure 3.1 Spécification X-Gene de l'APM

Figure 3.2 Feuille de route du produit X-Gene d'APM

Désormais, même les processeurs de téléphones mobiles vont rencontrer des problèmes 6. De ce point de vue, les curs auto-développés sont toujours une bonne arme pour montrer leurs idées sur le développement de l'industrie.

X-gene possède 8 curs et est équipé de 4 canaux mémoire, ce qui est également un rapport CPU/mémoire rare dans le camp x86. Et il intègre 2 cartes réseau 10G et prend en charge RoCE, ce qui est un avantage du SoC.

Les paramètres de consommation d'énergie donnés par les données officielles d'Applied Micro, état de pleine charge, 2 watts pour un cur, état de veille, seulement 0,5w.

Figure 3.2 Diagramme de cadre de X-Gene

La partie qui m'a le plus impressionné dans la conception X-Gene est le MSLIM, qui est un petit groupe de 4 processeurs A5 qui fournit une accélération. Je ne sais pas s'il y a des clients qui utilisent ce groupe de processeurs, et je ne connais pas la philosophie de conception de l'année.

De la conception au produit fini, combien de conceptions sont ignorées par les clients et combien de conceptions sont entre les mains de clients aux performances extraordinaires, je pense que les architectes se sentiront également confus, et il existe de nombreuses incertitudes dans le monde de l'ingénierie.

Figure 3.3 Filière X-Gene

Figure 3.4 Module CPU X-Gene

Il n'y a pas d'informations complètes, mais il existe des informations sur le module processeur. Chaque module de processeur, il y a un partage, sous la technologie,

mm², transistors 84M. Avec cette taille, j'estime que la matrice entière est de 300 mm

Anandtech avait une fois un rapport d'évaluation très détaillé et assez négatif. Le sens central est qu'il n'est pas encore mature, et les avantages du rapport performance et efficacité énergétique ne sont pas évidents. Il teste le système moonshot de HPE.Les documents officiels de HPE ont une évaluation élevée de X-gene, car X-gene est la première puce de serveur Arm 64 bits produite en série.Les premiers partenaires logiciels ont tous utilisé son système d'origine.

Quand j'ai connu Applied Micro-APM, ça s'appelait AMCC. L'équipe AMCC est l'une des rares équipes de vétérans de la Silicon Valley à faire des processeurs, mais elle fait du PowerPC. Cela ne s'est pas bien passé sur la route multicur, alors je suis passé à Arm et j'ai recommencé. Probablement parce qu'il s'agit d'une équipe de conception de processeurs chevronnée, ils ont choisi l'autorisation d'architecture la plus difficile et l'itinéraire de base auto-développé dès qu'ils ont commencé. Une fois, je me suis disputé avec un collègue à ce sujet au point de rougir et de lui dire, je me lève en tant qu'homme, et quand je tombe, je suis toujours un homme. Mon collègue, un homme de sexe masculin, a ri avec colère et a dit, OK, OK, vous êtes un homme.

X-gene2 est à peu près la mise en uvre en tique de 28 nm de X-gene1, omise.

3.1.1 eMAG-X-Gene32018

J'ai longtemps hésité, ne sachant pas s'il fallait classer cet Ampère repensé eMAG comme la queue de la deuxième vague ou le début de la troisième vague. Selon la conception originale du noyau, il s'agit toujours de la deuxième vague de queues.

Figure 3.5 Ampère eMAG

Figure 3.6 Avantages du produit Ampère

Le prix catalogue pour 32 curs est de 850 $, un prix relativement très compétitif. Le diagramme de cadre semble familier et n'est pas analysé.

Figure 3.6 Diagramme de trame Ampere eMag

Un an après le lancement de l'architecture Armv8, Arm a lancé deux produits de la série cortex-A5x, A57 et A53.Selon la pratique internationale, un partenaire lourd a fait ses débuts avec Arm lors de la conférence, AMD.

Ce code interne s'appelle Seattle, qui appartient à la série Opteron, et le nom officiel du produit derrière est la puce A1100, qui est maintenant un produit introuvable dans l'histoire des produits de la gamme principale d'AMD.

AMD a mis longtemps à expliquer pourquoi il fabriquait des serveurs Arm, comment positionner les gammes de produits internes x86 et Arm de l'entreprise, et a même lancé le K12 (2015), qui n'a fait l'actualité que pour stabiliser les soupçons du monde extérieur.

Si nous regardons en arrière en 2012, il y a un terme qui ne peut être ignoré, "microserver", et à cette époque, AMD vient d'acheter SeaMicro, une société qui construit des systèmes haute densité et basse consommation autour de Freedom Fabric. Ce tissu, à très haute densité et à faible consommation d'énergie, vous semble familier ? La voie de Calexda. La figure ci-dessous montre la taille de 10U, avec un total de 768 processeurs, dont quatre commutateurs GE et un équilibreur de charge.

Figure 3.7 Système Calexda 10U

Sous une telle conception de système, avec un processeur Arm ultra basse consommation, est-ce plus raisonnable ? Par conséquent, choisir le noyau standard Cortex-A57 d'Arm, raccourcir le temps de développement et réduire les coûts de développement, est également une chose logique, le tout dans une logique raisonnable.

Les informations sur le Cortex-A57 sont partout dans le monde, je ne les énumérerai donc pas ici. Comme mentionné dans le chapitre précédent, AMD a choisi la configuration de cluster 2 curs 4 au lieu du cluster 4 curs 2 couramment utilisé dans les points d'accès de téléphonie mobile. Quel est l'avantage, faites-en l'expérience par vous-même.

Le prix catalogue de cette puce est de 150 $, ce qui est également très mortel.

Figure 3.8 Diagramme de châssis AMD Opteron A1100

Figure 3.9 Plan d'étage AMD Opteron A1100

Dans un sens, AMD, le Seattle, est inclus dans la deuxième vague. Sa théorie de la conception est complètement de première vague. K12 est la deuxième vague.

Mais en regardant l'objectif de conception de K12, dans le cadre d'AMD, pourquoi voulons-nous faire Arm, naturellement c'est x86. L'homme Jim Keller était à l'origine associé à K12. Mais... , cet homme indiscipliné.

La réponse d'Intel à cette vague est le "Xeon-D" 14 nm.

Dans une certaine mesure, le ThunderX à 48 curs de Cavium est le produit qui a vraiment lancé la deuxième vague de serveurs Arm. Il possède toutes les caractéristiques d'une puce de serveur grand public, telles que les doubles sockets et les performances.

En tant qu'entreprise qui ne représente que 1/10 de la taille d'AMD, Cavium a la capacité de concevoir très tôt des processeurs ultra-multicurs, mais c'était auparavant le traitement d'applications réseau MIPS.

Bien qu'il n'y ait que 2 problèmes de curs auto-développés, les performances monocur sont faibles. Mais la conception globale du SoC, en particulier la conception multicanal, est excellente. Et en raison de l'accumulation de processeurs réseau, le moteur d'accélération et l'interface IO de cette puce sont très riches.

De plus, afin de réduire la consommation d'énergie, le moteur d'accélération peut être désactivé de manière sélective et devenir 4 configurations différentes : version cloud computing, version stockage, version opérateur et version sécurité.

Figure 3.10 Diagramme du cadre Cavium ThunderX

Anandtech a un très bon test de performance pour aider à comprendre le Cavium ThunderX.

C'est une section très déroutante. Si vous dites Broadcom Vulcan, c'est vers 2016. Si le Thunder X2 de Cavium est un produit 2018. Puis il est rapidement devenu le ThunderX2 de Marvell. C'était à l'origine un produit prévu en même temps, mais du coup, toutes sortes de rebondissements sont bizarres deux en un. Parfois, je ne crois pas qu'il y ait autant d'histoires dramatiques dans notre industrie.

En parlant de cela, l'équipe de conception de processeurs de Broadcom de RMI et l'équipe de conception de processeurs de Cavium ont beaucoup en commun. Mais contrairement à Cavium, qui fait toujours 2 petits curs, l'équipe Broadcom a été douée pour le multithreading dès le début. Par conséquent, lors de la planification, Vulcain est un 4 fils contre le ciel. À l'heure actuelle, dans le camp ARM, il n'y a pas encore de processeur multithread.

L'objectif de conception initial était, cur, thread par cur, de prendre en charge les systèmes doubles. Après l'acquisition, il n'a pas été divulgué.

La configuration la plus élevée CN9980, 32 curs, 2,5 Ghz, TDP 200 W. Le CN99802,2 Ghz, 180 W est au prix de 1795 $, tandis que le CN996016 curs, 1,6 Ghz, 75 W est au prix de 800 $

Et son marché cible, ou le gain de conception visible, est concentré sur le marché HPC.

Figure 3.11 Schéma de trame de ThunderX2

Figure 3.12 Disposition ThunderX 2

Figure 3.13 Interface E/S ThunderX2

La même semaine que Qualcomm a lancé le Centriq 240010 nm à 48 curs, anciennement nommé « Amberwing », sur le marché en 2017, Qualcomm a reçu une offre de rachat de 130 $ de Broadcom.

On estime que ce Centriq 2400, qui a duré 4 ans, a coûté 100 à 125 M$, avec l'apport de plusieurs centaines d'ingénieurs. Au cours de la période, Qualcomm a également fabriqué un Centric 1200 à 24 curs comme prototype de test.

Centriq 2400 a des transistors 18B,

, le processus 10 nm de Samsung, beaucoup plus petit que le tonnerreX2. Bien qu'il s'agisse d'un processeur mono-P, ce n'est pas un problème pour le développement de serveurs multi-générations au fil des années.

Illustration 3.14 Centriq 2400

Figure 3.15 Comparaison de la microarchitecture du Centriq 2400

Figure 3.16 Diagramme de châssis du Centriq2400

Cette puce, née avec la clé d'or, est allée jusqu'à l'enregistrement, jusqu'à ce que le cygne noir nommé Hock Tang apparaisse.

D'après le tableau des prix et de la consommation d'énergie, le prix de Centriq2400 est fondamentalement le même que celui de ThunderX2.

Le nom du noyau du processeur de Centriq 2400 est le noyau auto-développé de "Falkor". Jusqu'à 2,6 GHz, il s'agit du cur auto-développé de cinquième génération de Qualcomm. Si quoi que ce soit, le noyau de nouvelle génération est "Saphira" et le nom de la puce est "Firetail". Mais ensuite, Qualcomm a annulé le projet de puce de serveur, marquant la fin de la deuxième vague de serveurs Arm.

Une fois la ligne principale écrite, la ligne secondaire doit également être écrite.

L'histoire du serveur Arm de Samsung est connue de peu de personnes en Chine, mais elle a été publiée dans le Wall Street Journal. Samsung ne l'a jamais annoncé officiellement, quand tout le projet a commencé, tout le monde devinait, et quand il a été détruit, tout le monde n'était que rumeur.

En 2007, Samsung a investi 3,5 milliards de dollars pour construire une usine à Austin. En 2010, le Samsung Austin Research Center a été créé, et il a commencé à recruter des ingénieurs en conception de puces, puis a recruté un vice-président d'AMD pour être le vice-président d'Austin. Tout le monde suppose que les puces de serveur sont également dans les plans du centre de recherche d'Austin.

En fait, la logique de l'entrée de Samsung dans la conception de SoC pour serveurs peut être très proche de celle de Qualcomm, mais à cette époque, Qualcomm avait le soutien du PDG, et cela s'est malheureusement terminé, et la branche américaine d'une société coréenne voulait soutenir la conception d'une grande puce de serveur.Comment difficile peut être imaginé.

Nvidia est une entreprise que je respecte beaucoup et l'une des rares entreprises de la Silicon Valley à avoir encore un fondateur en tant que PDG. Mais ce chapitre, j'ai écrit plusieurs fois, ne peut pas écrire. Il est probable que Nvidia soit toujours une entreprise basée sur le GPU, et sa logique de développement CPU appartient au type de planification orientée application.

C'est un chemin de Tegra à Carmel, intégrant des processeurs Arm dans des puces à fonctions complexes. En fait, cela ressemble plus au chemin de planification des puces de la société système. Parce que cet article se concentre sur l'analyse des puces de serveur à usage général, sinon la gamme de produits de Nvidia mérite certainement une analyse complète du chapitre.

Figure 3.17 Unité centrale Tegra Arm

Illustration 3.18 Eegra K1

Figure 3.19 Processeur Carmel

La première puce 28n de Russie, la BE-M1000, ne devrait pas appartenir à la catégorie des serveurs, mais elle couvre les postes de travail. Cette société de puces, comme le japonais Fujitsu et le chinois Feiteng, est issue de projets de supercalcul, opère de manière indépendante et accorde plus d'attention au succès commercial.

J'ai vu les panneaux de signalisation super forts qu'ils avaient prévus. Cependant, du panneau de signalisation à l'atterrissage du produit, il y a trop de variables dans les trois à cinq années intermédiaires, de sorte que le vent et les nuages se sont beaucoup dissipés.

Lorsqu'il s'agit de fabriquer des puces, c'est la force traditionnelle des camarades de calcul intensif. Le SoC serveur mentionné ci-dessus provient en fait de la promotion du marché du supercalcul. Plus tard, je parlerai de l'Europe, les camarades européens ont également commencé à travailler dur pour fabriquer eux-mêmes des puces.

Illustration 3.20 Balkal BE-M1000

Les informations publiques sur les puces de Feiteng proviennent de hotchips 2015. Le dernier panneau routier a été partagé publiquement par Dou Qiang, directeur général de Feiteng le 19 décembre 2019.

ne sera pas élargi.

Le 1616 de HiSilicon est le prédécesseur du Kunpeng 920, une génération relativement discrète. Il n'y a pas d'introduction sur le site officiel de Huawei. Je ne mets aucune information en ligne non plus.

En ce qui concerne Haisi, je pense qu'il est possible d'écrire un livre épique dans le style de "Those Things in the Ming Dynasty", et d'ajouter une biographie de "Haisi Heroes" en post-biographie. Un étudiant en arts libéraux ne peut pas écrire une entreprise comme HiSilicon, c'est comme un jeune littéraire et artistique comme moi. Tout est prêt, il n'y a que deux choses à faire, l'une est les frais de manuscrit prépayés du service de publicité de HiSilicon, et bien sûr, le financement participatif des internautes peut également être envisagé, et l'autre est d'attendre que je prenne ma retraite.

Le "SynQuacer" SC2A11 de Socionext est probablement la seule puce Cortex-A53 à 24 curs, n'est-ce pas ?

Figure 3.21 Schéma fonctionnel du Socionext SC2A11

Pour cette puce, non seulement la puce, mais aussi la conception du système.

Figure 3.22 Système serveur Socionext SC2A11

Ce système à petit cur et à haute densité semble similaire, n'est-ce pas ? conception de cette époque.

Ces dernières années, de 2012 à 2014, j'ai pris l'avion pour Taïwan pour vomir du sang. J'ai trouvé une copie de cette époque sur mon disque dur. À cette époque, il y avait un dicton dans l'industrie taïwanaise selon lequel le modèle ODM Direct réécrivait l'écologie de la chaîne industrielle. Le modèle ODM Direct est en effet debout, mais les plus forts de l'écosystème ne sont pas les ODM, mais les utilisateurs finaux, ces Hyperscales qui disent que nous pouvons tout contrôler, du réseau électrique à la porte.

La deuxième vague est menée par l'industrie des semi-conducteurs et les fabricants de systèmes, de sorte que la troisième vague est lorsque les utilisateurs finaux partent en mer pour faire des vagues.

Drew Henry (recommandé de lire son profil sur Linkedin, un modèle de CV de direction) est un homme qui veut aussi laisser un nom dans l'histoire des serveurs Arm. Un an après avoir rejoint Arm, chez Arm Tech en octobre 2018, il a annoncé qu'Arm avait sa propre marque (Neoverse) sur le marché des infrastructures et Bing a annoncé une feuille de route pour chaque génération, avec une augmentation de 30% à chaque génération.

C'est le début de la troisième vague, juste en eau profonde encore, à cette époque, le monde était encore calme.

Et je me souviens encore du travail trivial pour assembler les logos des grandes entreprises lors de la conférence de presse, ainsi que du soutien fort de mes partenaires.

Figure 4.1 Panneau de signalisation Arm NEOVERSE

Le 7 janvier 2019, Xu Wenwei, connu sous le nom de Da Xu, a sorti le Kunpeng 920.

Je ne mets que des photos publiques qui me paraissent importantes, c'est à vous de décider comment les interpréter.

Il s'agit d'un produit de classe mondiale, quel que soit l'aspect, y compris la chaleur de l'attention.

Figure 4.2 Le lancement du Kunpeng 920

Figure 4.4 Schéma d'interconnexion du Kunpeng 9204P

Figure 4.5 Graviton1 et Graviton2

Même en novembre 2018, AWS a publié Graviton et a appelé cette puce artisanale à 16 cortex A72 avec Neoverse. Le monde n'est pas choqué. En y regardant maintenant, l'A72 à 16 curs 16 nm @ 2,3 GHz ressemble plus à un test de l'eau.

En particulier, regardez la version AWS 2017 de la puce Nitro, qui a également été développée par l'équipe de la startup israélienne Annapurna Labs, qu'elle a acquise en 2015.

Mais cette année est un produit incroyable. Le processus de nucléaire, ,, devrait vraisemblablement être en

300-350mm²

, l'annonce officielle est supérieure aux performances du processeur de génération, ainsi qu'à une bande passante réseau élevée et à une bande passante optimisée.

Figure 4.6 Processeur SPEC 2017

Figure 4.7 EC2 pris en charge par AWS Graviton2

Suite à la tendance positive du graviton d'AWS, Ampere a révélé le plan de nouvelle génération pour le code N1 à 80 curs de 7 nm nommé QuickSilver. Le plus accrocheur est que la nouvelle puce prend en charge la configuration de 2 sockets, grâce aux efforts de Arm mesh IP (CMN-600) dans CCIX.

Figure 4.8 Feuille de route du produit Ampère

En plus de la conception N1 à 80 curs qui fait que les gens se sentent beaux, QuickSilver a une configuration luxueuse telle que 128 voies PCIe4. C'est également le partenaire principal de CUDA-on-ARM de Nividia.

C'est la puce que j'attends le plus en 2020. Après tout, je peux l'acheter, le graviton d'AWS ne peut acheter que des services cloud.

Suite à la popularité d'AWS, non seulement Ampere mais aussi notre ancienne société Marvell ont annoncé leurs plans de nouvelle génération, nous savons donc que le nom du cur auto-développé du processeur ThunderX3 est "Triton", et nous avons vu une génération tous les deux ans , tous les deux ans Une feuille de route produit solide qui double les performances de la prochaine génération.

Figure 4.9 Panneau routier ThunderX

Figure 4.10 Partie améliorée de ThunderX3

Le favori est le dernier. Mon collègue, en discutant du choix de la mémoire avec un partenaire, a dit "entre haut débit, grande capacité et pas cher, vous ne pouvez en choisir que deux", cette phrase est très philosophique, s'il y en a les trois, il y a des plans qui peuvent être pris en compte compte, et tout le monde ne sera pas empêtré. Il y a des enchevêtrements et il doit y avoir des choix difficiles. Personnellement, je préfère le plan "pas de problème sauf cher", mais rassurez-vous, je ne révélerai jamais cette préférence personnelle lorsque je le recommanderai à un partenaire.

L'A64FX de Fujitsu n'est pas réellement une puce de serveur, il est utilisé pour le supercalcul.

En 2016, arm a annoncé l'extension du jeu d'instructions d'ArmV8 SVE- Scalable Vector Extension, une pratique internationale, un gros client sortira sur la plate-forme, il s'agit de Fujistu-Fujitsu, son Post-K, qui aurait pris 1,24 milliard de dollars de fonds publics japonais Comptez le projet, utilisera l'architecture Arm, pas leur SPARC précédent. Et l'A64FX est le premier processeur Arm à prendre en charge SVE.

Figure 4.11 Niveau de cache et vitesse d'A64FX

En 2018, Fujitsu a publiquement présenté la puce A64FX sur les hotchips. Regardez d'abord les paramètres durs: 8,8 milliards de transistors (ce n'est pas beaucoup, AWS Graviton2 a 30B), 7 nm. 48 curs auto-développés plus 4 curs de gestion homogènes sont en fait 4 clusters de processeurs, chacun avec 13 curs. L'interconnexion inter-cur est un réseau sur puce TOFU-6D maillé / tore de deuxième génération auto-développé (le TOFU de première génération a une très bonne réputation), avec 32 Go HBM2 (configuration super luxueuse), 16 voies PCIe 3.0 (ce n'est pas trop, on estime que je ne veux connecter aucun périphérique), une bande passante de stockage de 1024 Go/s, des performances de 2,7 TFLOPS @ 64 bits, 21,6 TFLOPS @ 8 bits. Nvidia Tesla P4 et P40 sont respectivement 22 TFlops et 47TFLOPS à des entiers de 8 bits, ce qui est tout à fait une correspondance.

Le niveau de cache d'A64FX a un débit élevé, un pipeline d'exécution, une gestion de l'alimentation et un RAS. Si vous êtes intéressé, vous pouvez lire la documentation de hotchips.

Figure 4.12 Plan d'étage de l'A64FX

Figure 4.13 Nud Fugaku (refroidi par liquide)

Les performances puissantes de l'A64FX ne peuvent pas être combinées avec le GPU, c'est pourquoi Cray travaille avec Fujitsu pour transformer l'A64FX en clusters CS500 et en futurs systèmes Shasta.

En novembre 2019, une startup appelée Nuvia a fait surface lors de la conférence SC. Le fond du fondateur de l'entreprise, le procès d'Apple, a immédiatement fait la une des journaux. Avant qu'il n'y ait plus de produits, souvenons-nous de leur slogan "fournir des performances et une efficacité énergétique de pointe pour le centre de données".

L'European Processor Alliance-EPI (https://www.european-processor-initiative.eu/project/epi/) en Europe est également un effort pour concevoir des processeurs de classe serveur. Pas grand chose à dire, regardez les panneaux de signalisation.

Figure 4.11 Feuille de route du PEV

Lorsque j'essayais de répondre pourquoi Arm ferait un serveur, tout ce à quoi je pouvais penser était les cinq mots "productivité avancée". Qu'est-ce que la productivité avancée, Frank Frankovsky, vice-président de la conception matérielle et des opérations de la chaîne d'approvisionnement de Facebook, est également un homme avec un nom. Il a proposé le travail le plus utile par watt par dollar. La puissance de calcul réelle pouvant être utilisée divisée par le coût d'achat d'un serveur et le coût d'électricité de fonctionnement d'un serveur est la productivité représentative du serveur.Cette valeur marque le caractère avancé.

Pour étendre, pour les gens de la chaîne de l'industrie, c'est le travail utile total par investissement total, fournissant une puissance de calcul utile divisée par l'investissement total (le temps, la sagesse et l'effort des ingénieurs), et c'est la productivité de cette technologie/solution /ISA/product Est-ce un indicateur avancé. C'est aussi un fil noir dans mon écriture de cette chronique, combien d'entrées, combien de sorties apporteront la troisième vague.

Les forces productives vraiment avancées appartiennent au monde entier et sont le résultat des efforts conjoints du monde entier.

Les produits avancés sont des lignes de code, accumulées une par une plaquette.

Je vous souhaite à tous bonne chance en 2020.

1. https://techcrunch.com/2010/11/15/smooth-stone-renamed-calxeda/

2. https://www.nextplatform.com/2019/12/10/looking-ahead-to-marvells-future-thunderx-processors/

3. Présentation des serveurs ARM : Ian Ferguson et Mark Shuttleworth au Computex 2012 https://www.youtube.com/watch?v=LhZ2SOdjLK0

4. https://www.lightwaveonline.com/network-design/packet-transport/article/16663424/ezchip-samples-np3-npu

5. https://people.ucsc.edu/~warner/Bufs/NP-3.pdf

6. https://llvm.org/pubs/2006-01-LabrecqueMSThesis.pdf

7. https://www.networkworld.com/article/2171235/arm-servers-with-64-bit-calxeda-chips-to-ship-next-year.html

8. https://www.datacenterknowledge.com/archives/2014/12/26/taiwanese-firm-buys-defunct-calxedas-arm-server-ip

9. https://www.tsmc.com/download/ir/annualReports/2008_Business_Overview_E.pdf

10.

11. https://www.arm.com/company/news/2018/10/announcing-arm-neoverse

12. https://www.linkedin.com/in/drewhenry/

13. https://aws.amazon.com/ec2/graviton/

14. https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/

15. https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/

16. https://www.datacenterknowledge.com/hardware/ampere-gears-launch-7nm-80-core-arm-chip-cloud-data-centers

17. https://www.extremetech.com/computing/240821-qualcomm-begins-sampling-48-core-10nm-server-processor-market-ready-arm-based-servers

18. https://www.theregister.co.uk/2012/10/17/calxeda_arm_server_chip_roadmap/

19. https://www.nextplatform.com/2016/01/15/clever-ethernet-switching-rises-from-calxeda-arm-ashes/

20. https://www.marvell.com/embedded-processors/armada/armada-xp/

21. https://www.anandtech.com/show/5098/applied-micros-xgene-the-first-armv8-soc

22. https://www.nextplatform.com/2019/12/13/amping-up-the-arm-server-roadmap/

23. https://www.techspot.com/news/50656-arm-announces-64-bit-cortex-a57-and-cortex-a53-processors.html

24. https://www.extremetech.com/computing/120601-amd-buys-seamicro-starts-selling-intel-based-servers

25. https://www.extremetech.com/computing/277242-ampere-emag-64-bit-arm-server-platform-targets-intel-data-centers

26. https://www.extremetech.com/computing/269004-qualcomm-reportedly-plans-to-exit-server-business

27. https://www.extremetech.com/computing/259036-early-qualcomm-server-cpu-benchmarks-mean-big-trouble-intel

28. https://www.extremetech.com/computing/245496-qualcomm-announces-partnership-microsoft-48-core-falkor-cpus-run-windows-server

29. https://www.extremetech.com/extreme/221282-amds-first-arm-based-processor-the-opteron-a1100-is-finally-here

30. https://en.wikichip.org/w/images/3/34/408-X1_PB.pdf

31. https://fuse.wikichip.org/news/776/x-gene-3-gets-a-second-chance-at-ampere-with-a-new-32-core-16nm-arm-processor/

32. https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.430-X-Gene- Singh-AppMicro-HotChips-2014-v5.pdf

33. https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.410-Opteron-Seattle- Blanc-AMD-HotChipsAMDSeattle_FINAL.pdf

34.

35. https://www.anandtech.com/show/10353/investigating-cavium-thunderx-48-arm-cores

36. https://fuse.wikichip.org/news/1316/a-look-at-caviums-new-high-performance-arm-microprocessors-and-the-isambard-supercomputer/

37. https://www.nextplatform.com/2017/11/08/qualcomms-amberwing-arm-server-chip-finally-takes-flight/

38. https://www.nextplatform.com/2017/12/06/deep-dive-qualcomms-centriq-arm-server-ecosystem/

39. https://www.nextplatform.com/2017/12/12/battle-datacenter-compute-qualcomm-centriq-versus-intel-xeon/

40. https://www.nextplatform.com/2018/05/10/what-qualcomms-exit-from-arm-server-chips-means/

41. https://www.kitguru.net/components/cpu/anton-shilov/nvidia-and-samsung-drop-development-of-server-class-arm-chips/

42. https://www.anandtech.com/show/8357/exploring-the-low-end-and-micro-server-platforms/18

43. https://www.firstpost.com/tech/news-analysis/samsung-developing-arm-based-server-chips-3605711.html

44. https://www.baikalelectronics.com

45.

46. https://www.socionext.com/en/products/assp/SC2A11/

47. https://semiaccurate.com/2011/08/05/what-is-project-denver-based-on/

48. https://www.anandtech.com/show/15253/80core-n1-nextgen-ampere-quicksilver-the-antigraviton2

49. https://www.nextplatform.com/2019/11/13/a64fx-arm-chip-gets-a-big-push-from-cray/

50. https://community.arm.com/developer/tools-software/hpc/b/hpc-blog/posts/technology-update-the-scalable-vector-extension-sve-for-the-armv8-a- architecture

51. https://www.eweek.com/servers/fujitsu-chooses-arm-over-sparc-for-its-next-supercomputer

Remarque : Cet article ne représente que l'opinion personnelle de l'auteur et n'a rien à voir avec une organisation. S'il y a des erreurs ou des lacunes, veuillez les critiquer et les corriger dans le message. Pour un échange de technologie supplémentaire, vous pouvez ajouter mon WeChat/QQ : 490834312. Si vous souhaitez partager vos produits secs techniques sur ce compte public, merci de me contacter également :)

Merci d'avoir lu et soutenu ! Compte public WeChat « Technologie de stockage d'entreprise » : HL_Storage

Avis de non-responsabilité : Cet article est reproduit en ligne et le droit d'auteur appartient à l'auteur original. Si les vidéos, images et textes utilisés dans cet article impliquent des problèmes de droits d'auteur, veuillez nous en informer dès que possible, et nous supprimerons le contenu immédiatement ! Le contenu de cet article est l'opinion de l'auteur original et ne signifie pas que ce récit officiel est d'accord avec son opinion et est responsable de son authenticité.

FIN

« Popular Science » de 5G à la révolution intelligente, cet article mérite une visite
Précédent
World Semiconductor minimaliste Chronicles
Prochain
Prix à partir de 152800 yuans tigre domaine Jiangling version diesel 9 version
Règles de priorité Hangzhou talent à l'achat ne peut profiter d'une priorité Yaohao
Autriche renforcer les mesures de prévention doivent porter des masques achats
Un texte lu trois séries de téléphones intelligents de différence Huawei P40
Tokyo Jeux Olympiques de 8K popularité reportée TV Jusqu'où?
Il est également une image de 64 millions de pixels aura un écart? Gloire 30S avec du riz rouge K30 de comparaison de tir réel Pro
Téléphone soir: écran iQOO Neo3120Hz réel marteau OnePlus 8 charge Pro ou sans fil 30W
OPPO nouvelle série est née, le premier produit dans un fichier donné 13 Avril iQOO évaluation comparative in vivo de?
Préparez-vous à retourner à l'école pour les classes de curriculum vitae! Zhangjiakou grandes écoles primaires et secondaires pour mener à bien la prévention des épidémies et de l'exercice de contrôl
la reprise économique de la Chine Press « accélérateur » pour insuffler de la confiance dans la puissance de la lutte mondiale contre le SRAS
Parmi les vortex: à Wuhan, 76 vrais ordinaires jours et des nuits
Un fleuve après l'autre, Xi Jinping voit le «grand plan» de la nation chinoise