Auteur : Winnie Shao

R�imprim� de Enterprise Storage Technology

Table des mati�res

1. Introduction

2 La premi�re vague (2008-2013)

2.1 D�part 2008

2.1.1 Calxeda 2011

2.2 Computex2012

2.3 Marvell Armada XP 2013

2.4 Calxeda s'est effondr� en 2013

3 La deuxi�me vague d'Armv8.0 (2011-2018)

3.1 AppliedMicro X-g�ne (2011)

3.1.1 eMAG-X-Gene32018

3.2 A1100 d'AMD (2012)

3.3 Cavium Thunder X 2014

3.4 Broadcom Vulcan ThunderX2

3.5Qualcomm 2017

3.6Samsung (2012-2014)

3.7 Projet Nvidia Denver 2011-2014

3.8 Balkans

3.9 Phytium

3.10 HiSilicon1616

3.11 Socionext

3.12 La fin du commentaire priv�

4 La troisi�me vague de Neoverse

4.1 Huawei Kunpeng 920

4.2 AWSGraviton2

4.3 Amp�reQuickSilver 2019

4.4 Marvell ThunderX3

4.5 FujistuA64FX 2016

4.6 Autres nouveaux entrants

5 R�sum�

6 Litt�rature

Il s'agit d'un mat�riau pr�par� pour le partage de technologie au sein de l'entreprise.Bien s�r, au sein de l'entreprise, si j'avais os� parler � partir de 2008, j'aurais �t� battu � mort il y a longtemps. De plus, le contenu de la NDA doit �tre l�g�rement omis.

Si je devais r�sumer mon parcours de devenir serveur Arm en une phrase, ce serait "le chemin de la route et du fil bleu, pour �clairer les montagnes et les for�ts".

Clause de non-responsabilit� : Opinion personnelle, ne repr�sente aucune entreprise. Les donn�es r�pertori�es dans l'article proviennent de l'actualit� publique et de conf�rences.

Afin que tout le monde sache plus facilement qui je suis, je me donne une �tiquette�: une personne responsable de tout le chemin, du CPU PPT au cloud.

De plus : l'open source n'est pas gratuit, merci de r�compenser consciemment l'auteur. ( Les amis qui donnent un pourboire � la fin de l'article soutiendront directement l'auteur, le Dr Winnie shao )

La premi�re vague de serveurs Arm a commenc� et s'est termin�e avec une soci�t� appel�e Calexda. Bien que je pense que l'annonce officielle de l'architecture Armv8 en 2011 est la fin du serveur 32 bits. Mais les hauts et les bas de la premi�re vague ne sont pas aussi simples que 32bit et 64bit, il y a aussi un mot Microserver, micro serveur. C'�tait aussi une exploration conjointe de l'industrie � cette �poque, y compris le camp x86. Techniquement et logique commerciale, tous les bons produits n'ont pas r�ussi sur le march�.

Un constat que j'ai personnellement obtenu : le march� des serveurs est un march� conservateur pour la stabilit�, par opposition � un march� final actif.

En 2008, Arm a commenc� � pr�parer des plans de serveur en interne. Quand le cur bouge, Arm a particip� � l'investissement dans une start-up appel�e Smooth Stone � l'�poque, qui a ensuite �t� rebaptis�e Calxeda. L'investissement total du premier tour � ce moment-l� �tait de 48 millions de dollars.

L'objectif initial de Calxeda �tait de r�duire la consommation �nerg�tique des centres de donn�es et d'augmenter la densit� de la puissance de calcul dans un m�me espace. Veuillez garder ces deux objectifs � l'esprit.Pour le moment, notre intention initiale reste la m�me.

Les produits Cortex-A8 �taient toujours sur le march� cette ann�e-l�, et les produits bas�s sur le premier cortex-A9 multicur n'�taient sur le march� que trois ans plus tard. (Cela me manque l'�poque lente o� un produit n'est sorti qu'en 2 ou 3 ans).

� cette �poque, le Xeon d'Intel �tait encore � 4 curs, bien s�r, la fr�quence principale �tait d�j� de 3,x Ghz, et le processeur Opteron 45 nm d'AMD venait d'�tre lanc�.

Cette ann�e-l�, IBM vient d'annoncer la gamme de produits Power, qui comptait jusqu'� 64 curs.

Apple a sorti l'iPhone 3G, l'iPhone 2. (Oui, c'�tait encore l'�re de la 3G.)

Le processus principal de TSMC est de 40 nm, avec un revenu annuel de 10 milliards de dollars.

Je fais �galement du NP3 dans une entreprise appel�e EZchip, o� NP n'est pas un processeur neuronal mais un processeur r�seau. C'�tait une �poque de grands processeurs de r�seau, et je peux en nommer une longue liste, mais ils sont tous morts maintenant. De mani�re discr�te, en fait, la partie dans laquelle je suis le meilleur est le TM-Traffic Manager et pas seulement la partie processeur, qui est �galement la caract�ristique la plus importante de cette soci�t� isra�lienne de plus de 100 personnes (environ 60 millions de dollars de revenus annuels). J'omets quelques mots ici, mais en r�alit�, je peux parler d'une semaine de formation par moi-m�me, du genre qui co�te des dollars am�ricains.

2.1.1 Calxeda 2011

En 2010, Smooth Stone a officiellement chang� son nom en Calxeda et a d�m�nag� son si�ge social � Austin.

En 2011, Calxeda a sorti sa puce bas�e sur l'EnergyCore ECX-1000 de l'A9.

Figure 2.1 Architecture CalexdaEnergyCore

Il s'agit en fait d'une conception qui m�rite d'�tre examin�e de plus pr�s.Le module processeur compos� de cortex-a9 � 4 curs est tout � fait satisfaisant, et la partie contr�leurs d'E / S est �galement une interface conventionnelle (l'interface conventionnelle n'est pas facile, le cur de un bon produit est la partie conventionnelle. au meilleur de l'industrie). Mais le moteur de gestion et la partie Fabric Switch est une technologie tr�s innovante.

EnergyCore Fabric est un commutateur L2 int�gr� prenant en charge le maillage, l'arbre papillon, la topologie 2D Torus, la bande passante entre les ports virtuels peut �tre allou�e selon diff�rentes sp�cifications de 1 Gb/s, 2,5 Gb/s, 5 Gb/s, cur 10 Gb/s . Gr�ce � lui, le nud serveur peut former un r�seau par lui-m�me, sans avoir � passer par le commutateur du haut, il y a donc 4 puces sur une plaque de Calexda, soit 16 curs. Il existe donc des syst�mes de serveurs qui peuvent avoir jusqu'� 480 curs.

Ce concept de conception est raisonnable. Si vous concevez une puce de serveur � tr�s faible co�t, mais que le r�seau de support est toujours co�teux, la conception � haute densit� ne fera qu'augmenter le co�t. Cette structure peut connecter 1024 cartes syst�me, c'est-�-dire 4096 puces avec des interfaces r�seau 10G, et les int�grer dans un syst�me.

EnergyCore ManagementEngine est un BMC int�gr�, prend en charge IMP2.0 et DCMI, et prend �galement en charge le protocole SoL de d�bogage � distance. La partie la plus puissante du moteur de gestion est la gestion de l'alimentation.La consommation d'�nergie de la puce serveur de Calexda peut �tre ajust�e dynamiquement de 4w � 1w.

Le co�t de fabrication par nud est d'environ 28 $.

Figure 2.2 Carte syst�me Calexda avec 4 nuds

En 2011, j'ai rejoint Arm Network Marketing. � cette �poque, j'ai pr�t� attention � l'ARMCortex-A15 � 16 curs LSI Axxia AXM5500, qui �tait encore au stade de la conception, � la s�rie QorIQ Layerscape de Freescale, � KeyStone de TI et � la s�rie hixxxx de HiSilicon. C'�tait une �poque o� Arm explosait dans le r�seau march�. . Mais bient�t, un an plus tard, j'ai suivi le patron de l'�poque, une beaut� indienne senior au temp�rament de star de cin�ma, pour passer du march� en ligne au march� des serveurs. Depuis lors, je me suis consacr� sans r�serve au march� des serveurs et construction �cologique.

En 2009, une pr�sentation publique � Taipei �tait le premier effort pour pr�senter le serveur au public. Se tenir avec lui est

Ubuntu

(l'�cologie logicielle est un sujet important, cet article se concentre principalement sur la puce, la conception mat�rielle du syst�me et les sujets logiciels seront abord�s s�par�ment). il a cit�

lesdites valeurs.

En ce qui concerne les serveurs Arm, Ian Ferguson doit avoir un nom (il m'a appris la phrase la plus �l�mentaire du travail de marketing, "Allez-vous rapporter des nouvelles ou faire des nouvelles�?", maintenant je suis �galement pr�t � dire avec mon amis, venez Venez, faisons les choses ensemble.) Comme il l'a dit lors de la conf�rence, d�s le premier jour, Arm a l'intention d'examiner le march� des serveurs, toute l'industrie est pleine de scepticisme. Non seulement douter de sa r�ussite, mais m�me � la racine, douter de la motivation.

Je ne suis pas press� de r�pondre � ces questions, si vous avez la patience de lire jusqu'au bout, tout aura ses propres r�ponses.

Dans la premi�re vague de serveurs, la s�rie quadricur Marvell Armada XP est �galement � mentionner. Et le noyau ici n'est ni A9 ni A15, mais le noyau personnalis� de Marvell.

C'est aussi gr�ce � Armada que j'ai une r�ponse tr�s famili�re � ce qu'est l'autorisation d'architecture.

Figure 2.3 Marvell Armada XP

Ce SoC hautement int�gr� et basse consommation est id�al pour les applications de stockage. Avec cela comme noyau, Dell a produit le syst�me de serveur bras "Copper". Baidu l'a �galement utilis�. Il s'agit du premier cas d'un serveur Arm dans une soci�t� Internet.

Si Calxeda peut lever le troisi�me tour d'investissement, alors selon les panneaux de signalisation suivants, une puce A15 sera produite en s�rie imm�diatement et deux puces Armv8 sont pr�vues. Malheureusement, l'effort de collecte de fonds a �chou�. Calxeda a �t� cr��e de 2008 � 2013 avec un investissement total de 103 millions de dollars (48 millions de dollars en 2010 et 55 millions de dollars en 2012) et un total de 130 employ�s.

L'�mergence des serveurs Arm, "l'industrie sera transform�e � jamais". A partir de maintenant, oui.

Figure 2.4 Panneau routier de Calxeda

des analystes disent qu'ils sont

Annonc� en 2010, le plan annonc�, en fait, la deuxi�me vague de la vague des serveurs a d�j� commenc�.

L'effondrement de Calxeda marque la fin du premier tour.

Bien que sous le nom litt�raire de Chronicle, je souhaite l'�crire sous la forme d'un article d'analyse technique, ax� sur les caract�ristiques et l'�volution des puces de serveur Arm, sans expliquer pourquoi cette entreprise r�ussit et cette entreprise �choue. En fait, une analyse de produit est facile � faire, et le succ�s ou l'�chec d'une entreprise est vraiment affect� par des facteurs accidentels.

Les trois mots cl�s de la deuxi�me vague sont le noyau auto-d�velopp� (noyau personnalis�), les performances grand public et la conception standard. Au cours des premi�res ann�es du serveur Arm, les soci�t�s de conception de puces venaient de diff�rents domaines et chacune livrait ses propres produits avec sa propre compr�hension des puces CPU du serveur. Je me concentre sur le X-gene d'APM, le ThunderX de Cavium et le Centriq 2400 de Qualcomm. En m�me temps, nous essayons �galement de donner � tous les autres jetons un indice pour ceux qui sont int�ress�s � approfondir.

J'ai cr�� une feuille Excel et essay� de comparer tous les SoC de serveur, y compris la taille de l'entreprise, les investissements et les ressources humaines d�pens�es. Avoir une chance de communiquer hors ligne.

Un paragraphe de plus, car � cette p�riode de l'histoire, les curs auto-d�velopp�s �taient majoritaires, et le d�bat sur l'architecture et l'ISA s'est poursuivi, je ne veux pas m'�tendre, car ce serait hors sujet. J'ai appris un mot d'une grosse vache qui fait du cloud priv�, "l'avantage cumulatif", faire du CPU, de l'ISA et de la puce est en fait un avantage cumulatif lent. Au fil des ans, j'ai pris les besoins, les cas et les donn�es de test du client, et je me suis rendu en toute confiance au si�ge de l'entreprise pour trouver un architecte ou un chef de produit, demand� de modifier la conception et ajout� des instructions (oui, je m'en soucie toujours) , le r�sultat Quoi ? Je ne peux pas dire que je n'ai pas r�ussi une seule fois, mais mon architecte et mon chef de produit sont tous deux des r�les impitoyables, et ils �chouent rarement dans des donn�es et des cas d'application concurrents.

De plus, Hock Tang doit mentionner que cette personne est simplement une �pine dans le chemin du d�veloppement du serveur Arm et de ma carri�re, un homme qui a pris le double kill et le double kill. Il a d'abord acquis Broadcom, vendu le projet de puce serveur, puis a propos� d'acqu�rir Qualcomm.Afin de se prot�ger, la direction de Qualcomm a propos� de r�duire 1 milliard de d�penses annuelles, il a donc interrompu tous les projets d'investissement � long terme et le bon fonctionnement projet de serveur vient de poser le pistolet.

En octobre 2011, � peu pr�s au m�me moment o� Arm a annonc� pour la premi�re fois l'architecture ARMv8, Applied Micro a annonc� ses plans d'auto-architecture x-gene (la grande nouvelle concernait les principaux clients).

Si vous lisiez les nouvelles � cette �poque, vous auriez remarqu� le concept de SoC, bien s�r maintenant, le concept de SoC n'a pas besoin d'�tre expliqu�. � ce moment-l�, il faut encore souligner que SoC est �gal � la conception int�gr�e de puce + chipset.

La premi�re g�n�ration de X-gene est compos�e de 8 curs auto-d�velopp�s-Storm, et les deux curs partagent un cache L2 de 256 Ko, ce qui est diff�rent des 4 curs et d'un cluster d'Arm. Dans le chapitre suivant, le processeur Opteron A1100 d'AMD, nomm� Seattle, n'utilisait pas un cluster de 4 Cortex-A57 et une conception de deux clusters, mais une conception de 2 A57 et 4 clusters. Les deux A57 de l'A1100 d'AMD partagent 1 Mo de cache L2, soit 4 fois plus grand que X-gene. Cependant, le noyau auto-d�velopp� de X-gene, Storm, a 4 probl�mes, et l'A57 est toujours au point id�al du ratio d'efficacit� �nerg�tique de 3 probl�mes.

Figure 3.1 Sp�cification X-Gene de l'APM

Figure 3.2 Feuille de route du produit X-Gene d'APM

D�sormais, m�me les processeurs de t�l�phones mobiles vont rencontrer des probl�mes 6. De ce point de vue, les curs auto-d�velopp�s sont toujours une bonne arme pour montrer leurs id�es sur le d�veloppement de l'industrie.

X-gene poss�de 8 curs et est �quip� de 4 canaux m�moire, ce qui est �galement un rapport CPU/m�moire rare dans le camp x86. Et il int�gre 2 cartes r�seau 10G et prend en charge RoCE, ce qui est un avantage du SoC.

Les param�tres de consommation d'�nergie donn�s par les donn�es officielles d'Applied Micro, �tat de pleine charge, 2 watts pour un cur, �tat de veille, seulement 0,5w.

Figure 3.2 Diagramme de cadre de X-Gene

La partie qui m'a le plus impressionn� dans la conception X-Gene est le MSLIM, qui est un petit groupe de 4 processeurs A5 qui fournit une acc�l�ration. Je ne sais pas s'il y a des clients qui utilisent ce groupe de processeurs, et je ne connais pas la philosophie de conception de l'ann�e.

De la conception au produit fini, combien de conceptions sont ignor�es par les clients et combien de conceptions sont entre les mains de clients aux performances extraordinaires, je pense que les architectes se sentiront �galement confus, et il existe de nombreuses incertitudes dans le monde de l'ing�nierie.

Figure 3.3 Fili�re X-Gene

Figure 3.4 Module CPU X-Gene

Il n'y a pas d'informations compl�tes, mais il existe des informations sur le module processeur. Chaque module de processeur, il y a un partage, sous la technologie,

mm�, transistors 84M. Avec cette taille, j'estime que la matrice enti�re est de 300 mm

Anandtech avait une fois un rapport d'�valuation tr�s d�taill� et assez n�gatif. Le sens central est qu'il n'est pas encore mature, et les avantages du rapport performance et efficacit� �nerg�tique ne sont pas �vidents. Il teste le syst�me moonshot de HPE.Les documents officiels de HPE ont une �valuation �lev�e de X-gene, car X-gene est la premi�re puce de serveur Arm 64 bits produite en s�rie.Les premiers partenaires logiciels ont tous utilis� son syst�me d'origine.

Quand j'ai connu Applied Micro-APM, �a s'appelait AMCC. L'�quipe AMCC est l'une des rares �quipes de v�t�rans de la Silicon Valley � faire des processeurs, mais elle fait du PowerPC. Cela ne s'est pas bien pass� sur la route multicur, alors je suis pass� � Arm et j'ai recommenc�. Probablement parce qu'il s'agit d'une �quipe de conception de processeurs chevronn�e, ils ont choisi l'autorisation d'architecture la plus difficile et l'itin�raire de base auto-d�velopp� d�s qu'ils ont commenc�. Une fois, je me suis disput� avec un coll�gue � ce sujet au point de rougir et de lui dire, je me l�ve en tant qu'homme, et quand je tombe, je suis toujours un homme. Mon coll�gue, un homme de sexe masculin, a ri avec col�re et a dit, OK, OK, vous �tes un homme.

X-gene2 est � peu pr�s la mise en uvre en tique de 28 nm de X-gene1, omise.

3.1.1 eMAG-X-Gene32018

J'ai longtemps h�sit�, ne sachant pas s'il fallait classer cet Amp�re repens� eMAG comme la queue de la deuxi�me vague ou le d�but de la troisi�me vague. Selon la conception originale du noyau, il s'agit toujours de la deuxi�me vague de queues.

Figure 3.5 Amp�re eMAG

Figure 3.6 Avantages du produit Amp�re

Le prix catalogue pour 32 curs est de 850 $, un prix relativement tr�s comp�titif. Le diagramme de cadre semble familier et n'est pas analys�.

Figure 3.6 Diagramme de trame Ampere eMag

Un an apr�s le lancement de l'architecture Armv8, Arm a lanc� deux produits de la s�rie cortex-A5x, A57 et A53.Selon la pratique internationale, un partenaire lourd a fait ses d�buts avec Arm lors de la conf�rence, AMD.

Ce code interne s'appelle Seattle, qui appartient � la s�rie Opteron, et le nom officiel du produit derri�re est la puce A1100, qui est maintenant un produit introuvable dans l'histoire des produits de la gamme principale d'AMD.

AMD a mis longtemps � expliquer pourquoi il fabriquait des serveurs Arm, comment positionner les gammes de produits internes x86 et Arm de l'entreprise, et a m�me lanc� le K12 (2015), qui n'a fait l'actualit� que pour stabiliser les soup�ons du monde ext�rieur.

Si nous regardons en arri�re en 2012, il y a un terme qui ne peut �tre ignor�, "microserver", et � cette �poque, AMD vient d'acheter SeaMicro, une soci�t� qui construit des syst�mes haute densit� et basse consommation autour de Freedom Fabric. Ce tissu, � tr�s haute densit� et � faible consommation d'�nergie, vous semble familier�? La voie de Calexda. La figure ci-dessous montre la taille de 10U, avec un total de 768 processeurs, dont quatre commutateurs GE et un �quilibreur de charge.

Figure 3.7 Syst�me Calexda 10U

Sous une telle conception de syst�me, avec un processeur Arm ultra basse consommation, est-ce plus raisonnable ? Par cons�quent, choisir le noyau standard Cortex-A57 d'Arm, raccourcir le temps de d�veloppement et r�duire les co�ts de d�veloppement, est �galement une chose logique, le tout dans une logique raisonnable.

Les informations sur le Cortex-A57 sont partout dans le monde, je ne les �num�rerai donc pas ici. Comme mentionn� dans le chapitre pr�c�dent, AMD a choisi la configuration de cluster 2 curs 4 au lieu du cluster 4 curs 2 couramment utilis� dans les points d'acc�s de t�l�phonie mobile. Quel est l'avantage, faites-en l'exp�rience par vous-m�me.

Le prix catalogue de cette puce est de 150 $, ce qui est �galement tr�s mortel.

Figure 3.8 Diagramme de ch�ssis AMD Opteron A1100

Figure 3.9 Plan d'�tage AMD Opteron A1100

Dans un sens, AMD, le Seattle, est inclus dans la deuxi�me vague. Sa th�orie de la conception est compl�tement de premi�re vague. K12 est la deuxi�me vague.

Mais en regardant l'objectif de conception de K12, dans le cadre d'AMD, pourquoi voulons-nous faire Arm, naturellement c'est x86. L'homme Jim Keller �tait � l'origine associ� � K12. Mais... , cet homme indisciplin�.

La r�ponse d'Intel � cette vague est le "Xeon-D" 14 nm.

Dans une certaine mesure, le ThunderX � 48 curs de Cavium est le produit qui a vraiment lanc� la deuxi�me vague de serveurs Arm. Il poss�de toutes les caract�ristiques d'une puce de serveur grand public, telles que les doubles sockets et les performances.

En tant qu'entreprise qui ne repr�sente que 1/10 de la taille d'AMD, Cavium a la capacit� de concevoir tr�s t�t des processeurs ultra-multicurs, mais c'�tait auparavant le traitement d'applications r�seau MIPS.

Bien qu'il n'y ait que 2 probl�mes de curs auto-d�velopp�s, les performances monocur sont faibles. Mais la conception globale du SoC, en particulier la conception multicanal, est excellente. Et en raison de l'accumulation de processeurs r�seau, le moteur d'acc�l�ration et l'interface IO de cette puce sont tr�s riches.

De plus, afin de r�duire la consommation d'�nergie, le moteur d'acc�l�ration peut �tre d�sactiv� de mani�re s�lective et devenir 4 configurations diff�rentes : version cloud computing, version stockage, version op�rateur et version s�curit�.

Figure 3.10 Diagramme du cadre Cavium ThunderX

Anandtech a un tr�s bon test de performance pour aider � comprendre le Cavium ThunderX.

C'est une section tr�s d�routante. Si vous dites Broadcom Vulcan, c'est vers 2016. Si le Thunder X2 de Cavium est un produit 2018. Puis il est rapidement devenu le ThunderX2 de Marvell. C'�tait � l'origine un produit pr�vu en m�me temps, mais du coup, toutes sortes de rebondissements sont bizarres deux en un. Parfois, je ne crois pas qu'il y ait autant d'histoires dramatiques dans notre industrie.

En parlant de cela, l'�quipe de conception de processeurs de Broadcom de RMI et l'�quipe de conception de processeurs de Cavium ont beaucoup en commun. Mais contrairement � Cavium, qui fait toujours 2 petits curs, l'�quipe Broadcom a �t� dou�e pour le multithreading d�s le d�but. Par cons�quent, lors de la planification, Vulcain est un 4 fils contre le ciel. � l'heure actuelle, dans le camp ARM, il n'y a pas encore de processeur multithread.

L'objectif de conception initial �tait, cur, thread par cur, de prendre en charge les syst�mes doubles. Apr�s l'acquisition, il n'a pas �t� divulgu�.

La configuration la plus �lev�e CN9980, 32 curs, 2,5 Ghz, TDP 200 W. Le CN99802,2 Ghz, 180 W est au prix de 1795 $, tandis que le CN996016 curs, 1,6 Ghz, 75 W est au prix de 800 $

Et son march� cible, ou le gain de conception visible, est concentr� sur le march� HPC.

Figure 3.11 Sch�ma de trame de ThunderX2

Figure 3.12 Disposition ThunderX 2

Figure 3.13 Interface E/S ThunderX2

La m�me semaine que Qualcomm a lanc� le Centriq 240010 nm � 48 curs, anciennement nomm� � Amberwing �, sur le march� en 2017, Qualcomm a re�u une offre de rachat de 130 $ de Broadcom.

On estime que ce Centriq 2400, qui a dur� 4 ans, a co�t� 100 � 125 M$, avec l'apport de plusieurs centaines d'ing�nieurs. Au cours de la p�riode, Qualcomm a �galement fabriqu� un Centric 1200 � 24 curs comme prototype de test.

Centriq 2400 a des transistors 18B,

, le processus 10 nm de Samsung, beaucoup plus petit que le tonnerreX2. Bien qu'il s'agisse d'un processeur mono-P, ce n'est pas un probl�me pour le d�veloppement de serveurs multi-g�n�rations au fil des ann�es.

Illustration 3.14 Centriq 2400

Figure 3.15 Comparaison de la microarchitecture du Centriq 2400

Figure 3.16 Diagramme de ch�ssis du Centriq2400

Cette puce, n�e avec la cl� d'or, est all�e jusqu'� l'enregistrement, jusqu'� ce que le cygne noir nomm� Hock Tang apparaisse.

D'apr�s le tableau des prix et de la consommation d'�nergie, le prix de Centriq2400 est fondamentalement le m�me que celui de ThunderX2.

Le nom du noyau du processeur de Centriq 2400 est le noyau auto-d�velopp� de "Falkor". Jusqu'� 2,6 GHz, il s'agit du cur auto-d�velopp� de cinqui�me g�n�ration de Qualcomm. Si quoi que ce soit, le noyau de nouvelle g�n�ration est "Saphira" et le nom de la puce est "Firetail". Mais ensuite, Qualcomm a annul� le projet de puce de serveur, marquant la fin de la deuxi�me vague de serveurs Arm.

Une fois la ligne principale �crite, la ligne secondaire doit �galement �tre �crite.

L'histoire du serveur Arm de Samsung est connue de peu de personnes en Chine, mais elle a �t� publi�e dans le Wall Street Journal. Samsung ne l'a jamais annonc� officiellement, quand tout le projet a commenc�, tout le monde devinait, et quand il a �t� d�truit, tout le monde n'�tait que rumeur.

En 2007, Samsung a investi 3,5�milliards de dollars pour construire une usine � Austin. En 2010, le Samsung Austin Research Center a �t� cr��, et il a commenc� � recruter des ing�nieurs en conception de puces, puis a recrut� un vice-pr�sident d'AMD pour �tre le vice-pr�sident d'Austin. Tout le monde suppose que les puces de serveur sont �galement dans les plans du centre de recherche d'Austin.

En fait, la logique de l'entr�e de Samsung dans la conception de SoC pour serveurs peut �tre tr�s proche de celle de Qualcomm, mais � cette �poque, Qualcomm avait le soutien du PDG, et cela s'est malheureusement termin�, et la branche am�ricaine d'une soci�t� cor�enne voulait soutenir la conception d'une grande puce de serveur.Comment difficile peut �tre imagin�.

Nvidia est une entreprise que je respecte beaucoup et l'une des rares entreprises de la Silicon Valley � avoir encore un fondateur en tant que PDG. Mais ce chapitre, j'ai �crit plusieurs fois, ne peut pas �crire. Il est probable que Nvidia soit toujours une entreprise bas�e sur le GPU, et sa logique de d�veloppement CPU appartient au type de planification orient�e application.

C'est un chemin de Tegra � Carmel, int�grant des processeurs Arm dans des puces � fonctions complexes. En fait, cela ressemble plus au chemin de planification des puces de la soci�t� syst�me. Parce que cet article se concentre sur l'analyse des puces de serveur � usage g�n�ral, sinon la gamme de produits de Nvidia m�rite certainement une analyse compl�te du chapitre.

Figure 3.17 Unit� centrale Tegra Arm

Illustration 3.18 Eegra K1

Figure 3.19 Processeur Carmel

La premi�re puce 28n de Russie, la BE-M1000, ne devrait pas appartenir � la cat�gorie des serveurs, mais elle couvre les postes de travail. Cette soci�t� de puces, comme le japonais Fujitsu et le chinois Feiteng, est issue de projets de supercalcul, op�re de mani�re ind�pendante et accorde plus d'attention au succ�s commercial.

J'ai vu les panneaux de signalisation super forts qu'ils avaient pr�vus. Cependant, du panneau de signalisation � l'atterrissage du produit, il y a trop de variables dans les trois � cinq ann�es interm�diaires, de sorte que le vent et les nuages se sont beaucoup dissip�s.

Lorsqu'il s'agit de fabriquer des puces, c'est la force traditionnelle des camarades de calcul intensif. Le SoC serveur mentionn� ci-dessus provient en fait de la promotion du march� du supercalcul. Plus tard, je parlerai de l'Europe, les camarades europ�ens ont �galement commenc� � travailler dur pour fabriquer eux-m�mes des puces.

Illustration 3.20 Balkal BE-M1000

Les informations publiques sur les puces de Feiteng proviennent de hotchips 2015. Le dernier panneau routier a �t� partag� publiquement par Dou Qiang, directeur g�n�ral de Feiteng le 19 d�cembre 2019.

ne sera pas �largi.

Le 1616 de HiSilicon est le pr�d�cesseur du Kunpeng 920, une g�n�ration relativement discr�te. Il n'y a pas d'introduction sur le site officiel de Huawei. Je ne mets aucune information en ligne non plus.

En ce qui concerne Haisi, je pense qu'il est possible d'�crire un livre �pique dans le style de "Those Things in the Ming Dynasty", et d'ajouter une biographie de "Haisi Heroes" en post-biographie. Un �tudiant en arts lib�raux ne peut pas �crire une entreprise comme HiSilicon, c'est comme un jeune litt�raire et artistique comme moi. Tout est pr�t, il n'y a que deux choses � faire, l'une est les frais de manuscrit pr�pay�s du service de publicit� de HiSilicon, et bien s�r, le financement participatif des internautes peut �galement �tre envisag�, et l'autre est d'attendre que je prenne ma retraite.

Le "SynQuacer" SC2A11 de Socionext est probablement la seule puce Cortex-A53 � 24 curs, n'est-ce pas�?

Figure 3.21 Sch�ma fonctionnel du Socionext SC2A11

Pour cette puce, non seulement la puce, mais aussi la conception du syst�me.

Figure 3.22 Syst�me serveur Socionext SC2A11

Ce syst�me � petit cur et � haute densit� semble similaire, n'est-ce pas ? conception de cette �poque.

Ces derni�res ann�es, de 2012 � 2014, j'ai pris l'avion pour Ta�wan pour vomir du sang. J'ai trouv� une copie de cette �poque sur mon disque dur. � cette �poque, il y avait un dicton dans l'industrie ta�wanaise selon lequel le mod�le ODM Direct r��crivait l'�cologie de la cha�ne industrielle. Le mod�le ODM Direct est en effet debout, mais les plus forts de l'�cosyst�me ne sont pas les ODM, mais les utilisateurs finaux, ces Hyperscales qui disent que nous pouvons tout contr�ler, du r�seau �lectrique � la porte.

La deuxi�me vague est men�e par l'industrie des semi-conducteurs et les fabricants de syst�mes, de sorte que la troisi�me vague est lorsque les utilisateurs finaux partent en mer pour faire des vagues.

Drew Henry (recommand� de lire son profil sur Linkedin, un mod�le de CV de direction) est un homme qui veut aussi laisser un nom dans l'histoire des serveurs Arm. Un an apr�s avoir rejoint Arm, chez Arm Tech en octobre 2018, il a annonc� qu'Arm avait sa propre marque (Neoverse) sur le march� des infrastructures et Bing a annonc� une feuille de route pour chaque g�n�ration, avec une augmentation de 30% � chaque g�n�ration.

C'est le d�but de la troisi�me vague, juste en eau profonde encore, � cette �poque, le monde �tait encore calme.

Et je me souviens encore du travail trivial pour assembler les logos des grandes entreprises lors de la conf�rence de presse, ainsi que du soutien fort de mes partenaires.

Figure 4.1 Panneau de signalisation Arm NEOVERSE

Le 7 janvier 2019, Xu Wenwei, connu sous le nom de Da Xu, a sorti le Kunpeng 920.

Je ne mets que des photos publiques qui me paraissent importantes, c'est � vous de d�cider comment les interpr�ter.

Il s'agit d'un produit de classe mondiale, quel que soit l'aspect, y compris la chaleur de l'attention.

Figure 4.2 Le lancement du Kunpeng 920

Figure 4.4 Sch�ma d'interconnexion du Kunpeng 9204P

Figure 4.5 Graviton1 et Graviton2

M�me en novembre 2018, AWS a publi� Graviton et a appel� cette puce artisanale � 16 cortex A72 avec Neoverse. Le monde n'est pas choqu�. En y regardant maintenant, l'A72 � 16 curs 16 nm @ 2,3 GHz ressemble plus � un test de l'eau.

En particulier, regardez la version AWS 2017 de la puce Nitro, qui a �galement �t� d�velopp�e par l'�quipe de la startup isra�lienne Annapurna Labs, qu'elle a acquise en 2015.

Mais cette ann�e est un produit incroyable. Le processus de nucl�aire, ,, devrait vraisemblablement �tre en

300-350mm�

, l'annonce officielle est sup�rieure aux performances du processeur de g�n�ration, ainsi qu'� une bande passante r�seau �lev�e et � une bande passante optimis�e.

Figure 4.6 Processeur SPEC 2017

Figure 4.7 EC2 pris en charge par AWS Graviton2

Suite � la tendance positive du graviton d'AWS, Ampere a r�v�l� le plan de nouvelle g�n�ration pour le code N1 � 80 curs de 7 nm nomm� QuickSilver. Le plus accrocheur est que la nouvelle puce prend en charge la configuration de 2 sockets, gr�ce aux efforts de Arm mesh IP (CMN-600) dans CCIX.

Figure 4.8 Feuille de route du produit Amp�re

En plus de la conception N1 � 80 curs qui fait que les gens se sentent beaux, QuickSilver a une configuration luxueuse telle que 128 voies PCIe4. C'est �galement le partenaire principal de CUDA-on-ARM de Nividia.

C'est la puce que j'attends le plus en 2020. Apr�s tout, je peux l'acheter, le graviton d'AWS ne peut acheter que des services cloud.

Suite � la popularit� d'AWS, non seulement Ampere mais aussi notre ancienne soci�t� Marvell ont annonc� leurs plans de nouvelle g�n�ration, nous savons donc que le nom du cur auto-d�velopp� du processeur ThunderX3 est "Triton", et nous avons vu une g�n�ration tous les deux ans , tous les deux ans Une feuille de route produit solide qui double les performances de la prochaine g�n�ration.

Figure 4.9 Panneau routier ThunderX

Figure 4.10 Partie am�lior�e de ThunderX3

Le favori est le dernier. Mon coll�gue, en discutant du choix de la m�moire avec un partenaire, a dit "entre haut d�bit, grande capacit� et pas cher, vous ne pouvez en choisir que deux", cette phrase est tr�s philosophique, s'il y en a les trois, il y a des plans qui peuvent �tre pris en compte compte, et tout le monde ne sera pas emp�tr�. Il y a des enchev�trements et il doit y avoir des choix difficiles. Personnellement, je pr�f�re le plan "pas de probl�me sauf cher", mais rassurez-vous, je ne r�v�lerai jamais cette pr�f�rence personnelle lorsque je le recommanderai � un partenaire.

L'A64FX de Fujitsu n'est pas r�ellement une puce de serveur, il est utilis� pour le supercalcul.

En 2016, arm a annonc� l'extension du jeu d'instructions d'ArmV8 SVE- Scalable Vector Extension, une pratique internationale, un gros client sortira sur la plate-forme, il s'agit de Fujistu-Fujitsu, son Post-K, qui aurait pris 1,24 milliard de dollars de fonds publics japonais Comptez le projet, utilisera l'architecture Arm, pas leur SPARC pr�c�dent. Et l'A64FX est le premier processeur Arm � prendre en charge SVE.

Figure 4.11 Niveau de cache et vitesse d'A64FX

En 2018, Fujitsu a publiquement pr�sent� la puce A64FX sur les hotchips. Regardez d'abord les param�tres durs: 8,8 milliards de transistors (ce n'est pas beaucoup, AWS Graviton2 a 30B), 7 nm. 48 curs auto-d�velopp�s plus 4 curs de gestion homog�nes sont en fait 4 clusters de processeurs, chacun avec 13 curs. L'interconnexion inter-cur est un r�seau sur puce TOFU-6D maill� / tore de deuxi�me g�n�ration auto-d�velopp� (le TOFU de premi�re g�n�ration a une tr�s bonne r�putation), avec 32 Go HBM2 (configuration super luxueuse), 16 voies PCIe 3.0 (ce n'est pas trop, on estime que je ne veux connecter aucun p�riph�rique), une bande passante de stockage de 1024 Go/s, des performances de 2,7 TFLOPS @ 64 bits, 21,6 TFLOPS @ 8 bits. Nvidia Tesla P4 et P40 sont respectivement 22 TFlops et 47TFLOPS � des entiers de 8 bits, ce qui est tout � fait une correspondance.

Le niveau de cache d'A64FX a un d�bit �lev�, un pipeline d'ex�cution, une gestion de l'alimentation et un RAS. Si vous �tes int�ress�, vous pouvez lire la documentation de hotchips.

Figure 4.12 Plan d'�tage de l'A64FX

Figure 4.13 Nud Fugaku (refroidi par liquide)

Les performances puissantes de l'A64FX ne peuvent pas �tre combin�es avec le GPU, c'est pourquoi Cray travaille avec Fujitsu pour transformer l'A64FX en clusters CS500 et en futurs syst�mes Shasta.

En novembre 2019, une startup appel�e Nuvia a fait surface lors de la conf�rence SC. Le fond du fondateur de l'entreprise, le proc�s d'Apple, a imm�diatement fait la une des journaux. Avant qu'il n'y ait plus de produits, souvenons-nous de leur slogan "fournir des performances et une efficacit� �nerg�tique de pointe pour le centre de donn�es".

L'European Processor Alliance-EPI (https://www.european-processor-initiative.eu/project/epi/) en Europe est �galement un effort pour concevoir des processeurs de classe serveur. Pas grand chose � dire, regardez les panneaux de signalisation.

Figure 4.11 Feuille de route du PEV

Lorsque j'essayais de r�pondre pourquoi Arm ferait un serveur, tout ce � quoi je pouvais penser �tait les cinq mots "productivit� avanc�e". Qu'est-ce que la productivit� avanc�e, Frank Frankovsky, vice-pr�sident de la conception mat�rielle et des op�rations de la cha�ne d'approvisionnement de Facebook, est �galement un homme avec un nom. Il a propos� le travail le plus utile par watt par dollar. La puissance de calcul r�elle pouvant �tre utilis�e divis�e par le co�t d'achat d'un serveur et le co�t d'�lectricit� de fonctionnement d'un serveur est la productivit� repr�sentative du serveur.Cette valeur marque le caract�re avanc�.

Pour �tendre, pour les gens de la cha�ne de l'industrie, c'est le travail utile total par investissement total, fournissant une puissance de calcul utile divis�e par l'investissement total (le temps, la sagesse et l'effort des ing�nieurs), et c'est la productivit� de cette technologie/solution /ISA/product Est-ce un indicateur avanc�. C'est aussi un fil noir dans mon �criture de cette chronique, combien d'entr�es, combien de sorties apporteront la troisi�me vague.

Les forces productives vraiment avanc�es appartiennent au monde entier et sont le r�sultat des efforts conjoints du monde entier.

Les produits avanc�s sont des lignes de code, accumul�es une par une plaquette.

Je vous souhaite � tous bonne chance en 2020.

1. https://techcrunch.com/2010/11/15/smooth-stone-renamed-calxeda/

2. https://www.nextplatform.com/2019/12/10/looking-ahead-to-marvells-future-thunderx-processors/

3. Pr�sentation des serveurs ARM�: Ian Ferguson et Mark Shuttleworth au Computex 2012 https://www.youtube.com/watch?v=LhZ2SOdjLK0

4. https://www.lightwaveonline.com/network-design/packet-transport/article/16663424/ezchip-samples-np3-npu

5. https://people.ucsc.edu/~warner/Bufs/NP-3.pdf

6. https://llvm.org/pubs/2006-01-LabrecqueMSThesis.pdf

7. https://www.networkworld.com/article/2171235/arm-servers-with-64-bit-calxeda-chips-to-ship-next-year.html

8. https://www.datacenterknowledge.com/archives/2014/12/26/taiwanese-firm-buys-defunct-calxedas-arm-server-ip

9. https://www.tsmc.com/download/ir/annualReports/2008_Business_Overview_E.pdf

10.

11. https://www.arm.com/company/news/2018/10/announcing-arm-neoverse

12. https://www.linkedin.com/in/drewhenry/

13. https://aws.amazon.com/ec2/graviton/

14. https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/

15. https://www.theregister.co.uk/2019/12/03/graviton2_arm_cpu_aws_ec2/

16. https://www.datacenterknowledge.com/hardware/ampere-gears-launch-7nm-80-core-arm-chip-cloud-data-centers

17. https://www.extremetech.com/computing/240821-qualcomm-begins-sampling-48-core-10nm-server-processor-market-ready-arm-based-servers

18. https://www.theregister.co.uk/2012/10/17/calxeda_arm_server_chip_roadmap/

19. https://www.nextplatform.com/2016/01/15/clever-ethernet-switching-rises-from-calxeda-arm-ashes/

20. https://www.marvell.com/embedded-processors/armada/armada-xp/

21. https://www.anandtech.com/show/5098/applied-micros-xgene-the-first-armv8-soc

22. https://www.nextplatform.com/2019/12/13/amping-up-the-arm-server-roadmap/

23. https://www.techspot.com/news/50656-arm-announces-64-bit-cortex-a57-and-cortex-a53-processors.html

24. https://www.extremetech.com/computing/120601-amd-buys-seamicro-starts-selling-intel-based-servers

25. https://www.extremetech.com/computing/277242-ampere-emag-64-bit-arm-server-platform-targets-intel-data-centers

26. https://www.extremetech.com/computing/269004-qualcomm-reportedly-plans-to-exit-server-business

27. https://www.extremetech.com/computing/259036-early-qualcomm-server-cpu-benchmarks-mean-big-trouble-intel

28. https://www.extremetech.com/computing/245496-qualcomm-announces-partnership-microsoft-48-core-falkor-cpus-run-windows-server

29. https://www.extremetech.com/extreme/221282-amds-first-arm-based-processor-the-opteron-a1100-is-finally-here

30. https://en.wikichip.org/w/images/3/34/408-X1_PB.pdf

31. https://fuse.wikichip.org/news/776/x-gene-3-gets-a-second-chance-at-ampere-with-a-new-32-core-16nm-arm-processor/

32. https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.430-X-Gene- Singh-AppMicro-HotChips-2014-v5.pdf

33. https://www.hotchips.org/wp-content/uploads/hc_archives/hc26/HC26-11-day1-epub/HC26.11-4-ARM-Servers-epub/HC26.11.410-Opteron-Seattle- Blanc-AMD-HotChipsAMDSeattle_FINAL.pdf

34.

35. https://www.anandtech.com/show/10353/investigating-cavium-thunderx-48-arm-cores

36. https://fuse.wikichip.org/news/1316/a-look-at-caviums-new-high-performance-arm-microprocessors-and-the-isambard-supercomputer/

37. https://www.nextplatform.com/2017/11/08/qualcomms-amberwing-arm-server-chip-finally-takes-flight/

38. https://www.nextplatform.com/2017/12/06/deep-dive-qualcomms-centriq-arm-server-ecosystem/

39. https://www.nextplatform.com/2017/12/12/battle-datacenter-compute-qualcomm-centriq-versus-intel-xeon/

40. https://www.nextplatform.com/2018/05/10/what-qualcomms-exit-from-arm-server-chips-means/

41. https://www.kitguru.net/components/cpu/anton-shilov/nvidia-and-samsung-drop-development-of-server-class-arm-chips/

42. https://www.anandtech.com/show/8357/exploring-the-low-end-and-micro-server-platforms/18

43. https://www.firstpost.com/tech/news-analysis/samsung-developing-arm-based-server-chips-3605711.html

44. https://www.baikalelectronics.com

45.

46. https://www.socionext.com/en/products/assp/SC2A11/

47. https://semiaccurate.com/2011/08/05/what-is-project-denver-based-on/

48. https://www.anandtech.com/show/15253/80core-n1-nextgen-ampere-quicksilver-the-antigraviton2

49. https://www.nextplatform.com/2019/11/13/a64fx-arm-chip-gets-a-big-push-from-cray/

50. https://community.arm.com/developer/tools-software/hpc/b/hpc-blog/posts/technology-update-the-scalable-vector-extension-sve-for-the-armv8-a- architecture

51. https://www.eweek.com/servers/fujitsu-chooses-arm-over-sparc-for-its-next-supercomputer

Remarque�: Cet article ne repr�sente que l'opinion personnelle de l'auteur et n'a rien � voir avec une organisation. S'il y a des erreurs ou des lacunes, veuillez les critiquer et les corriger dans le message. Pour un �change de technologie suppl�mentaire, vous pouvez ajouter mon WeChat/QQ�: 490834312. Si vous souhaitez partager vos produits secs techniques sur ce compte public, merci de me contacter �galement :)

Merci d'avoir lu et soutenu�! Compte public WeChat ��Technologie de stockage d'entreprise��: HL_Storage

Avis de non-responsabilit�: Cet article est reproduit en ligne et le droit d'auteur appartient � l'auteur original. Si les vid�os, images et textes utilis�s dans cet article impliquent des probl�mes de droits d'auteur, veuillez nous en informer d�s que possible, et nous supprimerons le contenu imm�diatement ! Le contenu de cet article est l'opinion de l'auteur original et ne signifie pas que ce r�cit officiel est d'accord avec son opinion et est responsable de son authenticit�.

FIN

Route de la soie

Apprenez � conna�tre la Chine

"Historique" Chronique de la puce du serveur Arm

2.1.1 Calxeda 2011

3.1.1 eMAG-X-Gene32018