L'outil d'optimisation du compilateur le plus commun! bâtiment MIT, le taux de précision est cinq fois les méthodes traditionnelles

sécher à partir du fond de l'évidement treize non-Temple rapports Qubit | Numéro public QbitAI

Quel est l'état d'un nouveau code à exécuter sur leur propre puce? Intel ne sont pas eux-mêmes de nouveaux outils clairement à la maison de quelqu'un.

Ceci est la recherche proposée par le MIT a pris un an, appelé Ithemal La fonction de base est très simple:

millions d'analyse peuvent être décrits automatiquement des blocs de base (instructions de calcul des fragments de base), de savoir exactement comment effectuer les moyens de calcul différentes puces.

L'effet est très étonnant.

MIT Nouvelles a révélé que le modèle traditionnel de la conception artificielle, la prédiction de la vitesse de fonctionnement de code basé sur la puce, et le taux d'erreur entre la vitesse de fonctionnement réelle de jusqu'à 50%.

Même les fournisseurs de puces, comme propre code de prédiction d'Intel sur la vitesse de la puce, le taux d'erreur a atteint 20%. Et Ithemal, le taux d'erreur était seulement 10%.

Cinq fois la performance de la méthode conventionnelle, Intel 2 fois.

L'ensemble du processus est automatisé et ne nécessite pas d'intervention humaine, il sera en mesure d'analyser rapidement des centaines de milliers ou des millions de blocs de base.

Et General Motors, il peut rapidement apprendre le code en tout cas la performance de la nouvelle architecture de puce, que ce soit l'alchimie de l'apprentissage machine, ou d'une chaîne de technologie de chiffrement, ou les optimisations du compilateur, etc., peut contenir en direct.

Les chercheurs de l'utilisation partagée d'un tel scénario:

Si vous souhaitez former un modèle sur une nouvelle architecture de puce, comme TPU de Google, il vous suffit de recueillir ces données à partir du schéma, exécutez après l'analyseur, pour former Ithemal, vous pouvez obtenir un modèle qui peut prédire la performance. "

Pour les performances de la puce complète, ce qui permet le code de fonctionner plus efficacement, ce qui est un progrès révolutionnaire.

Basé sur le réseau de neurones, évitant « éléphant »

En règle générale, pour que le code à exécuter efficacement sur la puce, les développeurs de compilateur combiner les performances d'un modèle de conception pour simuler le fonctionnement du code sur l'architecture de la puce.

Les développeurs d'optimiser davantage le code ces informations pour améliorer encore l'efficacité du code, briser le goulot d'étranglement de la puce.

Bien que cette ligne de pensée aucun problème, les mensonges trouble dans la façon de concevoir le modèle de performance, la méthode traditionnelle est une fraction des experts à la conception artificielle.

Le visage de l'architecture de puce complexe, ce qui est un peu le sentiment « d'éléphant », il est un processeur Intel, sa description architecture de puce document, jusqu'à 3000 pages.

Et le contenu est pas nécessairement complète, en tenant compte de la concurrence commerciale et de la sécurité technologique, Intel devra ignorer délibérément une partie du contenu, ce qui a augmenté sans doute la difficulté - l'homme aveugle a touché l'éléphant, peut être mutilée.

Sans parler de l'architecture de la puce moderne, non seulement opaque, mais son complexe et difficile à comprendre. Vous voulez obtenir un modèle de performance, il est difficile, vous voulez obtenir un modèle de performance plus précis, est plus difficile.

approche MIT, en commençant sans passer par le dilemme « éléphant », mais un réseau de neurones, l'apprentissage de « données ».

Ces données sont les effectue à puce « blocs de base » de toute fonction pour ajouter un nombre moyen de cycles souhaité, aucun manuel.

Non « voir » à travers l'entrée même avant que le bloc de base et l'architecture puce, le modèle peut être formé donner le nombre de prédire la vitesse de la puce effectuer plus précisément le code.

Comme on dit Rome n'a pas été construite en un jour n'est pas .

La naissance du MIT est aussi un outil puissant Pas à pas .

La première étape: un indicateur de données de formation « bloc de base »

Tout d'abord, les chercheurs proposent un outil de réseau de neurones - à " bloc de base « Mark sous la forme de données de formation.

Le but est de prédire automatiquement une puce donnée, le temps d'exécution requis pour le bloc de base.

Les résultats ont montré que, par rapport au modèle de réglage manuel traditionnel, la précision est beaucoup plus élevé.

Cet outil est appelé Ithemal, l'étude a également publié dans le ICML 2019.

nom Ithemal complet est appelé " Je nstruction TH roughput E stimator utilisant MA échine L gagnant ».

Inspiré par la profondeur du réseau de neurones, qui utilise une nouvelle approche axée sur les données pour prédire un certain bloc d'instructions.

Ithemal le problème d'estimation de débit est modélisé comme une tâche de régression, et utiliser beaucoup d'utilisation de jeu de données étiquette de séquence DNN est mis en correspondance avec les valeurs de débit réel, afin d'apprendre à prédire.

Plus spécifiquement, Ithemal RNN l'aide d'un multi-échelle hiérarchique, de sorte que chaque instruction pour générer un insert séparé, suivie par une connexion à une instruction incorporée dans le débit prédit.

Dans tous les points de référence, EMCP (EMCP) est réduite de plus de 50% Tout en offrant une vitesse d'estimation rapide.

Lors de la génération d'une prédiction de haute qualité, la spécification Ithemal seule ISA et les données de formation, y compris les instructions et les spécifications opérandes explicites et implicites.

Et avec un autre modèle, Ithemal sans aucune spécification claire ou la modélisation, vous avez seulement besoin d'apprendre une aide importante pour améliorer les détails de la structure du système de micro-débit peut être.

Les chercheurs ont également des ressources liées Ithemal dans l'open source sur GitHub: https://github.com/psg-mit/Ithemal

Deuxième étape: lancement Performance Modèle Kit de validation

Puis, en Novembre l'année dernière, le Symposium international IEEE sur la charge de travail conférence Caractérisation, les chercheurs ont présenté une suite de tests de référence .

Le kit se compose de blocs de base de différents domaines, y compris l'apprentissage automatique, compilateur, de la cryptographie et de graphiques, peut être Utilisé pour vérifier le modèle de performance .

Il est intéressant de noter que l'étude est terminée et Google ensemble.

Ils seront plus de 30 millions de blocs de données à la collection BHive Ceci est un bloc de base x86-64 référence de vérification du système de modèle de performance.

Les chercheurs ont utilisé BHive ont évalué la performance de quatre modèles existants: IACA, LLVM-mca, Ithemal et OSACA.

blocs de base et leur débit prédit

Dans leur évaluation, Ithemal la vitesse de prédire le code en cours d'exécution puce Intel, à Plus rapide que le propre modèle de performance d'Intel établi .

De plus, les données chercheurs ont bien capture les propriétés de base de deux applications Google: Spanner et Dremel.

A ce stade, le développeur et le compilateur peut utiliser cet outil pour générer un code qui peut être plus rapide sur la conception de puces diverses « boîte noire », un fonctionnement plus efficace.

Génie électrique et informatique (SIGE) Professeur adjoint Michael Carbin a déclaré:

processeur informatique moderne opaque, terriblement complexe, difficile à comprendre. La préparation de ces processeurs pour effectuer aussi vite que le code informatique possible est également confronté à des défis énormes.

Cet outil est modélisé pour toutes les performances de ces puces, une étape importante afin d'améliorer l'efficacité.

La troisième étape: générer automatiquement des optimisations compilateur

Enfin, NeurIPS réunis en Décembre l'année dernière, les chercheurs proposent une Génération automatique des optimisations du compilateur La nouvelle technologie.

Plus précisément, ils génèrent automatiquement un algorithme, appelé Vemal Le code spécifique est converti en un vecteur, il peut être utilisé pour le calcul parallèle.

algorithme de vectorisation main avec compilateur LLVM respect (compilateur de l'industrie populaire) sont utilisés pour de meilleures performances Vemal.

Le principal est d'explorer un raccord Figure politique de réseau de neurones Pour simuler son (entier la programmation linéaire) des décisions optimales prises par solution ILP est possible.

Les résultats montrent que la méthode génère un schéma de vecteur dans les paramètres temps d'exécution statiques et sont mieux que le heuristiques du compilateur standard de l'industrie performance.

Du MIT Computer Science et Laboratoire d'intelligence artificielle

Trois documents sont de la centrale de recherche d'intelligence artificielle du MIT - Informatique et Laboratoire d'intelligence artificielle, appelé CSAIL.

La figure centrale est Charith Mendis, trois documents, il y a deux pour lui.

Il est né au Sri Lanka, où le Maître est venu au MIT, est ACM Fellow, disciples proches CSAIL responsables universitaires Saman Amarasinghe - le dernier étudiant au doctorat.

2015 Institut de recherche Microsoft Redmond au nom de la pratique, la direction de la recherche principale est le compilateur, l'analyse des programmes et de l'apprentissage machine.

Il espère qu'à l'avenir la majorité de l'optimisation du compilateur génère automatiquement et l'apprentissage, plutôt que d'écrire manuellement. Ils produisent non seulement un code plus rapide et sera plus facile à développer et à entretenir.

Et maintenant, une série de travaux, se déplace dans cette direction.

La prochaine étape immédiate, ils forcera le modèle à expliquer les méthodes de recherche pour savoir pourquoi un modèle particulier peut faire des prédictions.

portail

Blog Adresse:

papier Ithemal Adresse:

papier BHive Adresse:

Génération automatique de papier de compilateur Adresse:

- FIN -

Qubit QbitAI · titres sur contrat

Suivez-nous, la première fois informé l'avant-garde des développements scientifiques et technologiques

Chaque image est livrée avec BGM? Un frère d'Oxford, un artefact open source, réalise un spectre sonore de conversion d'image arbitraire
Précédent
2019 clair nord destination de l'emploi des diplômés: la politique du Nord Nombre, les grandes entreprises Tsinghua proportion
Prochain
Par 700000! Millet récompense personnel technique de base, Cui Baoqiu: laisser les ingénieurs ont un sentiment d'accomplissement
Google retracée acquisition de 25 milliards $ de Salesforce! services de cloud computing de Split, Amazon, Microsoft contre-attaque
10000 $ prix, il a triché pour obtenir la première place Kaggle, sauter aux entreprises de démarrage en étoile Silicon Valley
Une retraite programmeur avec une grande méthode de la géométrie de l'école, de sorte que cent ans des problèmes de mathématiques approche de la limite théorique
Moi, Lewandowski, j'ai volé les secrets des véhicules sans pilote de Google et suis passé à Uber, maintenant je dois payer 880 millions
Chi Chuan GS8S bande-annonce officiellement publié montrant une trompette de taille intermédiaire de positionnement SUV GS830 Mars a officiellement dévoilé
Audi cultiver le marché chinois, les voitures domestiques augmentera à 12.1 Quelle est votre nourriture?
Non inscrit déjà cette course folle voitures de marque chinoise à la fin est l'histoire derrière?
Chine 13 salles de retourner au travail: mettre les vieux films, box-office minimum est seulement 1800025 yuans
Moins de 7 sera en mesure d'acheter un VUS intermédiaire trop douce X70M attaque hardcore tchèque
32 affiches, 32: merci
Pas le scooter des personnes âgées, mais les quatre premières villes dans le nouveau véhicule énergétique Elf-Wuling dévoilées