Hipu Profile Design --DAC19 circuit de détection cible FPGA système runner-up concours de design introduit | AI Yanxishe 157 Résumé de la conférence

Lei Feng réseau AI Yanxishe par: DAC19 détection de la cible est conçu pour un seul objet cible détecté extrémité mobile du jeu, faible consommation d'énergie et gagne une grande précision de détection. Notre équipe a conçu une profondeur algorithme d'apprentissage ShuffleDet simple détection de cible et accélérateur matériel AI pour Xilinx ZU3, et a remporté la deuxième piste de FPGA. La part principale présenter notre équipe de conception.

Partager Président: Zhao Wenzhe, chercheur à l'Institut de l'intelligence artificielle et la robotique, l'Université Xi'an Jiaotong, chercheur invité à l'Institut polytechnique Rensselaer, les principaux intérêts de recherche comprennent l'architecture informatique, le code de correction d'erreurs de conception, et la conception de solutions de stockage d'entreprise.

Ouvrir le lien de classe: http: //www.mooc.ai/open/course/674 =% de 20leifeng0717?

Partager Sujet: Hipu Profile Design --DAC19 la détection des cibles FPGA système runner-piste concours de design présenté

grandes lignes de l'action:

  • DAC19 jeu de fond;

  • Sélection d'algorithme et de formation introduit;

  • A propos de l'accélérateur AI conception d'un usage général;

  • Analyse des performances et des conclusions.

Lei Feng réseau AI Yanxishe au contenu des actions se résument comme suit:

Bonjour à tous, nous venons de Xi'an Jiaotong Institut universitaire d'intelligence artificielle. Lors de la réunion du CAD de cette année à la deuxième place du concours de conception du système d'automatisation, nous présentons aujourd'hui principalement la conception. Je suis responsable de cette partie du programme de l'algorithme, l'algorithme a fait partie du bâtiment principal, la livraison de trame de couche de détection cible de compression algorithme de réseau de neurones, suivi d'un discours sur la principale conception de l'architecture matérielle de Zhao.

C'est NVIDIA, Dajiang ils ont établi conjointement un match, l'ensemble des données fournies par la Dajiang - détection de cible les ensembles de données de capture Dajiang UAV, la course en termes de précision, la vitesse, l'efficacité du réseau en considération après cela, donner les équipes un score correspondant, ce sont probablement de l'introduction du jeu.

Dans le jeu, deux aspects de l'algorithme est principalement le travail, est de sélectionner un premier réseau de neurones, les besoins de travail de configuration du réseau de neurones dans une très faible sur BP, l'espace de stockage préféré est faible, un haut rendement comme une caractéristique extraite le réseau de base. Dans ce procédé de formation de réseau, essentiellement optimisé deux parties, le premier réseau neuronal pré-entraîné, le second est optimisée pour l'optimisation du matériel sera ShuffleNet V2 devient un multiple de 8, afin de faciliter la configuration ultérieure.

Le deuxième aspect travaille principalement algorithme de quantification introduit réseau, le réseau est également quantifiée en deux parties principales, la première couche de fusion spécifique, comme représenté sur la partie gauche. Procédé de quantification de 8 bits est suivi, comme représenté sur la partie droite.

Voici quelques points clés sur le processus de quantification, le premier point est que le réseau de neurones est plus petit, plus le degré de difficulté à quantifier, regardez la partie droite de la figure ci-dessous, est quand nous faisons une expérience afin de vérifier cette affirmation. Le deuxième point est les cabines précédentes fonction qui poids et principalement pour protéger le débordement de sortie ne soit pas générée dans la plage requise, il est préférable de laisser la période de formation du réseau, et fournit les poids sont relativement stables alors fonction participer. Le troisième point est ratio_a, reportez-vous à la valeur de sortie, la valeur des statistiques est un processus très délicat. Le quatrième point à noter est que, après l'achèvement de la quantification hors ligne, dans la pratique, les besoins de gradient pour être sautés fonction de tour.

A propos de quantifier dans ce domaine, nous vous suggérons de lire les articles suivants, comme indiqué ci-dessous.

J'ai terminé cette section, suivie par Zhao à présenter.

Après est terminée, il est nécessaire de nos paramètres réseau et la formation pour concevoir une accélération matérielle du processeur, de sorte que le réseau de neurones peut être exécuté efficacement. Pour atteindre ces objectifs, nous avons conçu un accélérateur générique peut prendre en charge presque tous les réseaux, nommez-Hipu. Cet accélérateur comprend plusieurs modules principaux, le premier module de commande est en général, en plus d'avoir une des opérations matricielles et vectorielles. Dans Hipu qui traitent principalement avec convolution, convolution sage profondeur, rembourrage, mise en commun, avec les opérations liées à la chaîne, ainsi que le fonctionnement aléatoire concat.

Regardez quelques opérations de base, comme le montre le schéma de droite, la configuration de base de la figure Hipu.

Ensuite, regardez le processus de calcul, convolution, par exemple, lorsque les données ont été mis MRA, après Mrb, la commande de démarrage émis par le module de calcul de convolution alors une convolution conv_ctrl désassemblé dans de nombreuses opérations vectorielles et matricielles instruction d'opération, les données de lecture interne MPU & VPU viendra, puis envoyé à la fin d'un VPU faire après l'opération de calcul, après le retour de l'opérateur en MRA complet d'écriture, le processus est probablement le cas. convolution DW est similaire, comme le montre la figure.

Let look à peu, tout ce que nous sommes d'abord pas terminé celui lié optimisation comptage retourner immédiatement à module_c par exemple, faire un point de coupe, la première moitié des données directement à la moitié arrière des données, respectivement, par 1x1 convolution, convolution puis à travers le 3x3, 1x1 et puis après après convolution, et faire un remaniement avant la sortie de données. Dans ce processus, ne veut pas dire même fini de faire une sortie de convolution immédiatement. La seconde optimisation continue à parler, avant de parler du problème de cette approche, le problème est nécessaire de lire 8 canaux d'entrée des données, mais seulement la couche d'entrée RVB trois chemins, si vous voulez traiter ces données, il est nécessaire pour compenser 5 canal 0 de l'efficacité de calcul, il était seulement trois huitièmes. Pour résoudre ce problème, si la première couche est une convolution 3x3, envisager de faire une telle conversion, les données pertinentes est disposée sur, comme indiqué ci-dessous, cette approche permet l'efficacité de convolution est beaucoup amélioré.

En outre, nous prenons un autre regard que l'optimisation du système, le système est divisé en côté PS et le côté PL, la plupart de l'opération de convolution est effectuée sur le côté PL, la dernière couche est placée sur le côté de sortie PS à faire. opération circonvolution faire beaucoup de temps dans le côté PL, côté PS est libre, mais maintenant convoluer le temps de graphique actuel, la partie inférieure sera un prefetch PS figure, peut être considérablement de cette façon réduire le temps consommé dans l'image. Calc calcul d'addition d'Bbox est optimisée, prolongée par une fonction C, le temps de calcul est réduit de 0,6 ms à 2 ms, et le temps de lire l'image peut être réduite. Enfin, il y a un problème, avant d'utiliser la carte SD est pas la meilleure carte SD, est-il un côté PS toujours interpréter des plans, mais l'embarras côté PL a terminé le décompte, puis ajouté une horloge gating pour réduire la consommation d'énergie .

Suivant un résumé des Hipu. Notre Hipu peut travailler dans une seule fréquence et le mode double fréquence à 233MHz, le nombre maximum de force 268Gops. La proportion des ressources, station LUT à environ 62%, il y a place à l'amélioration continue. API de programmation pour la C et la compilation RISC-V-style. Le principal support d'opérations comme indiqué ci-dessous:

La figure est l'analyse de la performance mission Hipu du concours dans un environnement différent de configuration:

Présenter notre feuille de route, comme le montre:

Enfin, s'il vous plaît profiter de notre design 2 Demo:

La présentation d'aujourd'hui est principalement ceux-ci, je vous remercie.

Ce sont les clients actuels partagent tous. Plus go open vidéo classe réseau Lei Feng (numéro public: Lei Feng réseau) AI Yanxishe communauté Watch. Mise au point sur le numéro public micro-canal: AI Yanxishe (okweiwu) Vous pouvez obtenir le dernier avis de temps en classe ouverte en direct.

Shenzhen Huang Gang construction principale en bois projet Hub, à partir de 00h00 le 28 et le trafic des ajustements
Précédent
Wan mot texte, 14 leaders de la recherche, vous lisez prendre « ville intelligente » un vent nouveau | CCF-GAIR 2019
Prochain
Dynamique hebdomadaire Nouvelles | BP chute joint-venture pour construire une nouvelle station de recharge de véhicules d'énergie; Wanhua acquisition chimique de l'International Chemical suédois
MNC en Chine | Sanofi engagement de continuer à accroître les investissements en Chine, Magna dans la première fabrication de véhicules contrat de joint-venture en Chine
Industrie pharmaceutique hebdomadaire Nouvelles | GSK pour identifier de nouveaux candidats pour le président, le géant pharmaceutique indien Cipla l'expansion en Chine
Xiu Shui district où un ciel soudain, 6 personnes se mouiller, aucun des propriétaires admettent
Après le ministère de la Sécurité publique souscription de catégorie A a été délivré pour un interrogatoire 13! assassiner la police du Guangdong arrêté fugitif à Nanjing
Je jouais mal GitHub: Comment un programmeur pour plusieurs étoiles fou?
2019 la meilleure utilisation de la bibliothèque dressant une carte JavaScript
Partager Pa street bike à nouveau? ! Ville Département Transport: pause complète avant de servir la rectification add
8 août Hai Yin échange du fournisseur d'électricité transfrontalier Nouvelles du Matin
Xie Wenjun derrière les années trente a éclaté: nouveau difficile veulent aussi se battre pour quelque chose
World Park Pékin célébrations « Journée nationale du Rwanda »
Les ventes de sociétés cotées font souvent les prix des porcs de l'Annonciation va continuer à augmenter