CVPR 2019 | 40 dollars avec vous tous les loisirs Manipulateur: systèmes de contrôle de manipulation basée sur la vision à faible coût

AI Technology Review par: Cet article est le champ supérieur des documents sélectionnés conférence vision par ordinateur CVPR 2019: Lecture « Craves contrôle du bras robotique avec un système économique basé sur la vision » de. Cet article coopération menée par l'Université Johns Hopkins, l'Université Tsinghua et l'Université de Pékin, Wang Yizhou Groupe de travail.

Cet article présente un système de commande du bras robot basé sur la vision peut être appliquée à 40 $, il n'y a pas le bras robotisé pas cher sur le capteur. Avec un seul système de caméra en utilisant la profondeur de convolution de réseau de neurones, en temps réel manipulateur estimation pose en trois dimensions, et formés par l'agent d'apprentissage de renforcement signal de commande de sortie. En outre, le système de contrôle peut mettre en oeuvre le bras de robot atteint une coordonnées en trois dimensions de données un espace donné. Sur cette base, nous nous rendons compte également la tâche de saisir automatiquement les dés. De plus, l'estimation de la pose et de la formation intensive pour apprendre totalement dépendant des données générées dans un environnement virtuel, sans surveillance humaine et être étiquetés.

Site Web du projet: https://craves.ai (y compris le code et les données)

Documents Adresse: https://arxiv.org/abs/1812.00725

brève introduction

Comment donner une vision du robot, a permis de réaliser des tâches complexes dans un environnement changeant au cours des dernières années a attiré l'attention de plus en plus de chercheurs. Cependant, la plupart des études précédentes en utilisant un robot industriel coûteux (d'une valeur de plus de dix mille dollars), ce qui limite sans doute les chercheurs généraux d'entrer sur le terrain. Par conséquent, Ce papier vise à construire une plate-forme pour la robotique la recherche et l'éducation par le matériel à faible coût pour abaisser le seuil de la recherche de matériel dans des domaines connexes.

Nous avons choisi le bras robotique OWI-535, parce que:

  • très pas cher Seulement environ 40 $;

  • disponibles Sur Taobao ou Amazon peuvent être achetés;

  • très populaire , Un grand nombre d'utilisateurs à télécharger modification corrélative et l'exploitation de la vidéo sur Youtube.

En même temps, ses lacunes sont évidentes: Aucun capteur Et ne peut donc pas obtenir un signal de rétroaction et d'obtenir un contrôle précis. Mais les gens peuvent faire un peu de bras robotique de pointe pour compléter la tâche en observant le bras robotique par le contrôle à distance, par exemple, des tamis empilés. Comment comme un homme d'algorithmes de vision pour contrôler un capteur de bras robotisé est pas l'objet de cet article.

Nous avons choisi d'utiliser une caméra RVB externe comme un capteur de vision, en temps réel pose manipulateur d'estimation en trois dimensions, et générer un signal de commande de rétroaction. schéma de principe du système tel que représenté ci-dessous:

Le système lit d'abord une entrée (figure vert) flux vidéo RVB, qui est entrée dans le réseau entre la pose estimée (en bleu) restaure les informations de position en trois dimensions du bras de robot. Enfin, le dispositif de commande est reçu par le renfort (partie orange dans le dessin) constituant l'agent de formation des informations de position tridimensionnelle, génère un signal de commande, commande le mouvement du moteur du bras de robot.

cet article La principale contribution Y compris:

  • Conception d'un faible coût, la mise en uvre du système de manipulation sensorless;

  • Nous avons proposé une combinaison de domaine semi-supervisé géométrique a priori adapter les méthodes pour obtenir module d'estimation de pose manipulateur migré du virtuel au réel;

  • Il fournit trois ensembles de données annotées et un environnement virtuel pour favoriser le développement de futures recherches dans ce domaine.

Le code source ouvert et les données connexes ont été, disponible à partir de la page d'accueil du projet (https://craves.ai).

Voici la description de l'ensemble des données recueillies, le module d'estimation de pose et les résultats expérimentaux.

ensembles de données collectées

Étant donné que le coût d'acquisition des données réelles avec un étiquetage précis est très élevé, donc nous avons construit un environnement virtuel pour générer automatiquement des données d'annotation pour la formation. Afin de vérifier la performance du modèle dans la scène réelle, nous recueillons deux séries supplémentaires de données réelles, et l'annotation manuelle. ensembles et environnements virtuels sont disponibles pour téléchargement trois données.

Le premier ensemble de données est ensemble de données virtuel (Virtual Dataset) . Nous avons utilisé Unreal 4 moteur et son plug-ins Unrealcv pour le rendu et les scénarios d'acquisition de données. Lors de la génération des données de formation, notre position sur la caméra, des scènes d'éclairage et d'arrière ont été randomisés pour améliorer la capacité de généralisation du réseau dans la scène réelle. Nous avons recueilli un total de 5000 images sous forme de données de formation. Étiquette cube virtuel généré automatiquement, comprenant une information de position en trois dimensions.

Le deuxième ensemble de données est ensemble de données Laboratory (Laboratoire du jeu de données) . Nous avons pris des photos du bras robotique dans un environnement de laboratoire, les paramètres d'étalonnage en trois dimensions et l'attitude à l'intérieur et à l'extérieur de l'appareil photo de bras robotisé. ensemble de données de laboratoire se compose de quelque 500 images, uniquement pour les tests.

Le troisième ensemble de données est ensemble de données YouTube . Nous explorons les vidéos similaires sur YouTube bras robotique OWI-535, et une main marquée, en raison des paramètres de la caméra interne et externe sont inconnus, alors nous avons marqué la position en deux dimensions des points clés. ensemble de données YouTube se compose d'environ 500 images, uniquement pour les tests.

jeux de données Exemple d'image ci-dessous:

Sur deux lignes: les données virtuelles, troisième ligne: données de laboratoire, la dernière ligne: données YouTube

La migration en trois dimensions peut poser une estimation

Manipulateur module d'estimation de pose en trois dimensions est le composant principal du système. Qui est une entrée d'image RGB, et la sortie est une position en trois dimensions du bras de robot, à savoir, l'angle de chaque arbre. Plus précisément, il se compose de deux sous-modules: Le premier sous-module il est Deux dimensions estimation du point critique réseau de neurones, pour restaurer les coordonnées bidimensionnelles des points clés de l'image d'entrée; Le deuxième sous-module Sur la base de deux dimensions point critique Restaurer la position en trois dimensions .

Le point clé estimer réseau de neurones à deux dimensions en utilisant le réseau Stacked Hourglass , le réseau avec une structure complète de convolution. Nous clé 17 prédéfinies sur le bras robot de bon, le réseau de sortie de la figure 17 qui lui correspond chaud canaux. Dans la prévision, nous prenons la position de mise au point de la réponse figure la plus évidente que le résultat de prédiction.

Après l'obtention de la position à deux dimensions, le deuxième sous-module de réduction à trois dimensions. Nous bras robotique modélisé comme un modèle de corps rigide sur quatre degrés de liberté, la position de 17 points clés à respecter certaines contraintes. Nous avons une solution d'équation d'optimisation en ligne, à savoir en minimisant l'erreur entre la position prédite et le modèle à trois dimensions d'une position de clé de reprojection en deux dimensions afin d'obtenir une solution optimale de l'angle de l'arbre de chaque bras de robot.

De plus, nous vous proposons un nouveau algorithme de migration de domaine semi-supervisé . Utilisez uniquement le réseau de données virtuel pour la formation, la performance dans l'image réelle est pas assez bon, mais après avoir utilisé notre algorithme, la performance de généralisation est nettement améliorée. La figure ci-dessous montre le schéma synoptique de l'algorithme de migration de domaine. Nous utilisons d'abord des images virtuelles pour être réseau de neurones pré-formés. Après cela, nous ne marquera pas sur la vraie image dans le réseau, pour générer la prévision initiale. En raison des différences entre les domaines, les prévisions initiales peuvent générer des erreurs. Nous prédisons les résultats basés sur la reconstruction initiale, et ce retour de résultat à une projection à deux dimensions, ont obtenu le points clés de la prévision optimisée. Depuis l'introduction de la structure rigide du robot solide armer une information a priori dans le processus, de sorte que le résultat prédit de l'optimisation sera mieux que la prévision initiale. Enfin, nous devons affiner le réseau de neurones avec l'image réelle générée par cette méthode et faux étiquetage.

Nous utilisons d'abord des images virtuelles pour être réseau de neurones pré-formation (ligne en pointillé vert). Ensuite, nous ne l'avons annoté l'image réelle dans le réseau, pour générer la prévision initiale. Ensuite, la reconstruction en trois dimensions basée sur les prévisions initiales et les résultats de ce retour de projection à deux dimensions pour obtenir les points clés de la prévision optimisée. Enfin, le réseau peaufinage (bleu sur la figure).

Les résultats expérimentaux

Le point clé de la prédiction à deux dimensions:

Comme indiqué ci-dessous, nous montrons que l'algorithme de migration de domaine semi-supervisé (dernière ligne) dans un environnement de laboratoire, nous proposons, contre seulement utiliser le réseau de données de formation virtuelle (première ligne) la performance est tellement améliorée. Et la méthode est supérieure aux autres la migration de domaine algorithme non supervisé, y compris CycleGAN et similaires. Plusieurs domaines comparatifs sont impliqués dans la méthode de migration vers l'ensemble de données que le domaine cible Lab. La précision de ses données sur YouTube jamais vu par rapport à d'autres méthodes ont considérablement amélioré, ce qui indique que le réseau comme une généralisation toute la promotion.

Le tableau ci-dessus est le modèle obtenu sous différents modes de migration des deux dimensions la précision de détection du point critique. Les données de test sont définies dans les données virtuelles, des ensembles de données de laboratoire, ensemble de données YouTube, en fait, YouTube-vis du calcul est visible aux points clés des résultats.

Résultats de la reconstruction en trois dimensions:

La figure suivante montre les résultats qualitatifs de la reconstruction en trois dimensions. La figure est l'image d'origine, la figure suivante est le résultat de rendre la reconstruction en trois dimensions et la visualisation des images. Être vu, le système peut être la reconstruction en trois dimensions du bras du robot dans un contexte complexe. Les résultats quantitatifs montrent que les ensembles de données de laboratoire, l'erreur de reconstruction de l'angle de bras de robot est d'environ 4,8 degrés.

Résultats de contrôle: Manipulator

Nous utilisons l'algorithme d'apprentissage de renforcement de l'agent GPDD formés pour interagir dans un environnement virtuel. Entrez le corps de prise de décision intelligente est l'état actuel, l'état cible et un moment. Un signal de commande est délivré en sortie vers le moteur 4 du moteur. Nous avons testé sur deux tâches.

La première tâche est portée, à savoir faire l'extrémité avant d'un bras de robot juste au-dessus de la cible spécifique de portée. Ceci est un manipulateur de « compétences de base ». Pour évaluer la qualité des résultats en mesurant la distance horizontale entre la position finale et la position cible. La figure est une vue schématique de notre dispositif expérimental, la plaque de référence inférieure 9 point noir devient la position cible. Dans cette tâche, nous pouvons obtenir une précision et un contrôle analogue à l'homme.

Il peut bien travailler dans des perspectives différentes, arrière-plans.

La deuxième tâche est dés assurant une prise, la position en trois dimensions des matrices de l'étage de mesure donnée manuellement.

Plus de résultats Veuillez visiter la maison du projet et des documents.

page d'accueil du projet: https://craves.ai (y compris le code et les données)

Vidéo de démonstration: https://www.bilibili.com/video/av47292064/

Documents Adresse: https://arxiv.org/abs/1812.00725

références:

Alejandro Newell, Kaiyu Yang et Jia Deng. Réseaux Hourglass Stacked pour l'estimation de pose humaine. Dans Conférence européenne sur l'ordinateur Vision 2016.

Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang, et Alan Yuille Unrealcv: .. mondes virtuels pour la vision par ordinateur Dans Actes de la 25e ACM Conférence internationale sur le multimédia, 2017.

Jun-Yan Zhu, Taesung Park, Phillip Isola et Alexei A.Efros. Image à l'image de traduction apparié en utilisant les réseaux accusatoires cycleconsistent. Dans Conférence internationale sur l'ordinateur Vision 2017.

2019 Sommet mondial sur l'intelligence artificielle et robotique

2019 Nian 12 Juillet à 14 , Organisé par la Fédération chinoise Computer (CCF), Lei Feng réseau et l'Université chinoise (Shenzhen) co-parrainé par Hong Kong, Shenzhen, Institut de recherche sur l'intelligence artificielle et robotique de Co 2019 Sommet mondial sur l'intelligence artificielle et robotique (Désigné par CCF-GAIR 2019) Shenzhen sera le rideau officiel.

D'ici là, le lauréat du prix Nobel JamesJ. Heckman, académicien étranger, président du haut du monde, bien connu Fellow, un certain nombre d'invités poids lourds seront personnellement Zuozhen , Pour discuter de l'intelligence artificielle et sur le terrain complexe de situation de survie de la robotique, la production, l'investissement et ainsi de suite.

Limitée a présenté aujourd'hui trois billets code promotionnel 850 yuans, des billets pour le prix initial de 1999 yuans, ouvrez l'un des liens suivants peuvent être utilisés, après seulement coupons 1149 yuans, limitée 3, premier servi, jusqu'à épuisement du stock.

https://gair.leiphone.com/gair/coupon/s/5cff23c18a14c

https://gair.leiphone.com/gair/coupon/s/5cff23c189e2c

https://gair.leiphone.com/gair/coupon/s/5cff23c189b2d

Cliquez sur Lire l'original Dans le groupe d'échange top CVPR verra CVPR plus dynamique 2019

Vous ne devriez pas frotter les uns contre les autres après le parfum? L'approche du parfum original a été mal ......
Précédent
bien-être | CVPR don 2019 Tous les articles Collection (1,37 g)
Prochain
« Chop inventaire à la main, » Ceci est ma vie dérive de la liste de coupe à la main de Shanghai
Pas d'argent, puis choisissez un plus 7 vaut le coup?
Un trou dans le cerveau, et un peu APP technique | Interview pierre
iOS 13 mystérieuses nouvelles fonctionnalités préoccupation immédiate
« EXO » « Partager » 190614 vétérans hardcore soeur sud-coréen rappel: « Je crois qu'il n'y a pas de plafond pour lui, alors il a pris sa retraite il ».
J'étais une petite femme, ceci est mon 2019 « mains chop liste »
BLOC TÉGIQUE 01: transparent explorer cette version est vrai circuit
190614 Liu Yuning enregistrer le programme plus chaud au cur tard dans la nuit le confort boanmycin ventilateurs d'attente
Vous ne pouvez pas payer la 911 GT3, peut-être trop amusant de ce haut-parleur
« Forging » rasoir commandos de la police armée repousser les limites de l'affûtage « couteaux »
boîte de millet A3665 Shots SnapDragon Andrews natif
7 Pro, une expérience quotidienne: par conséquent un rôle de soutien, est l'écran protagoniste