Cas | compte la force de combat limitant la sonde de détection de cible sur la scène

La part de marché d'aujourd'hui est très orienté développeurs qui se partageront un relativement biaisé en faveur du combat, est plus comme une expérience méthodologique commune de la façon de régler les paramètres. Il est souligné que, parce qu'une grande partie du contenu du manque de mathématiques et fondements théoriques du système, il doit être appelé Parler, comme la diminution courbe d'utilité marginale, comme la complexité de l'espace caractéristique de mentionner les concepts doivent encore être affiné et amélioré, espèrent également nous pouvons profiter de cette occasion et une discussion approfondie.

force limite comte se réfère principalement à la scène dans les systèmes embarqués, qui est considéré comme une force relativement faible pour fabriquer des puces sur le dessus de temps réel ou quasi détection de cible en temps réel. Le problème dans le monde universitaire et de l'industrie a toujours été une préoccupation, et en profondeur l'apprentissage de plus en plus d'importance à l'atterrissage en arrière-plan, cette question devient de plus en plus important.

problème

Avant de partager, d'abord soulevé plusieurs questions, nous prenons ces questions à courir à travers la part entière.

La première série de questions, dans la pratique, lorsque nous rencontrons une tâche spécifique, comme le problème de détection de véhicule populaire, il appartient à la détection de corps rigide (intérieur de l'objet à détecter aucune distorsion de la situation). Alors, combien réseau de neurones de calcul est généralement nécessaire pour répondre à la grande majorité de la détection de cible dans la scène générale, tout en assurant que peu de faux positifs? Lorsque nous avons besoin pour effectuer cette tâche sur une faible puissance de calcul de plate-forme matérielle intégrée, nous devrions être comment accomplir cette tâche?

La deuxième série de questions, si de nouvelles tâches auxquelles nous sommes confrontés est maintenant la détection de mouvement, le corps mou est détecté (l'objet est détecté la déformation interne se produit), les tâches de détection de problèmes de corps rigide face à la même existence évidemment. Eh bien, parce que nous avons fait un problème de détection de corps rigide, expérience directement emprunté pour vous?

La troisième série de questions à toucher l'âme, et depuis ont été engagés dans un corps mou rigide à nouveau, alors ne peut plus être juste une nouvelle tâche, vous pouvez appliquer le même ensemble de méthodes pour y parvenir? C'est la taille standard unique pour tous les plus préoccupés par l'approche « alchimie ». De plus, le très populaire réseau académique AutoML structure Recherche architecture réseau Recherche et ce que l'on appelle même ensemble de méthodes, que fait-il de l'importance?

Dans les caractéristiques de détection d'objets sous la force limitant le scénario de l'opérateur

Nous sommes à la limite de détection d'objet de cette méthode est considérée comme les caractéristiques de base de la force dans la scène. Google en Novembre 2016 Vitesse / précision des compromis pour le papier convolutionnel détecteurs d'objets modernes, il y a un tel résultat de détection de coco problème peut être atteint carte mAP. Il y avait le chiffre le plus populaire du réseau fédérateur et détecter le réseau de neurones, leur réseau dans différentes tailles, et une certaine capacité de la méthode, une méthode de temps court. Vous trouverez, toutes les méthodes n'ont pas dépassé la partie supérieure droite de la partie inférieure gauche le long d'une ligne en pointillés dans les projections de la FIG, à savoir où la vitesse et la précision sont « poissons et ne peuvent pas avoir les deux, » le. De même, dans MNasNet documents Google a publié en Juillet 2018, à titre de comparaison MNasNet et MobileNet-V2, et il montre aussi une courbe tout à fait similaire, sauf que l'axe horizontal remplacé par un temps de prédiction sur le téléphone du GPU temps.

Ici, nous empruntons un concept très populaire en économie, diminue la courbe d'utilité marginale pour décrire la courbe de ce document souvent se produire. Après citer un exemple bien connu de Peisi est le scintillement de Zhu Shimao quand mangé premier bol Peisi, et son bonheur peut rayer élevé à sept ou huit pour cent, a terminé deuxième bol, mai bonheur sens à déborder, mais a terminé troisième et quatrième bol bol lorsque l'estimation est sur le point de vomir, mais parler aussi de ce bonheur. En d'autres termes, chaque bol une identique supplémentaire, les gains réels obtenus Peisi devient de plus en plus petit, et même devenir négative.

Retour en haut de nos problèmes, la force est considéré comme le visage Peisi, à notre comptage détection multi-cible a augmenté de la même quantité de force chaque fois, peut apporter pour améliorer la précision de moins en moins, et enfin très peu, pire encore, Si le surajustement se produit, la courbe est également possible de baisser, ce qui est Peisi été des séjours de la même broche.

Ici, il peut être facilement dessiner une courbe simple montre. Il convient de noter que les données réelles et la courbe vont suivre la tendance générale ne sera pas strictement s'adapter. En même temps, cette courbe est ni courbe ni réciproque polynôme ou logarithmique, ce qui est exactement ce que la formule mathématique pour étudier le statu quo actuel n'est pas la profondeur de l'apprentissage peut être dérivé et résolu.

En termes simples, Il est juste une ligne auxiliaire, et que ce à quoi sert-il ?

Tout d'abord, il peut nous aider à comprendre la frontière générale où nous examinons la question.

En second lieu, lorsque nous concevons ajustement de paramètre expérimental Ils peuvent par le dessin ou faire semblant mentalement pour dessiner des courbes à différentes conditions variables, ces guides peuvent nous aider à comparer les mérites des variables. Par exemple, nous pouvons le fixer dans une variable de l'opérateur de la force de réglage, lorsqu'il est effectué quelques expériences, donc il peut être tiré d'une courbe de tendance. De même, après l'ajustement de la variable peut alors dessiner un, deux, courbe de contraste peut nous aider à juger le bien-fondé de la variable.

Le plus important, Il peut nous aider à effacer notre gamme de tâches sur cette courbe se trouve . En premier lieu, un procédé pour résoudre le problème dans les différentes sections ne sont pas identiques, le contraste entre les différentes variables dans la plage spécifiée sont pas les mêmes; en même temps, Lorsque vous trouvez la gamme actuelle des problèmes qui se trouve dans la courbe district monte une variable, cette variable vaut vraiment un effort de développement centré sur les variables .

A titre d'exemple simple, comme le montre la figure, MobileNet-v1 et v2 MobileNet-, d'après les expériences de papier ou propres, nous avons seulement besoin d'établir seulement une poignée de points peut être tiré deux courbes. Nous devons expliquer, pour la commodité de la présentation, les données uniquement sur le graphique montre la relation entre la tendance.

Il doit être note spéciale que toutes les méthodes sont un tableau comparatif sur le look idéal excellent en une priorité constante, par exemple, une des méthodes d'amélioration peu de performance (https la structure rapide downsampling MobileNet MobileNet de notre groupe depuis 18 ans, publié simple réglage fin : //www.jianshu.com/p/681960b4173d), dans les intervalles 100MFlops moins, mAP supérieur à MobileNet-v1, mais après plus de 100MFlops, la MobileNet-v1 plus faible que nécessaire.

Il faut donc définir la section de courbe est situé sur la tâche.

Les opérateurs vigueur: limitations matérielles

section Opérateurs force de limitation est elle-même une scène dans laquelle la tâche est définie sur la courbe a plus de facteur commun.

Comme nous le savons tous, le matériel lui-même est considéré comme la principale force de la puce est l'état actuel du développement de la puce, les prix des puces, et bien d'autres facteurs. Et, lorsque la scène ne sont pas les mêmes exigences, le cas où les mêmes conditions ne sont pas le même matériel. Si la tâche en temps réel, il faut été calculé à environ 30ms, bien sûr, sinon en temps réel, le ralentir n'a pas d'importance. En même temps, et dans certains scénarios exigent également la pleine puissance ne peut pas, nous devons terminer plus rapidement le temps de compter, par exemple, 10ms et ainsi de suite.

Il convient de noter la relation entre la quantité de calcul flops (nombre d'opérations à virgule flottante) ou MAC (multiplicateur plus) et le temps de fonctionnement réel:

Premièrement, étant donné que la structure de réseau ayant des caractéristiques différentes de l'accès à la mémoire calculée, résultant en un rapport de contraste linéaire défaillance entre le matériel et l'opérateur réseau vigueur flops. Ici, vous pouvez vous référer à: Momenta Wang Jinwei: laisser deux perspectives d'apprentissage en profondeur le fonctionnement plus efficace. Par exemple, très courant dans léger de convolution de la profondeur du réseau, la quantité de données unité d'extraction du support est plus petit que le calcul de la convolution ordinaire est plus petite que l'accès à la mémoire, de sorte que le cache de puce demande de plus d'accès en mémoire.

Pendant ce temps, dans la détection de cible, en plus du temps consacré à l'épine dorsale du réseau de neurones, la détection de la tête et a également passé quelques NMS de temps. Par exemple, le nombre est pas fixé dans NMS, le temps et le coût de cette partie du calcul du montant ne peut être calculé avec plus de précision.

Ainsi, si le temps directement dans le modèle de test de la vitesse mesurée, elle doit être au dispositif de mesure, il se rapporte également à une extrémité du dispositif, tel que ARM / noen, virgule flottante calcul à virgule fixe, une quantification optimisée, est très complexe, il est généralement ensuite, nous allons utiliser flops pour calculer estimation de puissance.

Par conséquent, jusqu'à présent, on peut aller sur le problème, Par la courbe auxiliaire, et de trouver les paramètres du modèle optimal et la valeur maximale dans la plage valide .

La question clé est, cette courbe comment le trouver? Cette courbe est pas vraiment nécessaire, nous serons transférés à un certain exemple de référence décrit, nous prenons alors le temps de la courbe suivante dans notre utilité marginale au-dessus derrière.

Tout d'abord, la courbe est très répandue.

Lorsque la force est le nombre enlevé, lorsque l'axe horizontal est la quantité de données, il est souvent le cas peut se refléteront aussi l'utilité marginale des caractéristiques similaires, que les données ne suffit pas lorsque nous sommes en plein temps, chaque augmentation d'une unité du nombre de données de distribution , le même modèle de ces mêmes paramètres, la précision peut être améliorée également en conformité avec la courbe d'utilité marginale décroissante.

Donc, si les données de test que vous trouverez sur l'impact des changements dans les résultats est très grande, il est très probable que votre problème n'est pas la quantité de données actuellement au stade, la nécessité de trouver des moyens d'accroître les données. Ceci est dit plus tôt cette courbe peut nous aider à définir le problème de l'intervalle.

En outre, les critères d'évaluation et de validation est ensemble pas statique, dans le cas d'autres facteurs constants, la même méthode que dans l'ensemble de validation simple, les résultats numériques nettement supérieure à l'ensemble de validation complexe.

Questions sur les ensembles de formation et de validation sont derrière nous permettra d'élargir à expliquer, nous sommes ici pour examiner le cas de tâches différentes, ce qui diminue la courbe marginale de contraste de l'utilité est la relation entre ce que?

Par la pratique, nous avons appris que le même algorithme, la difficulté de la tâche de déterminer la courbe.

Eh bien, les véhicules et les gestes des deux tâches précédentes mentionnées ci-dessus, nous pouvons comparer la tâche et la courbe de relation représentée en elle?

véhicule d'abord et les gestes de côté, regardez: Qu'est ce qui détermine la différence entre les différentes tâches il? Direct jeter un peu de sens intuitif: Telle est la complexité de l'espace de représentation, détermine la différence entre la tâche . Je ne peux appeler un sentiment temporaire, mais pas concluant, il vraiment oser conclusions. Bien qu'il soit le sentiment, mais la mise en place du sentiment d'un tel, nous pourrions peut-être de certains aider les participants à hauteur de suivi.

Alors, quelle est La complexité de l'espace de représentation Il? Ce ne sont pas une description temporaire ou quantitative du concept ne peut même pas défini avec précision. Nous pouvons voir quel genre de complexe spatial, quel type d'espace est simple:

Nous savons tous que la capacité d'apprentissage en profondeur sont les caractéristiques de base de la description des données et la généralisation, donc nous allons examiner les caractéristiques de l'aspect particulier de données comme celui-ci d'approfondir encore la compréhension. Dans les cours de cs231n Stanford je l'ai mentionné cifar10 ensemble de données, si l'échantillonnage pour chaque diagrammes de classes et moyenne, vous pouvez en moyenne, comme indiqué dans le diagramme, notre intuitive pour observer la carte moyenne, vous trouverez le plus facilement reconnaissable deuxième voiture de classe.

Ensuite, la détection de véhicule est un espace simple? Nous continuons à chercher un exemple.

Voici un exemple pour donner une moyenne, et 100 dans la série de données de la figure ville à l'arrière des données de véhicule. Vous pouvez trouver le profil de toute une voiture est sortie. Et puis continuer en analyse qualitative approfondie de l'affaire, parce que le véhicule est le premier corps rigide des données, suivi d'un simple lignes claires, différents modèles des mêmes composants de base, tels que la lunette arrière, feux arrière, la plaque d'immatriculation, ainsi que des zones ombragées sous les roues de la roue. Cette carte est choisie au hasard à l'intérieur, se sentant une petite voiture blanche de Doha, probablement parce que la voiture est pas facile de blanc sale, les gens achètent plus déjà?

Il convient de noter que les exigences de la mission, la demande à la fin est de vérifier le cul de la voiture, ou qu'il est nécessaire de distinguer des informations spécifiques et d'autres modèles de couleurs, ou même besoin d'une information de plaque d'immatriculation du véhicule. Parce que quand une modification des exigences de la mission, le montant des caractéristiques des réseaux de neurones doivent être décrits également changer.

Regardez à nouveau les camions. Et de la même voiture.

Eh bien, regardons la vue moyenne d'un ensembles de données de visage humain, et des véhicules similaires, en tirant un visage moyen presque hors d'une personne, le nez a une bouche, on ne sait pas. Mais parce que les données des hommes principalement à l'ouest, donc nous allons probablement voir un des hommes occidentaux se sentent. De même, si la nécessité de tâche de distinguer le visage des émotions, qui est, des changements subtils dans les yeux, les lèvres et la demande de nouveaux réseaux de neurones caractéristiques décrites dans le montant de réclamation devra devenir très grand, il est pas simple .

Continuer à regarder des exemples, des gestes, des regards vaguement pouvait voir un signe V de la victoire, cependant, cet ensemble de données doivent clairement pouvoir identifier la signification fondamentale de ces gestes. Forme des caractéristiques sous-jacentes semblent intuitive, exige aussi beaucoup.

La complexité de l'espace de représentation

Et maintenant, ont eu recours à cette caractéristiques visuelles classiques de la carte, tout simplement, est la caractéristique de base est des lignes et des points peu profonds, chaque couche est une couche de caractéristiques à combiner un sens probabiliste après.

Retour en haut de la complexité des caractéristiques de l'espace de problème, nous citerons un exemple extrême, les caractéristiques de jeu de données mnist manuscrites nécessaires, le sentiment intuitif est quelque chose polylignes droite et le cercle, et IMAGEnet est presque naturel pour une image entière dans la peut se rapporter à tous les aspects de l'affaire, une combinaison de caractéristiques et les caractéristiques de la relation a besoin presque inimaginable. Dans la pratique, nous savons tous que vous pouvez faire un bon parcours des deux réseaux de neurones, la capacité est loin.

Eh bien, nous savons maintenant intuitivement, pour un problème spécifique, en fait, dans une certaine mesure on peut dire qu'il a besoin d'une quantité caractéristique est généralement déterminée. Bien sûr, nous ne pouvons pas obtenir une valeur exacte du réseau de neurones spécifique pour correspondre essentiellement ce montant, afin d'obtenir précis que possible. Lorsque vous réduisez les paramètres réseau, il est lié à réduire la capacité du réseau de juger certaines situations, réduisant ainsi la précision.

Je dois mentionner ici vingt-huit ans la loi, ce qui est normal dans le monde des probabilités, on peut généralement prendre 20% de l'énergie pour faire face à 80% des cas, alors que 80% de l'énergie nécessaire pour faire face à 20% des maladies incurables restant. Nous croyons que grâce à l'expérience, probablement le réseau de neurones pour traiter les cas difficiles que 20% des cas, avec 80% des caractéristiques des relations combinées, donc si vous abandonnez une partie ou toutes les maladies incurables, 20% des combinaisons possibles de caractéristiques suffisent relation. Pourquoi diminuer la courbe d'utilité marginale est appelée raison d'une courbe convexe à la gauche de celui-ci.

conception expérimentale combat réel

Eh bien, virtuel fini. Malheureusement, le résultat est que parlé devant des choses imaginaires, tout ne peut pas être déduit par des formules mathématiques.

Ce Zezheng?

Salon virtuel depuis longtemps, en fait, rien de particulièrement façon intelligente est d'essayer. Mais comment concevoir des expériences, qui est de savoir comment le test, chaque test quoi, ce qui a changé après le procès terminé, ou très peut faire l'article. Ce qui est mentionné ici par la conception expérimentale obtenir progressivement la meilleure valeur. Il est également le deuxième rapport à partager le point central.

En fait, la communauté de recherche récente automl chaude ou méthode de recherche d'architecture de réseau est de remplacer de cette partie de l'ajustement des paramètres du processus humain ciblé.

Mais j'espère encore que ce rapport complet pour restaurer le processus de mise au point par des méthodes manuelles, en réduisant le processus de réglage, vous montrer un petit truc et le processus de mise au point mécanisme. Bien que dans l'avenir, il risque d'être au chômage, mais il y a encore automl et nas dans le cas de l'étape de la recherche universitaire est très important, et il peut nous aider à comprendre et à l'étude automl il.

Tout d'abord est ressuscité dans un cadre virtuel, puis lancez un par un pour le dire.

Permettez-moi de parler de données, des ensembles de données, il peut y avoir un facteur à être ignoré. Pourquoi dites-vous, parce que nous dépendons du degré du papier académique est encore très élevé, mais l'idée ne papier faire, généralement en utilisant des ensembles de données publics et les critères d'évaluation communs, parce qu'ils ne les utilisent pas comment vous vous comparez avec les pairs font? De même jeu n'ont ce problème, bien que le jeu a été relativement proche de la tâche réelle, mais il doit y avoir un critère d'évaluation de la juste, ou ce que le classement par elle?

Mais quand faire la tâche réelle, l'ensemble des données doit avoir besoin de s'adapter aux besoins du problème lui-même, premier jeu de validation. Nous savons tous que l'apprentissage de la machine est comme la formation des étudiants pour faire face à l'examen final. La validation set est l'examen final, les enfants pratiquent le sujet tous les jours et dans tous les cas ils ont presque l'examen final ou une force ignorante. Faites un simple ensemble de validation, la distribution des données peuvent ne pas couvrir la situation réelle dans la plupart des cas, il est possible de faire difficile, et pour certains des cas ne sera pas dépenser trop d'effort. Un autre cas est l'ensemble de validation et l'ensemble de la formation des relations en double, soigneuses normes établies de validation, alors qu'en fait, il y a probablement un peu plus d'ajustement de l'ensemble de la formation. Cette fois-ci personne pour faire l'ensemble de validation, vous ne pouvez compter sur eux-mêmes.

La formation ensemble de données, basé sur la relation entre l'utilité marginale de données précédemment parlé avec la carte, il peut certainement essayer d'obtenir suffisamment de données est roi. Peut également besoin d'utiliser la quantité de données ne serait pas suffisant pour apprendre quelques façons de compenser la migration, où, en raison du temps ne se fait pas. Enfin, cet article sera sur IMAGEnet et d'autres ensembles de données sur la migration dans le modèle léger d'apprentissage des suppléments.

L'importance des critères d'évaluation sera affiché ici, et dans des circonstances normales, nous utiliserons un critère d'évaluation de la détection des cibles communes (voir carte) pour décrire notre détection de cible. Je dois admettre, est vraiment une mAP description complète de la base et la capacité moyenne d'un modèle, mais il ne peut pas prendre en compte le taux manquant et le taux d'erreur ramasser. MAP est due à une baisse de la confiance avec l'addition simultanée de tp et fp tracer des courbes et calculer la superficie totale, donc fp ne va pas et ne sera pas ramasser l'échantillon reflète évidemment, le taux d'erreur pour la cueillette des questions d'intérêt, il est préférable ou ne pas utiliser mAP.

Eh bien, nous avons commencé à courir.

En général, je vais prendre un certain temps pour établir une base de référence, la page suivante expliquer.

Ensuite, commencer l'itération, l'idée de base est d'utiliser une expérience de contrôle (expérience de contrôle), changer une seule variable, toutes les autres variables fixes.

Étant donné que chaque variable ne peut régler un paramètre, il est préférable d'ajuster la direction de l'amélioration des performances le long de la plus probable, alors quelle est la variables les plus importantes? Il faut le principe familier et la recherche des réseaux de neurones, etc. dans notre exemple spécifique pour illustrer.

Ensuite, nous avons parlé plus tôt pourrait être en mesure d'utiliser la ligne auxiliaire, après plusieurs expériences, votre esprit peut probablement former une ou plusieurs de la courbe d'utilité marginale décroissante, et vous pouvez estimer la position d'une variable dans laquelle la partie supérieure. Ah, la tendance à la hausse des variables les plus évidentes considérées méritent d'être soulignés.

Après toutes les dimensions tentent d'essayer une fois de plus, parce que, après tout, un temps pour ajuster un paramètre ne prend pas en compte les interactions entre les paramètres et les paramètres.

Quand il arrêter? Experts ajustement de paramètre généralement faible est sans fin, oui. Mais le général est les normes établies de validation, mais aussi mentionné plus haut, la main cette validation mis en situation réaliste? Aller à une course à la situation réelle de votre modèle.

par exemple

Juste une question de routine de principe, maintenant nous allons donner un exemple.

Exigences Comme le montre, selon notre précédente description de l'espace de représentation de la tâche, le problème devrait être possible de le compléter dans cette ampleur, nous devons essayer.

Tout d'abord, je besoin d'une base, bien que je veux maintenant utiliser le réseau est 10M, les documents de 10M peuvent être petits, mais cette fois je vais encore aller reproduction MobileNet-v1, MobileNet-v2, shufflenet-v1 / v2, ainsi que genre de commentaires anecdotiques est encore relativement bonne réseau toute la structure légère.

Pourquoi cette question à faire d'abord, sauf en tant que cadre de référence pratique est comparé, le plus grand objectif est d'assurer la méthode maximale lui-même, vous utilisez le cadre, et donc il n'y a pas de problème, si le temps est pas clair, à l'avenir à long terme fosse seule, ne peut évidemment pas terminer la tâche. En même temps, il sera très facile de vous aider à trouver les détails du papier et du papier et faites beaucoup d'étudiants savent que le document ne pouvait pas faire sans la créativité, de sorte que vous possédez probablement un document connu sous le nom de base de l'algorithme ne se mesure pas aux points pour le point de performances optimales, au contraire, le papier peut être une très pratique, mais il semble que les choses ne sont pas très innovants, et vous ne vont pas vraiment courir, on ne connaît pas.

De plus, si le papier est déjà un an ou deux, parmi les deux dernières années, d'autres papiers viennent avec une petite astuce intéressante et de petits ajustements de paramètres ou petits, ces choses peuvent parfois aussi reproduire le papier classique et méthode pétrir quand ensemble, par exemple, il a proposé Kaiming fan-in, méthode d'initialisation des paramètres sortance peut être appliqué à l'avant sur des papiers ou des projets.

Bref, c'est une uvre peut accélérer le travail, le processus d'accumulation est une base d'expérience.

Comme beaucoup de papiers sont des papiers réseau classifiés ou faire différents modèles de détection de la tête de détection, telles que l'approche en deux étapes plus rapide RCNN, nous devons remplacer la tête de détection propre usage, comme Yolo. Ensuite, je dois faire une base, et l'obtention d'un résultat de détection sous son propre ensemble de données de formation.

Tout d'abord, je vais d'abord les paramètres de réseau de base fixe, des paramètres de mise au point de détection de partie directement. Par exemple, ces paramètres, comme le montre la figure. Yolo SSD, ce principe est simple tentatives itérative pour ajuster un d'un temps.

Ici dire une bouche, que ce soit yolo ou ssd, leur point d'ancrage ou d'un mécanisme de boîte de priorité qui est compatible avec le nombre de diminuer la courbe d'utilité marginale, comme cette image de l'Essai v2. Vous voyez, cette courbe est pas partout. Alors, quand il convient d'augmenter la quantité de temps pour améliorer la précision est très utile, mais dans des scénarios limités considérés force ne peut pas ajouter trop, parce que la proposition globale sera trop, NMS deviennent aussi beaucoup.

De plus, ce point d'ancrage de la longueur spécifique du cluster et la largeur, tant que globalement conforme à la distribution des données, peut être, pas très précis, chaque fois avec des données de distribution ont augmenté également ne pas répéter le cluster, car le retour retournera automatiquement pour terminer le processus , pas trop loin d'être suffisant. Ici, il ne démarre pas.

Après les paramètres de détection ont été ajustés, mais aussi se concentrer à nouveau les paramètres de données d'incrément d'ajustement. des données incrémentales est également très important, en fait le même ordre d'idées, les données supplémentaires est compatible avec la diminution courbe d'utilité marginale, rien à voir avec trop, et l'augmentation des données ou des données pour l'augmenter.

Voici où vous pouvez réellement poser la question, est cette partie des paramètres Pourquoi faire à ce stade? Pourquoi ne pas découper le réseau fédérateur à la tête de test plus un 10M. Ici, je suis personnellement plus enclin à tester dans le processus de mise au point ultérieure plus end2end, parce que votre objectif est chose de détection de cible. En même temps, il est à noter que ce cas ne sont pas les paramètres optimaux du paramètre, juste une base de départ, après avoir déterminé la prochaine itération du réseau fédérateur viendra à nouveau.

Maintenant, nous devons commencer à réduire la structure du réseau, bien que l'avant-garde de cette partie de la recherche ont exprimé leur plein NAS peut être fait. Par exemple, Google NasNet MNasNet 2017 et 2018 ans, mais je ne pense qu'en général, la plupart des gens ne pouvaient pas se permettre de déployer un cadre distribué permet de rechercher rapidement la recherche de la structure du réseau. Sur la droite est la recherche NasNet la structure du réseau, il ne ressemble pas conçu.

Nous avons progressivement ajusté manuellement sur la base de la valeur initiale sur elle, il peut en effet atteindre la recherche optimale par rapport à, mais parce qu'il ya traçable expérimenté quand il est probable que l'utilisation processus d'apprentissage par renforcement nas un peu plus vite l'école . Mais cela ne peut pas se vanter, il est possible de dire que l'avenir n'est pas bon de mourir.

Les documents MobileNet-v1, il y a plusieurs directions peuvent être réglées: la largeur, la profondeur et la résolution.

deux articles connexes première largeur, cette comparaison a, principalement ADC et AMC, fait le même groupe. Les deux documents peuvent être pas fait par étape pour sélectionner la largeur de la couche optimale, les résultats étaient bons. Ici, nous étions, comme le taux de compression largeur MobileNet-v1, mais peut parfois être quelques différences couche d'ajustement correspondant.

La profondeur, qui est, l'addition et la couche de soustraction. Le problème ici est que, puisqu'il est pourquoi ajouter la couche de compression, tout comme la largeur de la baisse, le montant du calcul a été sensiblement vers le bas, peut également augmenter la profondeur de la conformité dans le calcul du montant et de l'exécution.

Il y a aussi la profondeur d'une question très importante est de choisir quelques étapes, le réseau de classement général est 32x sous-échantillonnage, 5 stade Ge, Kuang selon DetNet utilisé dans 16x sous-échantillonnage, 4 platine standard mis en avant en 2018. L'avantage est, featuremap entrée 224x224 est détectée tête de 14x14, et peut prendre soin des détails de la sémantique, tandis que la vitesse ne tarde pas.

Pour les informations sémantiques et les détails pour maintenir de meilleures méthodes de détection, FPN est un bon choix, mais un peu lourd à la limite de comptage de force FPN, la pression de service en temps réel un peu gros.

Pour la résolution, nous osons supposer que c'est une dimension négligée peut temporairement en raison de la haute résolution peut seulement apporter une petite précision cible et la frontière améliorée. En général, peut être ajustée pour se concentrer sur d'autres paramètres dans une super-résolution viable ci-dessous.

Ici aussi, il implique un certain nombre d'autres peaufinage, par exemple en utilisant la taille du noyau de convolution ou d'autres formes, par exemple pour améliorer le champ récepteur. Convolution et par exemple ajourée convolution 5x5. Mais il y a des trous dans la performance de convolution des appareils mobiles comme un général.

La prochaine étape est de trouver une variété d'ajustement dans un point de compromis optimal, par conséquent, j'ai essayé sur cette structure de réseau MobileNet-v2, quelques ajustements pour essayer différentes largeur, profondeur et affiner la structure. Le point de la moitié gauche de cette largeur est sensiblement 3/8, 3/4 point de la moitié droite de cette largeur. La flèche indique la ligne de base après une coupe simple en profondeur de finition scène.

Donner un petit exemple, ici pour MobileNet-v2 est un petit point me pour mettre au point, qui est 1/4 de la taille d'un goulot d'étranglement que quatre minuscules, si cette valeur est trop petite conduira à une description des caractéristiques de trop faible, et son impact global sur le réseau pour transférer grande quantité de calcul est pas grande, vous pouvez essayer.

Ici somme up, il est tout simplement de trouver les dimensions de l'un des plus doivent être ajustés dans l'état actuel, dont les dimensions doivent compter sur son expérience et les collines de pierre. En outre, dans des circonstances normales, il serait nettement améliorée si une variable, puis en se concentrant sur l'optimisation de ce qu'il chant, ce qui est dit avant la tendance à la hausse de la courbe d'utilité marginale décroissante est une valeur des variables plus évidentes considération importante.

Et ce qui est le plus nécessaire de l'ajuster, si l'expérience qu'ils ne pouvaient pas penser quand il choisissait un, car il est vraiment possible des merveilles oh. En fait, mon sentiment est que c'est en fait processus de recherche de chair humaine peut être considérée comme un processus de descente de gradient stochastique, chacun avec leur propre fonction d'évaluation est de trouver une dimension optimale, puis à l'itération optimale. Et parfois, vous pouvez essayer d'ajuster une plage de valeurs que prévu, comme l'approfondissement de la coupe après un réseau étroit lorsque vous pouvez ajouter une couche en excès, pour voir la tendance. Ce sera comme un grand taux d'apprentissage, ou lorsque l'algorithme de recuit simulé.

L'ajustement est l'avantage de la chair humaine, je ne ai pas besoin d'ajuster chaque fois dans le même rythme d'apprentissage, parfois, vous pouvez faire un grand pas, de gagner beaucoup d'itérations.

Eh bien, enfin trouver quelques modèles, mais il est quelque chose d'autre, maintenant besoin de revenir en arrière et tourner la structure actuelle, ajustez les paramètres avant. Et après pour déterminer ces paramètres, mais aussi à nouveau pour choisir la structure réseau revalidation une fois. Cas parce qu'il ya plusieurs variables influent sur le résultat de l'effet combiné ici, ainsi que l'évaluation des facteurs de causalité des défauts de processus de formation standard ou facteurs aléatoires. Mais ici, par rapport à la charge de travail précédente n'a pas, parce que déjà exclu quelque chose évidente ne pas les options de travail.

Enfin, le véritable test par la tâche elle-même pour régler la validation ensemble en fonction des problèmes réels. Si vous avez un problème, je revenir à un point sur le front, puis transféré à nouveau.

Des exemples de juste viennent temporairement à une fin en ce moment jeter la deuxième question, après tout, dont l'avis mentionne la nécessité de parler, en fait, par rapport aux réponses que nous avons déjà à l'esprit la réponse.

Selon contexte précédent, les données disposent différence d'espace entre ces deux questions est énorme, donc, en fait, deux questions ne peuvent pas être migrées directement à apprendre, cependant, la méthodologie est applicable ici, où paresseux, ne décrit comment développer Remontez à nouveau, et je crois que l'expérience de la première tâche, cette tâche n'est pas difficile à faire, le nombre d'itérations sera considérablement réduite.

Et en expliquant, je crois que le problème commence peut aussi obtenir des réponses.

résumé

Tout d'abord, les bases sont importantes, le besoin de connaître beaucoup d'expérience d'ajustement des paramètres de base, il est fortement recommandé que vous allez à l'apprentissage d'accès, comme le grand Dieu Kuang Wei Xiu Blog Sénat.

Deuxièmement, nous devons faire méthode expérimentale comparative rigoureuse pour vous aider à obtenir exactement ce temps pour ajuster les gains de performance et de réfléchir sur les raisons de cet ajustement apporté des changements. Car une fois les changements de paramètres multidimensionnels, il est difficile de déterminer à la fin quelle est la dimension du problème, ne peut pas déterminer avec précision la cause. De plus, ici, tout en excluant l'effet du paramètre multidimensionnel composant croix, mais peut être compensé par une méthode itérative vis.

nous avons besoin en particulier, pour rappeler que l'amende conduirait à la conception expérimentale et le nombre de tentatives que le chemin est très long, très patience. A ce stade, il est nécessaire de réduire la dimensionnalité avec assurance, afin d'éviter un certain nombre de facteurs que je ne sais pas par où commencer, vous pouvez rencontrer un problème lors de la spéculation audacieuse et questions hypothétiques, des expériences soigneusement conçues pour vérifier la probabilité, il y aura une grande surprise.

Enfin, le travail supplémentaire / outil est essentiel, est la base pour l'itération rapide. Vous pouvez donc choisir un cadre pratique à utiliser est essentiel, pour maintenir les détails du cadre est également très important. Digne de recommandation est que vous pouvez utiliser Duoka Jia Duo Kajia vitesse rapide, alors il est nécessaire de regarder la lecture sur le disque dur et les goulots d'étranglement d'écriture, il est recommandé pour SSD. Cependant, il y a peu de bonnes nouvelles, petit modèle de formation unique modèle rapide, tentative multi-facteur lors de l'itération vitesse peut également être acceptée.

Enfin, un bon logiciel et les habitudes de prise de notes peuvent vous aider à trier les détails et essayer processus logique. Dans le cas contraire, la formation d'intervalle après l'achèvement de quelques heures, je crains que vous avez oublié ce que le dernier ajustement.

réponses aux questions

Plus de liens vers des questions de réponse, pointe du temps de réponse, ici pour vous dire de choisir trois sur simple.

Le premier est A propos aspect hyperparam'etre, qui est le taux d'apprentissage taille du lot, l'itération de configuration et des paramètres si super. Ceci est également la nécessité d'expériences comparatives strictes visant à essayer. En même temps, hyper-paramètres est peu de changement dans des circonstances normales, le nombre total de tentatives (* batchsize d'itération), le montant total des ensembles de données de base viennent. Il est généralement de déterminer les paramètres de super, la faible quantité de données quand vous pouvez rester intact.

Le second est A propos de la détection et le rappel comment équilibrer? Cette scène de problème quand je l'ai eu tort, en parlant de plus est de savoir comment choisir un bon critère d'évaluation. En fait, si vous revenez à l'utilité marginale mentionné ici courbe de déclin le plus long, l'équilibre entre le taux de détection et le taux de rappel, la plupart comptent sur est de trouver un modèle super et paramètres. Plus précisément trouver ce modèle, le texte parle d'une méthodologie à faire.

Le troisième est Selon le modèle léger, avec pré-formation IMAGEnet ont un sens? espace arrière fonction d'arrière-plan, parce que la capacité de la structure de réseau du modèle léger lui-même est petite, de petites quantités peuvent contenir fonction. Mais l'espace jeux de données IMAGEnet fonctionnalité est très grand, bien plus que la capacité du modèle léger. Entraînera un modèle de pré-formation aux zones de description de fonction et problème cible loin de grande école pré-formation sur les caractéristiques de la formation sera derrière les nouveaux problèmes dans le processus écrasé. Par conséquent, lorsque les données ne sont pas une solution raisonnable est d'utiliser la comparaison caractéristiques par rapport aux ensembles de données similaires pré-formation, comme le problème de détection de véhicule, la quantité de données ne suffit pas, vous pouvez utiliser kitti, bdd100k et d'autres ensembles de données certaine migration.

Source: Ville de plate-forme pôle

Ouest du Sichuan a une Fam absolue! Jiuzhaigou grasse que 10 fois, mais moins d'attention!
Précédent
Lonely Planet Top 2018 Meilleur voyage en Asie, la forte liste du Sichuan! Les neuf autres Etats-Unis également en état d'ébriété
Prochain
industrie militaire: China Aviation Development a introduit deux nouveaux moteurs d'avions
Le plus complexe d'été rafraîchissante 25, en Juillet et en Août est l'endroit où aller! Choisissez un départ
Cette semaine, nous avons appris un nouveau terme: la saturation grève de melon
« Redémarrage d'arrêt » fonctionne vraiment, l'appareil photo principal de la NASA Hubble réparé si ......
INS net café rouge maxed ne sont plus seulement une petite bouteille bleue
48 ans, enseignante et petites amies pour le dîner, est soudainement tombé au sol! la maladie d'hiver Ceci est très fréquent et très dangereux ......
Championnats du monde Malone capture constrictor, après re grammes Fan Zhendong dit: l'avenir appartient joufflu, j'étais côte à côte après la Direction générale
Je suis allé à Chengdu, je suis de retour « roll »!
Lorsque le double coup Alike étaient | « ville aussi bien » peint sur la restructuration et le développement de Jingdezhen nouvelle image
Global Multigestion merveilleux, pas de réseau de nouvelles
A voir! points de vente européens Raiders achats commerciaux
Les 1 m 74 étudiantes de feu! La plupart des pluies différence Meng hauteur est plus que juste aux États-Unis!