Application de TensorFlow dans les projets d'ing�nierie Vid�o de classe ouverte + Transcription de texte (Partie 2)

Ce jeudi, Leifeng.com AI Research Institute a invit� Bai Fachuan, un architecte de donn�es senior du g�ant multinational de l'informatique ThoughtWorks, � donner un cours ouvert en ligne et � l'expliquer � tout le monde. L'application de TensorFlow dans les projets d'ing�nierie .

Ma�tre de conf�rences

Bai Fachuan�: Permettez-moi de me pr�senter. Je m'appelle ThoughtWorks Bai Fachuan. J'ai d�j� �t� impliqu� dans le big data, puis nous avons commenc� � faire quelques tentatives et � travailler dans le sens de l'intelligence artificielle. Nous nous engageons � combiner l'intelligence artificielle, l'apprentissage automatique et le big data. Apr�s avoir recherch� de nombreux cadres d'apprentissage automatique connexes, nous avons �galement cr�� notre propre cadre d'apprentissage en profondeur - deeplearning.scala. Il est �crit par scala et est actuellement open source, vous pouvez en apprendre davantage.

Voici la vid�o enregistr�e du cours public :

Ouvrir la version texte de la classe

Pour les chaussures pour enfants qui ne sont pas pratiques pour regarder la vid�o, vous pouvez lire la transcription textuelle de cette classe ouverte sur Lei Feng.com.

En raison de la longueur du texte, la transcription textuelle de cette classe ouverte a �t� divis�e en deux parties, voici la partie suivante. Pour le dernier article, veuillez vous r�f�rer � l'application de Lei Feng.com de TensorFlow dans les projets d'ing�nierie Open Course Video + Text Transcription (Part 1) | AI Research Club.

Bai Fachuan : Nous avons mentionn� ci-dessus plusieurs architectures de Big Data diff�rentes, qui sont li�es au mod�le d'�valuation de la maturit� des donn�es mentionn� pr�c�demment - nous �valuerons d'abord le niveau des donn�es d'une entreprise avant de savoir laquelle est actuellement la meilleure solution.

Intelligence Artificielle et Big Data

Parlons maintenant de l'intelligence artificielle.

En fait, le concept d'intelligence artificielle n'est pas un ph�nom�ne r�cent, on en parlait depuis longtemps, il y a des d�cennies. L'objectif principal de l'IA est que nous voulons que les machines pensent comme les humains. Alors comment une machine peut-elle penser comme un humain ?

Deux branches ont �t� d�velopp�es ici�: l'une est le mod�le de la th�orie des probabilit�s pr�coces et l'autre est le r�seau de neurones.

Notre HMM commun et notre bay�sien appartiennent � la th�orie des probabilit�s. Pour le traitement des donn�es dans la th�orie des probabilit�s, vous avez essentiellement un �chantillonnage ou un calcul sous forme de probabilit�. Ainsi, dans les premiers jours, lorsque la quantit� de donn�es n'est pas particuli�rement importante, la th�orie des probabilit�s sera un choix particuli�rement judicieux.

De plus, la th�orie des probabilit�s peut g�rer des ensembles de donn�es qui ne sont pas trop volumineux, elle est donc relativement plus couramment utilis�e. Par exemple, nous utilisons HMM pour la segmentation des mots, ce qui est �galement un tr�s bon sc�nario. Une autre branche est le r�seau de neurones. Les r�seaux de neurones ont �t� propos�s depuis longtemps, mais ces derni�res ann�es, divers cadres de r�seaux de neurones profonds sont progressivement devenus populaires. Parce que r�cemment, nous avons constat� que la puissance de calcul des ordinateurs a �t� am�lior�e - le r�seau de neurones fonctionne mieux lorsque la quantit� de donn�es est plus importante�; lorsque le r�seau de neurones est plus profond, il fonctionne mieux�; et tout cela repose sur la puissance de calcul de l'ordinateur. Il existe �galement plusieurs types de r�seaux de neurones, tels que les r�seaux de neurones profonds, les r�seaux de neurones r�currents, la convolution, etc. Si la puissance de calcul des ordinateurs ne se d�veloppe pas, l'intelligence artificielle dont nous parlons restera au laboratoire. Par cons�quent, s'il n'y a pas de support de donn�es derri�re cela, l'IA n'a fondamentalement aucun effet.

Nous ne pouvons pas prendre dix �l�ments de donn�es pour la formation, si nous voulons passer � l'environnement de production. De telles donn�es ne peuvent pas r�pondre aux exigences de production dans la nature. Au d�but, les donn�es �taient en train de se d�velopper, en fait, l'intelligence artificielle se d�veloppe �galement, mais son stade de d�veloppement est diff�rent. Au tout d�but, l'intelligence artificielle peut rester au stade th�orique. Nous savons qu'il existe des algorithmes et des articles, mais il y a en fait beaucoup de temps pour l'appliquer r�ellement � la production, � la commercialisation et � la commercialisation. Apr�s cela, nous entrerons dans une nouvelle �tape�: de nombreuses entreprises feront des laboratoires d'IA et ouvriront un laboratoire pour essayer sur la base des donn�es existantes pour voir s'il existe une meilleure solution.

La prochaine �tape est l'�re du big data. A ce moment, les performances de traitement des donn�es deviennent particuli�rement �lev�es. Nous avons constat� que l'IA est intrins�quement d�pendante des donn�es. Maintenant que la capacit� de traitement des donn�es s'est am�lior�e, l'IA va s�rement inaugurer un tr�s bon d�veloppement. C'est la situation � laquelle nous sommes actuellement confront�s. De nombreuses entreprises utilisent des plateformes de m�gadonn�es pour traiter les donn�es. Avec le big data, de nombreuses entreprises utiliseront l'intelligence artificielle pour mieux servir leur entreprise.

Voici une bonne solution d'architecture d'intelligence artificielle utilis�e en production.

Comme mentionn� dans l'article pr�c�dent, les donn�es et l'intelligence artificielle peuvent �tre compl�tement s�par�es, mais la combinaison des deux est la solution ultime. Sans intelligence artificielle, nous pouvons utiliser les donn�es comme une plateforme de m�gadonn�es. Avec l'intelligence artificielle, nous pouvons �tendre la plate-forme de donn�es volumineuses et en faire une architecture plus parfaite, c'est pourquoi l'architecture des donn�es est tr�s importante - si votre intelligence artificielle peut �tre bien connect�e. Comme le montre la figure, la plate-forme de donn�es est principalement responsable d'une s�rie de travaux li�s � la pr�paration des donn�es, tels que le traitement des donn�es, le stockage des donn�es, la r�cup�ration des donn�es et l'exploration des donn�es.

Lorsque les donn�es sont pr�tes, pour l'apprentissage automatique, il se contente d'extraire des fonctionnalit�s et de former des mod�les en fonction de vos donn�es, et une grande partie du travail sera effectu�e sur la plate-forme de donn�es. En termes simples, certaines entreprises peuvent avoir des exigences plus �lev�es en mati�re de confidentialit� des donn�es - il y aura un cryptage des donn�es et divers cryptages. Ensuite, il y aura un d�cryptage des donn�es pendant le processus d'op�ration. Il n'y a aucun moyen pour le r�seau de neurones d'effectuer le processus de cryptage et l'action de d�cryptage. Il ne peut �tre plac� que sur la plate-forme de donn�es. Par cons�quent, la plate-forme de donn�es a des exigences tr�s �lev�es en mati�re de capacit�s de traitement des donn�es, ce qui d�termine directement l'effet ult�rieur.

Une fois la construction de notre plate-forme de donn�es termin�e, il existe d�j� un environnement de donn�es distribu�es. C'est ce que nous allons faire, juste pour dire qu'il existe un syst�me qui peut tr�s bien s'ajouter aux donn�es distribu�es pour former un mod�le. � l'heure actuelle, TensorFlow prend d�j� en charge la distribution de mod�les, ce qui est un tr�s bon effet.

Au d�but, la formation de mod�le ne prenait pas en charge la formation distribu�e, c'est-�-dire que votre mod�le �tait form� sur une machine et form� de mani�re ind�pendante. Il n'y a aucun moyen de faire travailler deux machines ensemble pour former un mod�le. � l'heure actuelle, TensorFlow a fait un tr�s bon travail en prenant en charge la formation distribu�e de mod�les, bien s�r, � l'aide de son concept de graphe informatique.

Pour une s�rie de probl�mes techniques tr�s d�taill�s des graphes de calcul Tensorflow, le dernier cours "TensorFlow and Neural Network Algorithm Advanced Application Class" expliquera comment Tensorflow prend en charge la formation distribu�e des mod�les. Dans cette architecture, nous avons des clusters d'intelligence artificielle de syst�mes GPU et CPU en bas.En plus de cela, la formation distribu�e des mod�les que nous cr�ons g�n�rera des mod�les. La plate-forme de donn�es fournira �galement une autre fonction, � savoir le streaming en temps r�el.

Il y a une branche dans cette architecture que vous pouvez voir, qui est le streaming en temps r�el. La combinaison avec l'intelligence artificielle est la pr�diction en temps r�el. Apr�s la pr�diction en temps r�el, les donn�es sont affich�es et directement renvoy�es � l'utilisateur sous forme de prise de d�cision. En fait, une autre fonction du streaming en temps r�el est la formation continue du mod�le. Et dans ce lieu d'utilisation, vous pouvez �galement voir une fl�che, c'est-�-dire que les donn�es sont � nouveau entr�es dans la plate-forme Big Data. C'est une architecture que nous pr�conisons actuellement, appel�e architecture pilot�e par les donn�es. L'utilisateur g�n�re des donn�es, et les donn�es servent l'utilisateur. Si votre processus est b�nin�: par exemple, si j'utilise ce syst�me et que le syst�me me sert, ce processus est b�nin et s'am�liore de plus en plus�; plus j'utilise le syst�me, meilleure est son exp�rience pour moi, alors le syst�me s'auto- �voluent et s'am�liorent de plus en plus, c'est donc cette architecture que nous utilisons actuellement dans toutes les impl�mentations.

Pratiques d'ing�nierie avec TensorFlow

TensorFlow lui-m�me est un framework de r�seau neuronal profond. Son module de calcul, le core Core, est �crit en C++. Il fournit de nombreuses API au monde ext�rieur. Au d�but, il n'y avait que Python. Apr�s la version 1.0, l'API Java a �t� ajout�e, mais elle est encore en phase de test, pas particuli�rement stable ou parfaite. Donc, pour TensorFlow, nous pr�f�rons toujours Python.

Pour Python, nous regrouperons l'apprentissage automatique en tant que service ou le fournirons sous d'autres formes. Dans cette partie, il fournit Python en externe et C++ en interne, et il y a un �change de donn�es au milieu, qui a lieu en m�moire, c'est-�-dire que la logique de calcul requise par Python est convertie en C++, et le r�sultat est renvoy� apr�s le calcul sous-jacent.

Dans un syst�me d'intelligence artificielle complet, la distribution existe � deux endroits�: la distribution des donn�es et la distribution des mod�les. La distribution des donn�es est principalement prise en charge par des lacs de donn�es, et nos donn�es sont stock�es de mani�re distribu�e. L'avantage du stockage de donn�es distribu� est que je peux obtenir rapidement des donn�es � partir de diff�rents nuds. � ce stade, pour le syst�me, seule la bande passante doit �tre �tendue.

En production r�elle, pour les entreprises, le co�t de construction d'une bande passante r�seau de niveau Go avec une ligne d�di�e sera bien inf�rieur au co�t d'augmentation du mat�riel informatique. C'est l'une des raisons pour lesquelles la distribution des donn�es existe et s'am�liore de plus en plus.

De plus, TensorFlow prend en charge la distribution de mod�les. Lorsque nos donn�es sont distribu�es, notre mod�le est distribu�, et la combinaison des deux rendra la vitesse d'entra�nement compl�te particuli�rement rapide. Dans Tensorflow, le calcul du mod�le peut g�n�rer un graphe de calcul en fonction du code du mod�le d'entra�nement que vous avez �crit, puis distribuer chaque graphe de calcul ind�pendant � diff�rents nuds en fonction de votre graphe de calcul, puis s'entra�ner et enfin g�n�rer un mod�le unique. un point que TensorFlow fait un tr�s bon travail dans la formation distribu�e.

Mais quand on regarde en arri�re, TensorFlow est, par essence, une biblioth�que python en cours d'utilisation. Ainsi, lorsque nous r�alisons un projet d'ing�nierie de r�seau de neurones, nous pouvons dire que TensorFlow est l'une de nos biblioth�ques et que nous l'utilisons. Relativement parlant, il occupe un petit module dans notre syst�me.

TensorFlow est un framework de r�seau neuronal profond, mais ce n'est pas le seul, comme Caffe, MXnet, Theano et la version Java de Deeplearning4j. De tels cadres existent d�j�. Alors pourquoi disons-nous que TensorFlow est un meilleur choix � notre avis�?

En termes de d�veloppement, tout le monde le d�finit comme "le meilleur cadre de r�seau neuronal profond pour l'ing�nierie", ils ont donc tendance � choisir TensorFlow. D'autres frameworks sont �galement utilis�s dans de nombreux sc�narios, tels que les laboratoires ou les universit�s�; mais pour les ing�nieurs, nous esp�rons qu'une mani�re plus conviviale d'empaqueter l'utilisation de l'API facilitera la compr�hension des ing�nieurs�; abaissera le seuil et r�duira le besoin de math�matiques Require.

Un cadre de r�seau de neurones, plus il est con�u primitif, plus les exigences math�matiques sont �lev�es. Ce n'est pas particuli�rement convivial pour les ing�nieurs. Et TensorFlow est un compromis entre les deux.

Python

�tant donn� que TensorFlow est simplement une biblioth�que Python, lorsque nous d�veloppons des projets d'intelligence artificielle, notre d�veloppement a essentiellement �volu� vers la mani�re de bien d�velopper des projets Python.

� l'heure actuelle, qu'il s'agisse de faire du machine learning ou de l'analyse de donn�es, Python a une tr�s bonne dynamique, et tout le monde l'utilise. Et ce que plus de plates-formes fournissent, c'est en fait la fa�on dont Python est utilis� comme API, et Python repr�sente une tr�s grande proportion. Par cons�quent, il est tr�s important d'apprendre Python pour les projets d'intelligence artificielle. C'est-�-dire que si vous voulez �tudier TensorFlow, vous devez apprendre Python avant de poser des bases solides.

Pour Python, il y a Python2 et 3, nous recommandons actuellement Python3. Il y a beaucoup de biblioth�ques impliqu�es dans Python. Nous devons g�rer la biblioth�que. C'est la m�me chose que yum. Nous pouvons utiliser pip pour g�rer notre biblioth�que. Il y a un virtualenv ci-dessous. Pour le langage l�ger de Python, dans notre syst�me, il existe parfois diff�rentes versions de projets Python, ce qui n�cessite un bon environnement d'isolation, afin que nos deux environnements soient isol�s et ne s'affectent pas. Par exemple, un de mes projets est Python2, et l'autre est Python3. Je veux que ces deux projets s'ex�cutent en m�me temps dans mon syst�me. virtualenv fournit une tr�s bonne fonction : il encapsule l'environnement Python, vous permettant d'avoir diff�rentes versions ., Diff�rentes biblioth�ques existent en m�me temps dans un syst�me. Pour virtualenv, il fournit un environnement virtuel Python.On trouvera dans le processus de production qu'il est particuli�rement difficile � g�rer lorsque l'on a beaucoup de virtualenvs. Nous allons donc choisir virtualenvwrapper, sa fonction est de g�rer tous les virtualenvs du syst�me, y compris votre cr�ation et vos commutateurs, peut �tre enti�rement g�r�.

Lorsque nous avons un environnement de d�veloppement - c'est-�-dire les outils mentionn�s ci-dessus, ils sont tous utilis�s � tout moment du processus de d�veloppement. Avec ces outils en place, la prochaine �tape consiste � d�velopper le code.

Pour Python, il existe de nombreux outils. IPython Notebook est un IDE Web Python l�ger, nous pouvons �crire du code Python sur des pages Web. Il est divis� en diff�rentes �tapes, peut ex�cuter du code localement et peut rapidement voir ce que nous voyons est ce que nous obtenons. C'est �galement notre choix pr�f�r� lors de l'exploration de donn�es ou de certaines exp�riences. Nous pouvons analyser rapidement si toute notre op�ration est correcte ou non, et si nous devons continuer.

Voici donc pourquoi nous utilisons virtualenv - nous avons besoin d'un environnement s�par� pour ex�cuter nos projets. Cette id�e est un peu similaire au Docker actuel. De plus, lorsque nous r�alisons un projet relativement important, nous pouvons utiliser l'IDE de l'environnement de d�veloppement int�gr�, tel que l'IDE de style Pycharm qui est actuellement tr�s couramment utilis� dans le d�veloppement et qui est essentiellement utilis� � 100 %. Dans un environnement formel, en particulier une �quipe, il est surtout utilis� lorsque tout le monde aide au d�veloppement.

IC/CD

Pour le d�veloppement technique, une fois l'un de nos projets d�velopp�, nous devons passer en ligne, tester et d�ployer�; pour les projets non IA, nous aurons CI/CD. Une fois le code �crit, nous devons d�ployer, tester et ex�cuter. Nous pouvons automatiser cette s�rie, qui est CI/CD.

Notre code fait r�f�rence au contr�leur de version, CI/CD surveillera automatiquement les changements de code, puis empaquetera le code et ex�cutera le test. Apr�s succ�s, il sera d�ploy� pour vous et les r�sultats seront affich�s sous une forme visuelle. Il s'agit d'un outil CI/CD couramment utilis� dans notre d�veloppement de projet g�n�ral, donc dans un projet d'IA, ferons-nous CI/CD�?

En fait, ce sera le cas.

Tout d'abord, le CI/CD de l'intelligence artificielle est similaire au processus g�n�ral du projet, mais il y aura quelques diff�rences. Comme auparavant, apr�s la modification de la logique du code, l'ensemble du pipeline CI/CD sera d�clench�, et il existe une autre branche�: le d�clenchement du pipeline de donn�es.

Qu'est-ce qu'un pipeline de donn�es�?

Les donn�es d'intelligence artificielle mentionn�es ci-dessus sont divis�es en deux parties�: l'une est la partie donn�es et l'autre est la partie intelligence artificielle. Cela signifie que dans notre projet d'intelligence artificielle, il y a une logique, et dans les donn�es, il y a des donn�es. Lorsque de nouvelles donn�es arrivent ou lorsque le code logique de mon mod�le change, les deux d�clenchent votre CI/CD.

Apr�s le d�clenchement du CI/CD, en plus de l'�valuation de base des tests unitaires comme dans les projets g�n�raux, nous avons une fonction suppl�mentaire, qui est l'�valuation du mod�le. Pour cette partie de la fonction, il s'agit plut�t de faire de la transformation sur CI/CD.

Qu'est-ce que l'�valuation du mod�le�? Pour le syst�me g�n�ral, dans quelles circonstances, nous consid�rons que cette �preuve est suspendue. C'est que sa sortie r�elle est incompatible avec notre sortie attendue, et nous pouvons la consid�rer comme bloqu�e.

Pour l'IA, dans quelles circonstances pensons-nous que ce d�veloppement est un �chec ? C'est le mod�le qui va mal, l'un apr�s l'autre. Par exemple, la pr�cision du mod�le que j'ai entra�n� pour la premi�re fois �tait de 90�%, la deuxi�me fois de 80�% et la troisi�me fois de 70�%. De ce point de vue, bien que le code fonctionne tr�s correctement, l'effet diminue, et cette �valuation devrait �tre enregistr�e par CI/CD. Une fois le code enfin soumis et le mod�le form�, si son effet est pire que le mod�le pr�c�dent, votre CI/CD est suspendu au sol cette fois et la t�che enti�re ne passera pas.

De cette fa�on, on peut s'assurer que les performances de l'ensemble du d�veloppement sont � la hausse, ce qui �vite � une �quipe d'encombrer le code de d�veloppement et de changer constamment de m�thodes, et constate finalement que le mod�le se d�grade � chaque fois.

Sc�narios d'application TensorFlow

Essentiellement, l'IA vise � mieux aider les gens � r�fl�chir et � prendre des d�cisions, de sorte que les sc�narios seront relativement larges et g�n�raux. Mais la diff�rence est la suivante�: quel type d'exigences souhaitez-vous atteindre dans ce sc�nario g�n�ral�?

Reconnaissance d'images

Par exemple, lorsqu'il s'agit d'intelligence artificielle ou d'apprentissage en profondeur, ou de r�seaux de neurones convolutifs, tout le monde pensera � la reconnaissance d'images, qui est un domaine tr�s g�n�ral. Cependant, dans ce domaine, nous devons �valuer et r�aliser comment atteindre le niveau de raffinement. Par exemple, dans notre projet pr�c�dent, nous avons une fois construit un syst�me de commerce �lectronique pour analyser ses images - un vendeur de commerce �lectronique peut t�l�charger un grand nombre de photos, pour l'ensemble de la plate-forme de commerce �lectronique, j'esp�re analyser l'image et savoir quels objets sont contenus dans l'image t�l�charg�e. Par exemple, nous pouvons reconna�tre qu'il s'agit d'un canap�, l'autre est une personne, et ainsi de suite. Certaines reconnaissances d'objets dans cette s�rie.

Robot de magasinage

Il s'agit d'une impl�mentation de l'utilisation de TensorFlow pour subdiviser le domaine de la reconnaissance d'images. De plus, en plus du domaine de l'image, pour le concept d'IA, beaucoup de gens �voquent l'IA et tout le monde pensera aux robots. En fait, dans le monde industriel, les robots sont largement utilis�s, en particulier dans les entrep�ts.Les robots d'entreposage, men�s par Amazon, ont pris la t�te de l'industrie. � l'heure actuelle, c'est devenu tr�s courant, au moins tout le monde investit, fait des recherches et se d�veloppe dans ce domaine.

La fonction principale des robots de magasinage est de d�placer des marchandises. Comme vous pouvez le voir sur l'image ci-dessus, un robot d'entrep�t porte une �tag�re. Au d�but, le fonctionnement de l'entrep�t �tait "les gens arrivent aux marchandises", et les gens apportaient les choses qu'ils voulaient devant les marchandises, et l'effet �tait tr�s m�diocre.

Avec le nouveau robot d'entreposage coordonn� par l'IA, notre objectif est "marchandise � personne" - je suis immobile et ce dont j'ai besoin sera d�plac� par le robot. Alors, quel est le probl�me ici�?

C'est-�-dire que lorsque plusieurs robots se d�placent dans l'entrep�t, il est n�cessaire de s'assurer que deux robots de s�curit� n'entrent pas en collision. De plus, ils doivent trouver le chemin le plus court, appel� planification du chemin du robot d'entreposage�: comment devez-vous vous y prendre exactement. C'est aussi un sc�nario d'application de l'IA. Eh bien, c'est aussi une impl�mentation faite avec TensorFlow.

Syst�me de pointage intelligent

Dans le pass�, la notation des articles �tait g�n�ralement effectu�e par des personnes, voire par plusieurs personnes. Mais dans le domaine de l'intelligence artificielle, nous avons constat� que ce que les gens font avec exp�rience peut en fait �tre fait par des ordinateurs. Lorsque nous utilisons le framework TensorFlow, il existe une fonction appel�e r�seau neuronal r�current, qui est principalement utilis�e pour g�rer la formation de s�ries chronologiques. Dans le domaine du langage naturel, il pr�sente �galement un avantage particuli�rement int�ressant et peut �tre utilis� � cette fin. L'essence de ce projet est donc d'utiliser la notation par machine pour remplacer les personnes charg�es de noter les papiers.

Recrutement intelligent

Le but du recrutement intelligent est de faire en sorte que les demandeurs d'emploi, les candidats et les recruteurs aient une tr�s bonne ad�quation, afin que les personnes les plus appropri�es puissent se rendre l� o� elles sont le plus n�cessaires. Dans ce cas, nous devons faire beaucoup d'analyses de donn�es sur les deux parties, et les donn�es proviennent non seulement de l'individu lui-m�me, mais aussi d'endroits sociaux ou autres, puis faire une correspondance bas�e sur toutes les donn�es des deux parties.

syst�me de publicit� en ligne

Il semble que cela ressemble un peu au syst�me de recommandation, mais lorsque nous travaillerons sur ce syst�me, vous constaterez en fait qu'il y aura des diff�rences essentielles entre le syst�me de publicit� en ligne et le syst�me de recommandation.

On dit que le b�n�ficiaire du syst�me de recommandation est l'utilisateur utilisateur, alors que pour un syst�me publicitaire, son b�n�ficiaire est la plateforme ou l'annonceur. De plus, le syst�me de recommandation doit trouver le sch�ma de recommandation optimal qui se conforme � l'utilisateur individuel�; mais le syst�me de diffusion de publicit� en ligne doit atteindre la maximisation des b�n�fices.

Deuxi�mement, il a une r�gle. Par exemple, si je con�ois cette publicit�, qu'elle soit raisonnable ou non, je veux juste la diffuser. Ensuite, il y a plus de r�gles pour intervenir ici, coop�rer et apprendre, et r�aliser conjointement un syst�me de publicit� en ligne. Cette pi�ce est relativement plus compliqu�e que le syst�me de recommandation.

Syst�me recommand�

Les syst�mes de recommandation sont utilis�s dans de nombreux endroits, et m�me lorsqu'il s'agit de servir les utilisateurs, cela implique en fait une recommandation. Par exemple, de nombreuses applications que nous utilisons vous enverront beaucoup de nouvelles, qui sont essentiellement filtr�es. recommand� dans ce domaine. Il existe de nombreuses m�thodes existantes et largement utilis�es. Par exemple, le filtrage collaboratif bas� sur les personnes ou sur les objets a �t� largement utilis�. Maintenant, ce que nous essayons davantage, c'est d'utiliser des r�seaux de neurones profonds pour am�liorer l'effet de recommandation. Il existe des mod�les et des algorithmes ici, qui sont en fait une sc�ne d'applications TensorFlow.

Le service de donn�es en bas, je tiens � souligner un point�: Lorsque nous construisons un syst�me d'IA, l'accent ne doit pas �tre mis sur la construction d'un mod�le, mais sur les ensembles de donn�es et l'architecture des donn�es. Celui-ci est le plus important.

Questions et r�ponses intelligentes

En fait, nous pouvons comprendre la r�ponse intelligente aux questions comme un robot de discussion commun. Pour cette pi�ce, en pratique, nous pouvons directement rechercher par mot-cl�, vous la renvoyer statiquement, et utiliser le moteur de recherche pour vous faire un retour. Essentiellement, cette �poque n'est pas une question et une r�ponse intelligentes, mais une recherche documentaire. Plus tard, quel genre de situation s'appelle une question et une r�ponse intelligentes�?

La r�ponse intelligente aux questions n'est pas simplement bas�e sur des mots-cl�s, elle peut comprendre ce que je veux dire par cette phrase.

En plus de conna�tre les r�sultats, il a une fonction tr�s importante, qui est de comprendre ce que vous dites. Il s'agit d'une technologie : le traitement du langage naturel. Par cons�quent, dans la r�ponse intelligente aux questions, en plus d'un examen connexe, nous devons �galement effectuer un traitement du langage naturel.

De plus, pour le client, en plus du texte, notre apport peut �galement inclure la voix, et la r�cup�ration d'images ; ainsi vos id�es deviendront particuli�rement nombreuses. � l'heure actuelle, ce domaine est un bon domaine de d�veloppement de l'intelligence artificielle. Et ce chatbot que nous avons fait, en fait, son mod�le est essentiellement fait avec TensorFlow.

Utiliser TensorFlow pour cr�er une r�ponse intelligente aux questions pour les entreprises, quels sont les avantages�?

� l'heure actuelle, en fait, nous avons de nombreuses solutions li�es au cloud, connexes et g�n�rales. Mais pour l'industrie, la r�ponse aux questions intelligentes verticales n'est pas un probl�me que les questions intelligentes g�n�rales peuvent r�soudre. Par exemple, une industrie a beaucoup de jargon, et ce jargon n'est pas souvent mentionn�, donc � cet �gard, pour les entreprises, elle construira une question-r�ponse intelligente appartenant � sa propre industrie verticale, qui peut rapidement se servir, comme service apr�s-vente. Lorsque l'utilisateur a un probl�me avec le produit et a besoin d'un service apr�s-vente, le robot peut �tre utile � ce moment-l�, et il n'est pas n�cessaire de mettre � 100% beaucoup de personnel du service client pour r�pondre aux questions.

probl�mes de production

Dans le processus de d�veloppement d'un projet d'intelligence artificielle, TensorFlow n'est qu'un cadre pour vous. Il impl�mente des algorithmes associ�s et vous offre une API conviviale, vous permettant de cr�er divers r�seaux de neurones et d'effectuer diverses formations. � cet �gard, il s'agit plut�t de la familiarit� ou des connaissances de base des langages de programmation. Par exemple, qu'est-ce qu'une fonction de perte et qu'est-ce qu'une descente de gradient. Ce type de connaissances d�taill�es au niveau de la programmation sera mentionn� en d�tail dans les sessions de formation ult�rieures. Les probl�mes mentionn�s ici concernent davantage l'ensemble du projet, car puisque nous appliquons TensorFlow au projet et construisons un projet d'intelligence artificielle, ce n'est certainement pas pour jouer, mais en esp�rant l'utiliser pour r�soudre des probl�mes de production.

Ce chapitre va donc parler de l'exploration des donn�es dont j'ai parl� plus t�t. Tr�s t�t, nous avons constat� que le lac de donn�es que nous avons construit manquait de capacit�s d'exploration de donn�es. Un lac de donn�es contient des p�taoctets de donn�es, mais je ne peux m�me pas faire une recherche rapide qui g�re les m�tadonn�es. Plus tard, nous ferons un service d'exploration de donn�es pour r�soudre ce probl�me, r�aliser diverses pr�visualisations, et apporter un tr�s bon support aux data scientists.

la gestion des fichiers

Les mots ci-dessous sont pour les petits fichiers. Tout d'abord, les donn�es trait�es par notre TensorFlow doivent �tre pr�-r�gul�es. C'est-�-dire que TensorFlow n'a aucun moyen d'acc�der directement � l'environnement de production et d'obtenir que les donn�es non trait�es les traitent par elles-m�mes. Cette s�rie de fonctions se produit toutes dans l'architecture Big Data, de sorte que l'architecture Big Data fournit essentiellement un bon traitement des donn�es pour les couches d'intelligence artificielle et TensorFlow.

Dans le processus, nous rencontrerons le probl�me des petits fichiers. Par exemple, j'ai des dizaines de milliards de fichiers, alors que nous avons d�j� rencontr� des dizaines de milliards de fichiers dans le lac de donn�es. � l'heure actuelle, il est confront� au probl�me d'un grand nombre de fichiers et de petits fichiers. Pour ce type de traitement de fichier, nous avons g�n�ralement plusieurs sc�narios.

La premi�re est que s'il s'agit d'un fichier statique, tel que mes donn�es, il y a tellement de dizaines de millions de fichiers import�s dans un lot, et il se peut qu'il n'y ait plus d'entr�e continue, alors le moyen le plus simple est de compresser. Il existe de nombreuses fa�ons de compresser, pour diff�rentes pratiques, telles que Hadoop a sa propre fa�on de s�quencer un fichier.

En plus de cette m�thode, il existe un deuxi�me sc�nario de traitement des donn�es, qui sera appliqu� dans le cas d'une saisie de donn�es en temps r�el. Par exemple, mes donn�es continuent d'arriver, et chaque fois qu'elles arrivent, c'est un petit fichier. S'il continue d'arriver, il n'est pas appropri� d'utiliser la compression statique � ce stade, car les donn�es continuent d'arriver. Vous pourriez pousser 101kb � 110kb, mais cela n'a pas beaucoup de sens. Donc, pour cette situation, nous avons pr�c�demment con�u un syst�me dans le lac de donn�es appel� petit syst�me de fichiers. Il est utilis� pour intercepter toutes les demandes de donn�es, et apr�s avoir enregistr� de petits fichiers, il y a un thread d'arri�re-plan ind�pendant en arri�re-plan, d�di� � faire quelque chose - faire de la compression en arri�re-plan. Lorsque le nombre de vos fichiers ou une certaine fonctionnalit� d�clenche ce seuil, il d�clenchera un thread pour compresser les petits fichiers.

Dans ce petit service de fichiers, il doit enregistrer quels fichiers sont inclus dans le fichier apr�s avoir �t� compress�s et o� l'indexer. De cette fa�on, lorsque nous avons une demande d'acc�s � un petit fichier, la demande est d'abord intercept�e par le service de petit fichier, en fonction du fichier qu'il recherche via le syst�me de gestion pour voir o� il se trouve, puis obtenir le gros fichier et extrayez-le, puis renvoyez le petit fichier, afin que le probl�me d'un petit fichier puisse �tre r�solu. Ce sc�nario revient sans cesse pour les fichiers, mais un petit nombre de fichiers peut �tre une tr�s bonne solution.

En fait, pour les petits fichiers, il existe un autre moyen, c'est-�-dire que nous pouvons mettre de petits fichiers dans kafka, ce qui est tr�s bien pour le traitement de petits fichiers. Cependant, Kafka a un probl�me qu'il ne peut pas g�rer de gros fichiers, en particulier lorsque les diff�rences de fichiers sont trop importantes, comme un ou deux K pour les petits fichiers et plusieurs G pour les gros fichiers, alors Kafka est fondamentalement aveugl�.

Mentionn� plus t�t est que nous traitons un petit nombre de dossiers. Voici le probl�me du nombre de fichiers que nous avons rencontr�s - jusqu'� 10 milliards ou plus.

Nous savons que pour un syst�me de service de donn�es qui impl�mente Hadoop, toutes ses m�tadonn�es sont plac�es sur le NameNode. Le NameNode a une grande table de hachage utilis�e pour stocker les m�tadonn�es, qui enregistre sur quel DataNode se trouvent les m�tadonn�es. Lorsque nous voulons acc�der � un certain fichier, nous recherchons d'abord le NameNode, trouvons sur quel DataNode se trouve le fichier en fonction de la table de hachage, renvoyons l'adresse au client, et le client prend cette chose et demande ensuite le DataNode, donc cela demande de dossier Le processus est termin�.

O� est donc le goulot d'�tranglement ?

Si votre DataNode stocke beaucoup d'enregistrements de fichiers, cela fera exploser toute votre m�moire. �tant donn� que chaque fichier arrive, les informations d'origine occupent une certaine quantit� d'espace m�moire. Bien que Hadoop pr�tende �tre bas� sur des mini-ordinateurs bon march�, il souligne que la configuration de NameNode doit �tre sup�rieure � celle des autres nuds, au moins une configuration �lev�e, afin de garantir le bon fonctionnement de l'ensemble de votre cluster. Au d�but, NameNode ne fournissait que la fonction de HA. Toutes vos informations d'origine se trouvent dans un seul NameNode. Lorsque vous avez trop de fichiers, cela causera essentiellement de tr�s gros probl�mes.

Selon l'environnement de production r�el, le nombre maximum de fichiers qu'un NameNode peut stocker peut �tre d'environ 7 millions. En ce qui concerne son probl�me, ce n'est pas parce que la table de hachage atteint la limite sup�rieure, mais parce que chaque fichier source que vous entrez, vos donn�es occuperont une partie du stockage, et votre m�moire ne peut pas �tre �tendue autant, donc c'est le goulot d'�tranglement.

Apr�s cela, un consortium Hadoop 2.0 a �merg�. L'alliance consiste � allouer des NameNode � diff�rents nuds, chaque nud est mont� sous un r�pertoire diff�rent, donc le r�pertoire est divis� horizontalement, je ne suis responsable que d'un seul r�pertoire d'un NameNode, quels sont les avantages d'une telle structure ? : ce n'est pas un fractionnement simple.

Dans tout notre processus de d�veloppement informatique, nous avons ensuite produit un microservice. En fait, cette id�e consiste essentiellement � s�parer votre entreprise de mani�re ind�pendante. Quel est le probl�me avec notre grand syst�me�? Lorsque votre syst�me tombe en panne, toutes vos exigences vont mal et ne sont pas accessibles. Mais lorsque nous avons divis� l'entreprise en diff�rents sous-syst�mes, apr�s que l'un des miens soit tomb� en panne, le reste de mon syst�me a pu continuer � �tre utilis�.

Apr�s la sortie de l'alliance Hadoop, nous constaterons qu'apr�s qu'un certain dossier rencontre un probl�me, mes donn�es restantes peuvent continuer � �tre utilis�es. Alors, que faisons-nous lors de la conception des donn�es�? Avec diff�rents catalogues, nous pouvons �tre confront�s � diff�rents sc�narios commerciaux ou � diff�rents d�partements. De cette fa�on, une fois qu'une plate-forme de donn�es volumineuses est fournie � une entreprise, nous avons une tr�s bonne tol�rance aux pannes, c'est-�-dire que lorsqu'un probl�me survient dans les donn�es d'un certain d�partement de l'entreprise, cela n'affectera pas les autres endroits. Il est bon de faire une isolation de s�curit� directement au niveau de cette couche. Pour une entreprise, il est peu probable de construire plusieurs ensembles de plates-formes Big Data. G�n�ralement, il y aura un ensemble de plates-formes Big Data pour fournir un service unifi� � l'ensemble de l'entreprise et pour construire un syst�me d'intelligence artificielle par-dessus. les exigences des installations sont tr�s �lev�es. En plus de traiter un grand nombre de fichiers, ce morceau de Hadoop fournit �galement cette isolation de s�curit�, qui est une bonne solution � ce probl�me.

Comment construire un cluster

Ci-dessous, vous pouvez voir comment le cluster est construit.

Lors de l'int�gration de TensorFlow et du big data, nous aurons plusieurs m�thodes de traitement diff�rentes, comme la plateforme de donn�es et le cluster d'IA �tant ind�pendants. Nous savons tous que l'avantage de TensorFlow est d'utiliser le GPU. Bien s�r, ce n'est pas un probl�me avec TensorFlow, mais pour tout framework de calcul num�rique, les GPU sont les plus efficaces. Parce que le GPU est tr�s dou� pour le travail acharn� et le calcul num�rique pur�; et que le CPU est meilleur pour le calcul logique, alors tout le monde aura tendance � utiliser le GPU pour le calcul num�rique, et le r�seau neuronal profond est essentiellement une matrice diff�rente, diverses Math�matiques pures . Par cons�quent, dans l'entreprise, nous allons construire un cluster GPU unifi�, qui est sp�cialement utilis� pour former le mod�le.

De cette mani�re, nous sommes confront�s � un probl�me�: lorsque nous construisons un syst�me d'IA au niveau de l'entreprise, comment notre plate-forme de donn�es doit-elle �tre int�gr�e et fusionn�e avec le syst�me d'IA�?

Nous pouvons �tre compl�tement ind�pendants, une plateforme de donn�es, un syst�me d'IA. Nous pouvons �galement d�ployer ensemble des syst�mes d'IA et des syst�mes de donn�es. C'est le processeur que nous d�ployons sur le m�me serveur, ainsi que les �l�ments li�s aux services de donn�es. Lorsque nous calculons, notre mod�le est form� sur le GPU et les donn�es sont trait�es ailleurs, qui sont int�gr�es dans un ensemble. Il y a donc deux modes de d�ploiement, un ind�pendant et un int�gr�, quel est le meilleur ? Certainement le meilleur d'un. Pourquoi?

Parce que pour l'ind�pendance, si nous sommes ind�pendants, cela signifie que m�me si les donn�es sont distribu�es et peuvent �tre obtenues rapidement, mais vous avez in�vitablement une action suffle, vous devez extraire les donn�es de diff�rents nuds vers un nud, puis retirer ces donn�es. et transmettez-le au syst�me d'IA, et laissez-le s'entra�ner dans le GPU. Il semble qu'� l'heure actuelle, si nous avons une bande passante et des performances de calcul tr�s �lev�es, ce n'est pas un probl�me, mais au cours de notre utilisation, nous constaterons qu'un meilleur moyen est de le combiner.

L'avantage de ceci est que, tout d'abord, nous avons mentionn� plus t�t que Tensorflow prend en charge la distribution de mod�les. Je peux m'entra�ner sur diff�rents nuds. Les donn�es se trouvent sur la plate-forme Big Data, elles ont une distribution de donn�es et Tensorflow prend en charge les donn�es de chargement direct directement � partir de syst�mes de fichiers distribu�s tels que hdfs. Quel est le meilleur arrangement dans une telle situation ?

Notre mod�le est form� de mani�re distribu�e. Lors de la formation sur le nud actuel, les donn�es du nud actuel sont directement charg�es. De cette fa�on, toute la bande passante du r�seau est directement enregistr�e et la formation est effectu�e directement sur le nud actuel. C'est notre situation id�ale, c'est donc aussi la meilleure fa�on de vivre le d�ploiement de tous les clusters en un seul.

Bien entendu, cela peut �tre partiellement ajust� en fonction de l'environnement objectif des diff�rentes productions lors du processus de mise en uvre, de sorte que ce type de probl�me ne peut g�n�ralement �tre rencontr� que sur site et expliqu� sur place. Mais pour la construction de clusters, nous avons ces deux m�thodes.

TensorFlow sur Spark

J'ai mentionn� plus t�t que Tensorflow a une distribution de mod�le. En fait, TensorFlow peut �galement prendre en charge l'ex�cution ult�rieure sur Spark, c'est-�-dire TensorFlow On Spark. Pour cela, en fait, l'id�e est ce que j'ai mentionn� plus t�t : je ne fais que d�placer le calcul, et je n'ai pas du tout besoin de d�placer les donn�es. Puisque je veux former un mod�le, je peux simplement d�placer le mod�le que j'ai form� sur les donn�es. Ainsi, l'int�gralit� de TensorFlow peut s'ex�cuter dans le cluster Spark.

Si nous l'ex�cutons en production auparavant, cet effet n'est pas tr�s bon. Tout d'abord, vous ex�cutez TensorFlow dans Spark, qui est autonome. �tant donn� que Spark lui-m�me est distribu�, si TensorFlow est � nouveau distribu�, il y aura un probl�me lorsque les deux distributions se chevaucheront. Ainsi, dans ce sc�nario, TensorFlow s'ex�cute en fait ind�pendamment sur un seul plan d'ex�cuteur Spark. De cette fa�on, il g�n�re plusieurs mod�les, et finalement il calculera le meilleur mod�le et l'utilisera � nouveau. C'est juste qu'il y a une validation crois�e distribu�e dans ce processus pour rendre tous les processus de test-train-validation plus g�n�raux et am�liorer notre vitesse tout au long du processus de formation du mod�le.

d�bogage

Lorsque nous d�veloppons TensorFlow ou d'autres architectures d'IA, nous sommes tous confront�s � un probl�me�: le d�bogage. En fait, pas seulement en IA, si nous faisons du d�veloppement g�n�ral, en faisant du multi-threading, le d�bogage est aussi une chose tr�s difficile. Et nous faisons maintenant de l'IA, TensorFlow, qui peut �tre une formation distribu�e, et peut �galement lire des donn�es de mani�re distribu�e. Il devient plus difficile de d�boguer lorsque les deux sont empil�s de mani�re distribu�e.

Pour TensorFlow, nous ne pouvons avoir qu'un seul Tensorboard au d�but. Nous exportons le graphique de calcul et utilisons Tensorboard pour voir quel est le graphique de calcul de l'ensemble du mod�le et comment les variables changent. Y aura-t-il des probl�mes avec ce changement�? Cet aspect surveille notre processus de formation.

De plus, TFDBG a �t� propos� apr�s 1.0. Cette m�thode de d�bogage peut en fait nous aider � effectuer un traitement sous forme de points d'arr�t, mais comme nous l'avons mentionn� pr�c�demment, TensorFlow prend en charge l'entra�nement distribu� des mod�les. Dans ce d�bogage, l'entra�nement multithread distribu� deviendra particuli�rement difficile. . Donc une fois qu'on utilise DBG, il abolit en fait votre entra�nement distribu� et tire directement votre entra�nement distribu� dans un entra�nement synchrone actuel. Sinon, vous vous entra�nerez en parall�le sous multi-threading. En fait, le d�bogage de cette mani�re sera particuli�rement difficile. Et ces deux mani�res sont quelques-unes des fa�ons dont TensorFlow effectue le d�bogage. Il y en a tr�s peu, et bien que cette pi�ce semble avoir cette fonction, c'est en fait un probl�me tr�s difficile que nous avons rencontr� au cours du processus de d�veloppement. Fondamentalement, il y aura de nombreux probl�mes de d�bogage, qui ne sont pas si fluides.

test

Enfin, c'est le test. Qu'il s'agisse d'intelligence artificielle ou de big data, tester cette partie est en r�alit� particuli�rement un casse-t�te. Tout d'abord, nos tests de big data et d'intelligence artificielle sont diff�rents des tests traditionnels.

Pour les tests traditionnels, notre sortie est fixe. Il suffit de d�finir AC ou d'�crire des tests unitaires pour s'assurer que la sortie est correcte. Mais en termes de big data, nous n'avons aucun moyen d'�crire un test pour dire comment ce mod�le AC doit �tre �crit. De plus, pour le Big Data, nous n'avons aucun moyen de pr�d�finir l'AC. Par exemple, si nous entra�nons un t�raoctet de donn�es ou un Po de donn�es via le big data et l'intelligence artificielle, et calculons finalement une valeur, comment prouver que la valeur calcul�e est correcte�? Dans la mesure o� nous pouvons �tre aussi simples qu'un sc�nario, nous accumulons les donn�es de TP, et calculons finalement une valeur, alors comment prouver que notre valeur est correcte ?

Il est peu probable que nous calculions manuellement un par un, c'est donc �galement un probl�me auquel sont confront�s les syst�mes d'IA et les m�gadonn�es, c'est-�-dire comment testons-nous nos syst�mes d'IA. Pour cette pi�ce, nous avons plusieurs tentatives, mais � l'heure actuelle, il n'y a pas de m�thode de r�glage finale, c'est-�-dire que nous pouvons prouver cette chose, ce test de fonctionnement est correct.

Le dernier est l'acceptation. Lorsque nous r�alisons ce type de projet, nous sommes confront�s � des sc�narios d'acceptation. Nous avons form� le mod�le, comment d�finissons-nous cela�? Par exemple, si nous formons un mod�le et disons qu'il a un taux de r�ussite de 90�%, comment pouvons-nous prouver notre taux de r�ussite de 90�% et comment pouvons-nous convaincre les autres qu'il est de 90�%�? Par cons�quent, la coop�ration et l'acceptation des tests mentionn�es ci-dessus sont en fait des probl�mes auxquels nous avons �t� confront�s tout au long du processus de d�veloppement. Il faut dire qu'� l'heure actuelle, il n'y a pas de solution particuli�rement bonne qui puisse bien prouver cette chose.

C'est tout pour le moment. Merci d'avoir regard�. Si vous avez des questions, vous pouvez poser des questions li�es � des sujets connexes. Le cours d'aujourd'hui ira � cet endroit. Merci pour le prochain cours. Certains cours connexes, tout le monde est invit� � regarder , Merci!

"Classe d'application avanc�e TensorFlow et Neural Network Algorithm" est sur le point de commencer�!

La semaine prochaine, la formation TensorFlow h�berg�e par ThoughtWorks Tong Da et Bai Fachuan sera lanc�e sur mooc.ai pour pr�cher syst�matiquement aux �tudiants.

Avez-vous toujours souhait� qu'un ancien pilote puisse ouvrir la voie ? C'est une bonne opportunit�.

uvres de pens�e

Tutor ThoughtWorks est la premi�re soci�t� de conseil en informatique au monde, partenaire d'ONU Femmes et Enfants et de l'Organisation mondiale de la sant�. Bas�e � Chicago, elle compte 42 bureaux dans 15 pays � travers le monde.

En 2012, ThoughtWorks s'est class� devant Google et Facebook comme l'entreprise la plus difficile � interviewer au monde.

En 2016, ThoughtWorks a battu le peloton en remportant le prix des "Meilleurs employeurs pour les femmes en technologie" dans le monde.

Pr�sentation de la formation :

De d�butant � avanc�, th�orique + pratique, une compr�hension approfondie de TensorFlow�!

Ce cours est destin� aux d�veloppeurs d'apprentissage en profondeur et enseigne comment utiliser TensorFlow pour r�soudre des probl�mes sp�cifiques tels que la reconnaissance d'images et l'analyse de texte. Le cours s'�tend sur 10 semaines, � partir des principes de TensorFlow et des comp�tences pratiques de base, et enseigne aux �tudiants �tape par �tape comment cr�er CNN, l'encodage automatique, RNN, GAN et d'autres mod�les sur TensorFlow, et enfin ma�triser un ensemble de TensorFlow. majors de d�veloppement d'apprentissage en profondeur Comp�tence.

Les deux enseignants, Tong Da et Bai Fachuan, sont des experts techniques seniors de ThoughtWorks et ont une riche exp�rience dans la construction de plateformes de m�gadonn�es et le d�veloppement de syst�mes d'apprentissage en profondeur.

Heure de d�but : 25 avril (mardi), tous les mardis et jeudis soirs de 20h00 � 21h00

Dur�e du cours : 20 heures au total, r�parties sur 10 semaines, 2 fois par semaine, 1 heure par cours.

Adresse du cours :

Cours en ligne, ouvert sur rendez-vous !

Route de la soie

Apprenez � conna�tre la Chine

Application de TensorFlow dans les projets d'ing�nierie Vid�o de classe ouverte + Transcription de texte (Partie 2) | AI Research Institute