Xiao Yanghua: Le v�ritable d�faut des mod�les nationaux � grande �chelle ne r�side pas dans les donn�es et la puissance de calcul, mais dans le processus de "raffinage"

[Texte/Observer.com Zhou Yi �diteur Zhang Guangkai]

Microsoft lance une fois de plus la "bombe royale".

Le 23 mai, lors de la conf�rence des d�veloppeurs Microsoft Build 2023 � Seattle, le PDG de Microsoft, Nadella, a officiellement annonc� qu'il ajoutait un assistant d'intelligence artificielle "Windows Copilot" � Windows 11, et les utilisateurs peuvent utiliser des chatbots dans les syst�mes Windows.

Dans le domaine de ChatGPT, la Chine a d�j� Ali Tongyi Qianwen, Baidu Wenxin Yiyan, Jingdong Lingxi et d'autres produits.

Dans le cadre de la nouvelle tendance AIGC, comment voyez-vous les d�fis et les opportunit�s des entreprises chinoises ?

Le 22 mai, le Forum sur l'�conomie num�rique 2023 (East Lake) s'est tenu � Wuhan. Lors du forum, Xiao Yanghua, professeur � l'Universit� de Fudan et directeur du Shanghai Key Laboratory of Data Science, a d�clar� � Observer.com : Compar�s � leurs homologues internationaux, les mod�les, les donn�es et la puissance de calcul ne sont pas les principaux inconv�nients de la Chine, le v�ritable d�faut r�side dans la ma�trise du processus de � raffinage � des grands mod�les. , y compris la formulation des donn�es, le nettoyage des donn�es et le param�trage, etc.

Xiao Yanghua a d�clar� que le processus de "raffinage" du mod�le � grande �chelle d�termine fondamentalement l'effet du mod�le � grande �chelle. Cependant, par rapport � des entreprises comme OpenAI, nous avons encore un certain d�calage temporel. Mais la Chine a aussi ses propres avantages, comme le syst�me national. Nous pouvons mettre en place une alliance industrielle pour progresser sur plusieurs lignes et raccourcir le cycle d'essais et d'erreurs.

Source de l'image Forum sur l'�conomie num�rique 2023 (East Lake)

Xiao Yanghua a �galement rappel� qu'il ne fallait pas ignorer d'autres pistes telles que l'intelligence incarn�e juste � cause du battage m�diatique autour de ChatGPT.

Point faible digne d'attention : une technologie de pointe

Selon Xiao Yanghua, la technologie d'intelligence artificielle g�n�rative (AIGC) repr�sent�e par ChatGPT deviendra un moteur important pour promouvoir le progr�s de l'�conomie num�rique de mon pays et parvenir � un d�veloppement de haute qualit�. Avant ChatGPT, l'intelligence artificielle �tait dans une phase industrielle immature�; l'�mergence de ChatGPT a amen� l'intelligence artificielle dans une phase de d�veloppement rapide et de r�alisation rapide du d�veloppement de l'industrie lourde.

Cependant, dans le domaine des grands mod�les tels que ChatGPT, la Chine en est encore � ses balbutiements et a besoin d'une planification et d'une coordination suppl�mentaires.

Xiao Yanghua estime que le d�veloppement de la grande industrie du mod�lisme d�pend de plusieurs facteurs.

Le premier est le mod�le. Le mod�le est comme la "force interne" dans le kung fu. Plus le mod�le est grand, plus le potentiel est fort�; le second est la puissance de calcul, qui est le cur de la comp�titivit� des grands mod�les, et la concurrence des grands mod�les est finalement une comp�tition de calcul le pouvoir�; le troisi�me, ce sont les donn�es. Seules des donn�es de haute qualit� peuvent alimenter un mod�le � grande �chelle de haut niveau. Cependant, aucun d'entre eux n'est le v�ritable d�faut de l'industrie chinoise des mod�les � grande �chelle.

SourceMicrosoft

"L'industrie du mod�le � grande �chelle de mon pays a des avantages dans les donn�es et une base dans la puissance de calcul. Il n'y a pas de secrets dans le mod�le lui-m�me. Ce qui nous manque vraiment, c'est une technologie de pointe", a d�clar� Xiao Yanghua.

Il a expliqu� que le processus de "raffinage" du grand mod�le est crucial, Il comprend la formulation des donn�es, le nettoyage des donn�es, le param�trage, la conception des processus et le contr�le qualit� etc. Il d�termine fondamentalement l'effet du grand mod�le et est un facteur important dans le d�veloppement de l'industrie du grand mod�le. � l'heure actuelle, le d�veloppement de l'industrie du mod�le � grande �chelle de mon pays manque de processus technologiques avanc�s, ce qui est difficile � suivre � court terme et n�cessite un prix �norme � explorer.

La formulation des donn�es fait r�f�rence � la d�termination de la proportion de donn�es dans diff�rents domaines, diff�rents types et diff�rentes modalit�s selon les objectifs d'apprentissage du mod�le ; le nettoyage des donn�es fait r�f�rence � la r�alisation d'op�rations telles que le d�bruitage, la d�duplication, le filtrage et la normalisation sur le corpus d'origine pour am�liorer Coh�rence, diversit� et compl�tude du corpus.

Le soi-disant param�trage consiste � s�lectionner les hyperparam�tres appropri�s en fonction de la structure et de l'�chelle du mod�le, tels que le taux d'apprentissage, la taille du lot, l'optimiseur, la fonction d'activation, etc. Ces choix affecteront l'efficacit� et l'effet de la formation du mod�le.

La conception de processus consiste � concevoir la disposition du processus, la d�finition des objectifs, la strat�gie de formation, etc. parmi les composants connexes en fonction des objectifs de formation et des contraintes de ressources du mod�le, afin d'am�liorer la capacit� de g�n�ralisation et l'adaptabilit� du mod�le.

Le contr�le de la qualit� fait r�f�rence au suivi et � l'�valuation du processus de formation et des r�sultats du mod�le, � la surveillance d'indicateurs cl�s tels que la pr�cision et la perplexit�, et � la comparaison des performances de diff�rents mod�les ou versions pour garantir la qualit� et la stabilit� de la formation de grands mod�les.

Xiao Yanghua a d�clar� que la Chine sait en fait comment faire chacun des modules sp�cifiques mentionn�s ci-dessus, mais qu'il existe un �cart entre l'effet global et les pays �trangers lorsqu'ils sont int�gr�s. "Ce n'est pas une question de savoir si cela peut �tre fait ou non, mais l'effet est la diff�rence entre 70 points et 100 points." Xiao Yanghua a d�clar� que nous devons suivre les derniers scores et que nous devons continuer � faire des essais et des erreurs. , �valuer et am�liorer.

Xiao Yanghua a d�clar� � Observer.com que la ma�trise de la technologie de pointe n�cessite des essais et des erreurs et une accumulation de temps. OpenAI a �t� cr�� en 2015 et a investi dans le d�veloppement de mod�les � grande �chelle en 2018. Cela a pris cinq ans cette ann�e, et ils ont pass� beaucoup d'essais et d'erreurs et d'exploration. M�me si de nombreuses entreprises chinoises tentent de rattraper leur retard, ce "d�calage horaire" est difficile � rattraper du jour au lendemain.

Capture d'�cran du site Web d'OpenAI

Cependant, la Chine a aussi un avantage : le syst�me national.

"Nous pouvons transformer les essais et erreurs en s�rie en essais et erreurs parall�les, et m�me essayer 10 itin�raires techniques en m�me temps", a expliqu� Xiao Yanghua. Lorsque certaines personnes v�rifient un certain itin�raire, d'autres n'ont pas � v�rifier � plusieurs reprises l'itin�raire. , Vous pouvez vous tourner pour v�rifier la recherche de la route B et de la route C... C'est la puissance du syst�me national chinois.

Xiao Yanghua a mentionn�, Les essais et erreurs parall�les n�cessitent que les institutions de R&D li�es forment une alliance , telles que l'alliance de la puissance informatique, l'alliance des donn�es et l'alliance technologique. Si tout le monde peut r�aliser le partage de technologie et la recherche et le d�veloppement collaboratifs, le co�t des essais et des erreurs peut �tre consid�rablement r�duit et le cycle d'essais et d'erreurs peut �tre consid�rablement raccourci. "Les gens doivent l'utiliser pendant cinq ans, mais nous ne pouvons l'utiliser que pendant un an. Il y a une strat�gie de rattrapage. La cl� est de savoir si nous pouvons promouvoir l'unit� de ces alliances."

"Vous ne pouvez pas manquer le prochain ChatGPT juste pour suivre ChatGPT"

Dans l'interview, Xiao Yanghua a d�clar� que plus ChatGPT est populaire, plus nous sommes strat�giquement d�termin�s dans le domaine de l'IA que jamais auparavant.

"Nous devons faire attention � une chose�: nous ne pouvons pas manquer le prochain "ChatGPT" juste pour suivre ChatGPT�; nous ne pouvons pas nous pr�cipiter pour faire le buzz sur un point chaud tout en ignorant les autres points chauds. C'est contre cela que nous devons prendre des pr�cautions. Nouveau les points chauds doivent faire attention � la strat�gie, mais ne perturbent pas votre disposition existante. � Xiao Yanghua a d�clar� que de nombreux petits mod�les traditionnels devraient �galement �tre �tudi�s et que d'autres technologies informatiques doivent continuer � progresser.

Au stade de l'intelligence artificielle g�n�rale, il existe en fait de nombreux points chauds. En plus de ChatGPT sur la sc�ne du chat, il existe �galement une g�n�ration graphique, telle que des produits repr�sentatifs et des entreprises telles que Midjourney�; il existe �galement une intelligence incarn�e - la combinaison de grands mod�les et de machines pour manipuler le monde r�el, afin que les robots puissent mieux servir Nous servons.

Source de l'Intelligence Embodi�e (Intelligence Embodi�e)

"Tout le monde se pr�cipite pour s'engager dans ChatGPT, ce qui va distraire notre �nergie et perturber le rythme de nos recherches scientifiques."

Xiao Yanghua a expliqu� que le chat ouvert o� se trouve ChatGPT a une valeur commerciale, mais une prise de d�cision s�rieuse dans le domaine vertical a en fait plus de valeur commerciale. Par exemple, dans le domaine m�dical, tous les milieux ont toujours esp�r� avoir un robot de consultation qui lib�re les m�decins ; dans le domaine de l'investissement, les gens esp�rent avoir un robot de conseil en investissement ; dans le domaine judiciaire, tout le monde esp�re aussi avoir un robot judiciaire robot consultant... Ce sont des sc�narios d'application s�rieux dans des domaines verticaux.

"Ces exigences vont au-del� des capacit�s d'une simple fonction de chat. Il est n�cessaire de doter les machines ou les grands mod�les de capacit�s telles que des connaissances professionnelles, une exp�rience d'expert et une logique complexe. Compenser ses lacunes et promouvoir activement la mise en uvre de syst�mes � grande �chelle mod�les dans des milliers d'industries. Les mod�les � grande �chelle permettent des sc�narios de prise de d�cision complexes et sont au centre du d�veloppement futur de l'industrie de l'intelligence artificielle.

Source de l'image Site Web de Tencent

Xiao Yanghua estime qu'il existe � ce stade quatre probl�mes principaux dans l'industrie chinoise des mod�les � grande �chelle.

Premi�rement, l'homog�n�isation de la technologie est s�rieuse, et de nombreux grands mod�les utilisent ChatGPT pour se nourrir�; deuxi�mement, l'�cologie des donn�es n'est pas parfaite. L'�cologie des donn�es chinoise est particuli�rement importante, mais elle fait relativement d�faut actuellement�; troisi�mement, la puissance de calcul est limit�e�; quatri�mement, l'innovation des mod�les est insuffisante. Aujourd'hui, de nombreux grands mod�les nationaux sont bas�s sur des mod�les de communaut� open source �trangers. S'il est interdit � l'avenir, nous serons tr�s passifs.

Ces probl�mes m�ritent notre attention et les compensent. En m�me temps, nous devons r�fl�chir davantage. Par exemple, si un grand mod�le veut cr�er de la valeur, il y a en fait deux exigences de base�: l'une est la capacit� du mod�le de base, c'est-�-dire les quatre domaines ci-dessus que nous devons rattraper�; l'autre est l'application industrielle.

Xiao Yanghua a d�clar� que l'industrie �trang�re des mod�les � grande �chelle a form� une �cologie et se d�veloppe tr�s rapidement. En revanche, en Chine, l'homog�n�isation est s�rieuse, et de nombreuses entreprises �tudient le mod�le de base. En fait, du point de vue de la tendance de d�veloppement de notre pays, c'est pr�cis�ment l'application qui devrait �tre utilis�e pour conduire la recherche sur le mod�le de base. "Le march� chinois est immense, riche en donn�es et diversifi� en sc�narios d'application. Le d�veloppement d'applications peut �tre utilis� pour faire progresser le mod�le, en empruntant la voie des ��villes environnantes � partir des zones rurales�� . "

"Nous pouvons faire du bon travail dans les applications p�riph�riques et l'�cologie, combler constamment les lacunes en mati�re de donn�es, de puissance de calcul, de mod�les et de processus, et enfin former notre propre comp�titivit� de base en termes de mod�les techniques." Xiao Yanghua a d�clar� que le grand mod�le n'est en aucun cas de la propagande Le truc du copywriting ne doit pas devenir un magnifique feu d'artifice, mais il doit vraiment devenir une force productive avanc�e qui favorise le d�veloppement et le progr�s social.

Route de la soie

Apprenez � conna�tre la Chine

Xiao Yanghua: Le v�ritable d�faut des mod�les nationaux � grande �chelle ne r�side pas dans les donn�es et la puissance de calcul, mais dans le processus de "raffinage"