Piraterie moins de ressources? Le rapport des personnes encore « forte aux yeux » contribuent de manière significative au modèle de la PNL

Auteur | Ali ingénieur senior de développement civique de mille

Produit | camp de base de la technologie AI (ID: rgznai100)

fond

Avec l'ère 5G, le développement rapide de l'industrie des nouveaux médias, la diversification de la plate-forme de communication de la piraterie, la diversification des formes, il est difficile d'atteindre le côté droit d'auteur maximum par les droits de l'homme limités. Selon MUSO Le rapport montre qu'en 2017 le trafic du site de la piraterie atteint 300 milliards de fois. AI mature, la couverture de surveillance dur piratage, recherchez le difficile problème sera résolu.

Alors, comment la technologie d'intelligence artificielle pour lancer la surveillance de la piraterie? Commençons Let par un exemple d'un début: Ce qui suit est un processus commun pour les utilisateurs de trouver des ressources piratées:

Dans l'exemple ci-dessus, il y a deux opérations: Rechercher Rechercher + Filtrer les résultats . Les « résultats de dépistage » aux utilisateurs de lire les résultats de recherche et de confirmer les résultats actuels contiennent du contenu piraté. Ce processus est appelé dans le domaine de l'intelligence artificielle pour identifier, parce que l'utilisateur est en train de lire le texte, donc nous l'appelons: la reconnaissance du langage naturel.

L'utilisateur moyen peut facilement déterminer la « résultats de recherche qui contiennent du contenu piraté? », Puis simuler la façon dont la machine est en train de lire résultat de la recherche? nous analysons ici trois exemples typiques de recherche piratée.

analyse de résultats de recherche piratage

1, un exemple d'un utilisateur recherche pour les films piratés

2, analyse « jugement Difficultés »

1) classés comme « juge et difficile »

(1) Nom des classes approximatives: série de films de classe, contient le nom de classe du film;

(2) thèmes non pertinents aiment: le résultat est des informations, des nouvelles, des billets de loterie, de la publicité;

informations Ambigu des mêmes chansons de films, les jeux, le théâtre, les noms communs des classes ;: (3) film du même nom

(4) catégories de conversion: abréviation de nom du film, l'information d'interférence artificielle ajoutés intentionnellement.

2) la reconnaissance du langage naturel dans la façon de traiter ce genre de situations?

(1) Nom catégories approximatives:

R: Rappelez-vous comment les gens traités? Si une personne est un film qui connaît toutes les informations, alors il sait que les deux ne sont pas le même film. Ces questions sont en langage naturel cartographie des connaissances (Knowledge Graph abrégé: KG) catégorie. (2) thèmes non pertinents comme: le résultat est des informations, des nouvelles, des billets de loterie, de la publicité et ainsi de suite; R: Les gens ordinaires parce qu'il ya quelques connaissances de base, il sait qui appartient nouvelles, qui appartient à la catégorie Publicité. Parce que ces catégories sont limitées, couramment utilisés dans le langage naturel Catégorisation texte (Classification de texte). texte commun et la classification binaire classement multiple (sortie de résultat de classification est supérieur à 2 types). (3) film classe du même nom: chansons d'information ambigus, des jeux, du théâtre, des noms communs même film; R: Il y a deux étapes nécessaires pour identifier le même nom. La première étape à extraire le nom de l'entité film dans une phrase, la deuxième étape consiste à identifier la description de phrase qui les zones du film. Il devrait être dans le domaine du langage naturel reconnaissance entité (Reconnaissance d'entités nommées, raccourci: NER) + Catégorisation texte . Discussion populaire, la reconnaissance de l'entité est de trouver un film dans une phrase, et la classification de texte distingue cette phrase est de dire que les zones du film. (4) Transform catégories: abréviation du nom du film, des informations d'interférence artificielle ajoutée intentionnellement. R: Ces questions et problèmes 1), ces problèmes appartiennent en langage naturel cartographie des connaissances (Knowledge Graph abrégé: KG) catégorie. Modèle exige des connaissances de base, savoir ce que l'abréviation de film.

Comment la reconnaissance du langage naturel pour identifier les piraté il?

Dans le domaine du traitement du langage naturel par trois parties. Ils sont: pré-traitement de texte, calcul de la fonction, la formation / prédiction de modèle.

  • Texte de pré-traitement: nettoyage de l'échantillon, et le texte, le symbole en forme unifiée;

  • Calcul d'entité: le texte en numérique. Cette étape peut être utilisé dans lequel le projet ou sac de mots modèle, un modèle de transformateur de profondeur (onehot), texte incorporé (incorporation de mots);

  • formation Modèle / Prévision: choisir l'algorithme bon modèle, modèle de formation. aspects de la décision du modèle d'arbre peut saisir (par exemple: XGBoost, LightGBM, Deep Forest, etc.), la profondeur du réseau peut être utilisé (par exemple .: LSTM, BERT, transformateur-XL, etc.). Bien entendu être utilisés également une pluralité de modèles (la sortie d'un modèle, un modèle en entrée).

Ainsi, le look modèle comme?

Ce qui suit est un exemple de modèle à partir de l'entrée de sortie, a besoin d'étapes de plancher du modèle à faire.

résumé

La méthode décrite dans cet article ont été débarquées au projet réel, le taux de précision peut atteindre au-delà des résultats artificiels pour déterminer le niveau de la piraterie. À l'heure actuelle le langage naturel a encore les caractéristiques des entreprises très solides, différents secteurs d'activité connaissent différents problèmes de spécifiques de l'industrie, et le modèle de pointe disponibles en anglais support natif, de sorte que le scénario d'atterrissage du projet nécessite une combinaison de scénarios d'affaires réels du modèle d'optimisation continue .

micro-canal iOS version bêta du mode Diablo, des rapports malveillants allégué, les plates-formes sociales d'arrêt Âme d'exploitation partenaire, AWS pour lancer le système d'exploitation open source basé sur Linux | Geeks titres

langage de programmation moderne grand PK, en 2020, les développeurs de langage de programmation sept se soucient!

Comment Fun Version AlphaGo de backgammon avec CNN?

programmeurs qui attrapent des poissons, maintenant les heures supplémentaires volontaires à Wuhan

chaîne de blocs avec une grande intégrité des données et les données peuvent ouvrir une nouvelle ère?

Place 2.0 éther, la fragmentation, les chaînes de bloc d'état général canal DAG, extensible à chaîne ...... solution!

Computer Vision AI jeu d'outils OpenVINO , est un cadre d'apprentissage profond Top1 votre cur?
Précédent
iOS version bêta microcanal du mode Diablo, a allégué les accusations malveillantes, les plates-formes sociales d'arrêt Âme d'exploitation partenaire, AWS pour lancer le système d'exploitation open s
Prochain
article rapide des portraits et des utilisateurs de vidéo Web pour explorer l'application
Ma recommandation IDE nuage favori
TOP 3 problème de l'industrie informatique: « égal » est la source des problèmes majeurs dans de nombreux logiciels d'ingénierie de
langages de programmation modernes grand PK, en 2020, les développeurs de langage de programmation de sept se soucient
40 Entretien Data Mining Zhenti grande course
Ouvrir la police source n'a pas d'odeur? Tout ce que vous choisissez éclatez police rouge sur cinq GitHub
Pourquoi devrions-nous utiliser Flutter?
l'architecture hybride, les données ... Le bug de sécurité natif nuage sombre trop facile de provoquer un désastre
Facebook et faire des choses, les violations de la concurrence-accord a été mis en accusation, les technologies clés PyTorch doute Violation
Fun SpringBoot2.x des objets mis en cache | programme Force
Mountain « plantation d'arbres nuage » vert fait suite aux « fleurs » nuage rouge net ouvert
Zhangjiajie « 315 » premier feu de contrefaçon de feu strict