Google vient de publier 25 millions d'ensembles de données libres, venez découvrir

Le texte intégral 2024 Les mots, lorsque l'apprentissage tout au long attendu 6 minute

Source: Pexels

Remarque: nouvel ensemble de données de l'outil de recherche de Google a été publié en 2020 Janvier 23.

la prévention des épidémies et le stade de contrôle, « les vacances d'hiver » de tout le monde sur plus long, donc « long » en hiver Que pouvons-nous faire?

Récemment, Google a publié un datasetsearch outil gratuit, il peut rechercher 25 millions d'ensembles de données accessibles au public.

Outils de recherche incluent des filtres, basés sur des licences (gratuites ou payantes), le format (csv, images, etc.) et le temps de mise à jour des résultats limites.

Les résultats comprennent également une référence au contenu de l'ensemble de données ainsi que la description de l'auteur.

Google dataset procédé de polymérisation diffère d'autres ensembles de référentiels de données (par exemple, le registre Amazon données ouvertes). Et autre référentiel d'auto-gestion et des ensembles de données gérées diffèrent, Google ne parviendra pas ou un accès direct à 25 millions d'ensembles de données.

, Google repose plutôt sur l'éditeur de collecte de données, l'utilisation de normes ouvertes schema.org des métadonnées décrivant leur ensemble de données. Ensuite, Google indexe les métadonnées et font des recherches entre l'éditeur.

Les éditeurs ont encore besoin d'héberger votre propre jeu de données, éditeur si but lucratif conformément aux normes schema.org utiliseront également Google pour indexer leurs ensembles de données. Sur la base de l'expérience passée, je trouve que, lorsque les ensembles de données de recherche associés au marché, plus le pourcentage, les résultats de la recherche, environ la moitié des ensembles de données de profit de l'agrégateur.

Autres populaires sur les ensembles de données de l'éditeur de plates-formes, y compris les organismes gouvernementaux et les institutions de recherche. Google a cité seule agence gouvernementale des États-Unis a émis plus de 2 millions d'ensembles de données.

Selon les statistiques de Google, la plupart des ensembles de données impliquant « Sciences de la Terre, la biologie et l'agriculture. »

Simple à publier leurs propres ensembles de données en utilisant schema.org des standards ouverts. De plus en plus d'éditeurs de se conformer à cette norme, le nombre de jeu de données accessibles au public est susceptible de continuer à croître.

À l'heure actuelle, Google ne fournit pas une API pour la recherche ou le téléchargement de jeu de données libre.

millions de Haunt en ligne de jeux de données

Sur le réseau, un sujet d'intérêt pour l'utilisateur, il y a presque des millions d'ensembles de données. Si vous voulez acheter un chiot, vous pouvez trouver un résumé des plaintes des ensembles de données pour étudier ou trouver des acheteurs pour sensibiliser les chiots. Ou, si vous aimez le ski, la station de ski, vous pouvez trouver des données sur le revenu et le nombre de blessés ou blessés taux de. Index Dataset recherche a été mis en place pour les près de 25 millions d'ensembles de données, vous pouvez rechercher des ensembles de données en un seul endroit et de trouver un lien vers l'endroit où réside le données. L'année dernière, les gens les essaient et fournir une rétroaction, et maintenant DatasetSearch retirer officiellement bêta.

Requête « ski » quelques-uns des résultats de la recherche, afin d'accélérer les skieurs les plus rapides et les stations de ski des ensembles de données de revenus.

Quelles innovations Dataset recherche?

D'après les commentaires obtenus à partir de l'essai DatasetSearch, les développeurs ont ajouté de nouvelles fonctionnalités plus tôt. Maintenant, en fonction du type souhaité de jeu de données (par exemple, table, image, texte), ou si l'ensemble de données peuvent être obtenues gratuitement auprès du fournisseur, vous pouvez filtrer les résultats. Si l'ensemble de données est sur une zone, vous pouvez visualiser la carte. En outre, le produit peut maintenant être utilisé sur l'appareil mobile, et l'ensemble de données a été décrit la qualité grandement améliorée. Cependant, une chose n'a pas changé: tout le monde peut publier des données à l'aide de jeu de données d'attributs de description des standards ouverts (schema.org) sur sa propre page Web, afin que les gens se trouvent dans l'ensemble de données de recherche.

Les développeurs ont également appris qu'il existe différents types de personnes sont à la recherche de données. Certains chercheurs universitaires cherchent à soutenir leurs données d'hypothèse (exemple: essayer ocytocine), la table des élèves sous forme de données libre et couvrant leur thème de thèse senior (par exemple: essayez d'utiliser les taux d'incarcération des filtres appropriés), analyste d'affaires les scientifiques à trouver des informations et des données sur l'application mobile ou d'autres restaurants-repas rapide. Tous ces éléments ont des données! Ce que les utilisateurs des recherches? Les requêtes plus courantes comprennent « l'éducation », « temps », « cancer », « criminel », « football » et « chien. »

L'image ci-dessus montre la requête « fast food » de certains résultats de recherche.

Qu'est-ce que les ensembles de données dans la recherche Dataset à l'intérieur?

Dataset Search fournit également un aperçu des données en ligne. Voici quelques faits saillants. Le plus grand ensemble de données couvrant le thème des sciences de la terre, la biologie et l'agriculture. La plupart des gouvernements du monde entier seront données, et en utilisant schema.org être décrit. ensembles de données gouvernementales ouvertes aux États-Unis disponible plus de deux millions, loin devant en nombre. Quels sont le format le plus populaire de données? Les utilisateurs peuvent trouver plus de 6 millions sous forme de DatasetSearch.

Continuer d'augmenter le nombre d'ensembles de données trouvées dans la recherche dataset. S'il y a un ensemble de données sur le site, et l'utilisation des standards ouverts schema.org être décrit, d'autres personnes peuvent trouver dans DatasetSearch dans. Si vous savez qu'il ya un ensemble de données, mais ne peut pas le trouver dans DatasetSearch, demandez au fournisseur d'ajouter une description schema.org, les autres comprendront également leurs ensembles de données.

Qu'est-ce qui va se passer?

Source: Pexels

DatasetSearch a quitté bêta, mais indépendamment du fait que le produit a une « bêta », continuera à améliorer. DatasetSearch expérience rapide télécharger!

pouces Message attention

Ensemble, nous partageons l'apprentissage et le développement de l'IA sec

Tels que réimprimer, s'il vous plaît laisser un message dans les coulisses, se conformer aux normes de réimpression

Photos | nuages de pluie Zhangjiajie beau que le paradis
Précédent
Attention! Votre souris a été site Web de cheminement
Prochain
"Code de propreté": 5 points de base
La communauté internationale préoccupée par la guerre de la Chine « la peste »: la Chine est le monde pendant un certain temps
JS n'utilise pas ===
Comment les spectateurs les grandes entreprises utilisent l'intelligence artificielle, et l'utilisation de la pratique?
Sous en ligne et hors ligne intégré, à la fois derrière la guerre médecin avant Yuanjiang Jinhua « peste » jeu
Jeunesse Technologie | Académie chinoise des sciences Zhang Shifeng: début tard pour rattraper son retard, et nous nous efforçons de faire une personne utile
Pour les enfants à partir d'un nom, de créer un générateur de nom de bébé avec une technologie d'apprentissage en profondeur
Seulement six mois, je suis devenu un scientifique à partir des données codées blanc
« 2 regrettables » Liu Jia Xi miroir de maquillage fans louange gagné sourire
Micro On a pris 145 heures pour compenser les bibliothèques supprimées, la perte de sang de 150 millions de yuans
Yuhang Un niveau de sites pittoresques les plus beaux du pays « rétrograde étaient » libre et ouvert
200 millions de star française à la panique! Dott enfant âgé de 15 ans prodige comme une « machine de but », 19 gains 32 buts