Skip to content

Latest commit

 

History

History
119 lines (61 loc) · 6.61 KB

crDH2017-08-09.md

File metadata and controls

119 lines (61 loc) · 6.61 KB

LP metadata

EDM europeana metadata model

Hétérogénéité des données issues des diverses institutions partenaires. Multilinguisme des données, nombreux doublons, nombreux champs vides. Principes de OA. Europeana agissant comme un groupeur.

Définir la qualité des métadonnées, pas une question simple, faute de définition nous ne pouvons pas la mesurer. Mais au moins à partir de la structure donner une estimation de cette qualité.

Si l‘on est capable d’identifier les mauvais jeux de données, alors possible d’améliorer ces jeux de données, et améliorer la qualité des données et l’expérience des utilisateurs.

Plusieurs solutions possibles :

Une solution organisationnelle. Euorpeana Data Quality Comité, chargé d’analysé et de réviser les schema de métadonnées. Définition des pré-requis fonctionnes et de leur analyse, définition des éléments nécessaires "enabling".

Solution alternative, un outil. Metadata Quality Assurance Framework, outils sur lequel travaille. Un outil générique destiné à mesurer la qualité des métadonnées. Adaptable à des schémas de métadonnées différents. Scalable aux big data. Compréhensible pour les commissaires.

Critère d’analyse des métadonnées (grille d'analyse)

  • structure et sémantique completenes, cardinality, uniqueness, length, dictionnary entry, data type, conformance, multilinguality (see biblio)
  • Functionnal requirements requirements of the mot important functions discovery scenarios
  • Problem catalog

Complétude

  • complétude simple ratio de champs renseignés
  • cardinalité des champs quels champs sont renseignés et avec quelle intensité
  • fonctionnalités support des fonctions de groupes : éléments obligatoires, etc.

Mesure de chaque élément individuellement, puis à l’échelle d‘un groupe, puis généralement. Métriques par l’intermédiaire d’une interface utilisateur.

Méthode de calcul des scores individuels et d’ensemble avec pondération.

Résultats : des champs descriptifs et contextuels dans Europeana. Visualisations qui emploient la science des données. Étapes suivantes basées sur des critères humains (codes )

pro.europeana.eu/europeana-technical-quality-comitee

Dataviz in Archival finding aids, a new paradigm fo Access

Avez-vous trouvé ce que vous cherchiez ? j'ai trouvé plus que je ne le pensais. Débuté ma thèse longtemps, mais ne savait pas par où commencé. Problème auquel fréquemment confronté dans les US et souvent lié aux déficiences des instruments de recherche.

Déficit parfois lié à des obstacles relatifs au copyright. IR créés par les archivistes pour les archivistes. Souvent des boîtes textuelles parmi lesquelles difficiles de naviguer. Difficulté de naviguer parmi les sections et la hiérarchie.

Problème de pouvoir. IR toujours reflété le pouvoir et le secret. Souvent peu de contrôle sur les informations présentées et la manière d’y accéder. Problèmes qui ont des conséquences fondamentales sur la production scientifiques en sciences humaines, pas seulement sur la facilité mais aussi sur la pertinence et la qualité de la recherche.

Présentera aujourd’hui travail expérimental sur la visualisation et son utilisation pour structurer les instruments de recherche archivistiques. Ne pas penser pour tous.

Activités de base en recherche. Browsing, searching, identifying, consulting, building, collecting, curating, chaining, probleming, etc.

Difficultés de voir les patterns et identifier les connexions parmi les données.

Exemples : online archive of California. Choix esthétiques, libéraux.

Visualisation des relations plus efficacement sous la forme de réseau plutôt que sous la forme de tables de données. Pour la recherche des chercheurs, permet d’aller beaucoup plus loin qu’une description textuelle.

Vue plus rapprochée d’un cluster identifié dans ce réseau. Arcs unidirectionnels. Sans visualisation n’aurait jamais pu identifier ce rapport. Appliqué dans un environnement archivistique, permet d’identifier structuration du fonds, identification des documents à consulter et temps à consacrer.

Réseau complexe et connexions. Accéder à des contenus riches et pertinents sur le contexte. Permettre au chercheur de grouper et manipuler les données, pour mettre en place une expérience d’apprentissage pertinente.

Circle packing of Keywords, qui permet déjà de disposer d’une visualisation en réseau. Trouver des collections par origine et producteur à partir des contenus.

Correspondance timeline, présentation familière pour le chercheur des documents d’après une ligne de temps. Permet de visualiser le nombre de documents par périodes. Possibilité de croiser des collections et identifier les éléments clefs et des motifs.

Biographical Note. Aspects biographiques très déterminants. Possibilité de produire une Timemap outil croisant chronologie et géolocalisation.

Pourquoi est-ce utile à l’échelle des collections. Ici exemple avec date de début et dates de fins. Stacked Timeline of Begin / End Dates. Étend la collection, facilite la navigation.

Visualisation Hierarchy as Sunburst Diagram, permet de visualiser la complexité de l’organisation du contenu intellectuel des archives. IR produisent des constructions artificielles, qui ne représentent pas nécessairement l’histoire de la structuration réelle des fonds.

Possibilité de visualiser agrégations, etc.

Voyant et Zotero, produit déjà environnement de découverte pertinent et remarquable. Possibilité d’utiliser topic modelling, etc.

Practicalities  : data repuposing

Donnée facilement exportables à partir des système de données, institutions doivent partager leur donnée. Data via pour améliorer les IR et les interfaces des collections spéciales.

Partage avec les chercheurs, usabilité, ouverture des formats. CSV, JSON, WML, via API.

Grande quantité de données archivistiques utiles dans les IR

besoin de traitement, automatisation partielle possible.

Plug and play tools

Gephi, TimeMapper, Voyant RawGraph, Tableau, Plotly, DataWrapper ChartBlocks, etc. datavisualisation libraries.

Besoin d’interfaces institutionnelles. D3.js, processing.js

provide more advanced customizable capabilities

Comment accomplir nos recherche : (método)

Imagine ce qui pourrait faciliter la recherche.

Modifier les métadonnées, plus de pouvoir pour changer et manipuler ce que vous voyer. Initier un dialogue.


Le temps de l’écriture

Groupe TERS (Item, Montréal, Finlande)

Travail sur la visualisation de graphe et dimension dynamique des visualisation

Christiophe Leblay [email protected]

Gilles Caporossi