date	tags
2017-05-08	cr, acfas, bibliothèques, colloque

Compte rendu ACFAS, Bibliothèques numériques, 8 mai 2017

Mesure du libre accès aux articles scientifiques : un exercice complexe, Eric Archambault (Science-Metrix)

Pour faire une mesure systématique des articles ouverts, aurait besoin d’une mégabase de données. Mais plus d’un article sur deux est disponible en accès libre dans la mesure où ne se pose pas la question d’une définition stricte du respect des droits. Ce sont les chercheurs qui les ont rendus disponibles dans le vieux modèle de partage individuel centenaire. Les sciences humaines sont beaucoup moins ouvertes, il serait ainsi important d’investiguer les causes. Plusieurs causes possibles, peut-être le nombre d’auteur, ou bien transformation qui n’a pas eu lieu. Dans les sciences de la santé, il y a un sixième d’auteurs par papier, ce qui réduit nécessairement l’effort.

Web of science très mauvais pour mesurer en sciences humaines car tient peu compte de la langue. Les phénomènes en sciences humaines sont plus locales.

NLP4NLP

TAL sur corpus 50 ans 1965 à 2015, principales conférences du domaine.

40% auteurs nouveaux, témoigne domaine jeune et dynamique. Une communauté masculine.

La plupart des auteurs un seul publié. Auteurs jusqu’à 350. Grande majorité jamais publié seul. Nombre de co-auteurs ente 2 et 4.

Narayanan beaucoup co-auteurs. Études des composantes connexes (graphe orienté), montre qu’une communauté solidaire.

Nombre moyen de références bibliographiques qui augmente dans le temps. 10aine par article alors qu’au début citait peu. Contraintes de place dans les articles qui influence le nombre.

Hermann Ney, etc. Noter que 42% articles jamais cités, et 40% des auteurs jamais cités. Mais un corpus fermé.

c. 2004, passage citation de plus d’une ressource linguistique par artiste, témoigne du passage à une linguistique computationnel.

WordNet, Timit, Wikipédia.

Pour les outres PRaat, SRI Language, Modeling, etc.

Modèle de Markov très dominants même si légère baisse dernières années. Les réseaux de neuraux populaires début 2000 puis baisse, et fort regain intérêt ces dernières années.

0,3% de plagiat, en revanche 20% d’auto-plagiat. Flux entre certaines conférences, ou des conférences aux revues. 40% réutilisations dans l’année, sinon dans les deux ans.

BAnQ numérique

Nouvelle bibliothèque numérique conçue.

Institution fondée en 1967, composante dépôt légal. Conserve et diffuse le patrimoine documentaire québécois ou relatif au Québec. Première institution de la mémoire collective au Québec. Missions comme catalyseur, coopérations échanges entre bibliothèque, stimuler la participation au développement de la bibliothèque virtuelle.

Construction d’un écosystème numérique. Une dynamique dans laquelle cherche à changer le paradigme mis en place dans les 20 dernières années. Nouvel écosystème qui repose sur le système Pistard, le Dépôt numérique fiable, et la BAnQ numérique. Sous-jascent un ensemble de métadonnées et de documents numériques.

Pistard, un système créé il y a une 20aine d’années qui permet de remplir les missions gouvernementales de gestions des archives, gouvernementales, légales ou privées. Système en cours de refonte car les documents que reçoit sont en train de changer. Commission Charbonneau 4 ou 5 Tera de documents, mais seulement versés en numérique. Modernisation nécessaire et nouvelle loi des archives (à venir avec volet numérique).

Le dépôt numérique fiable DNF a pour objectif d’assurer le dépôt et la conservation des documents numériques. Système d’acquisition de traitement et de conservation des actifs numériques patrimoniaux. Basé sur la norme Open Archival Information System (OAIS) ISO1-4721. Ensemble de règles qui décrivent les processus concernant les cycles de vie. Enjeu de société, préservation pérenne, mais aussi réduction des opérations.

Accès au public via BAnQ numérique. Prévision d’un entrepôt de gestion et d’accès de données liées. Stockage de données au format RDF.

Actuellement réalisation de la couche du dépôt au stockage. Actuellement demande de financement sur 10 ans. 22M sur dix ans. Coût 2.2 millions/an. Actuellement en recherche de financement. 32 Péta sur 10 ans. Principaux frais de gestion liés au stockage.

BAnQ numérique, un projet lié à l’arrivée de Christianne Barbe lors de son arrivée à la tête de l’établissement en 2014 (Itw dans le Devoir). Faisait alors le parallèle avec Gallica. À la BAnQ suivait jusqu’alors plutôt la tendance des bibliothèques numériques britanniques sous forme de petites mises en valeurs de fonds détaillés. Gallica à l’opposé était une bibliothèque très inclusive où tous les documents étaient valorisés à travers une même interface. Partis de là, développé plan d’affaire en cours d’application. Développé à 40%, financé avec les financements du plan culturel numérique du Québec.

110 millions de dollars sur 7 ans dans le plan culturel numérique du Québec. Plusieurs missions à réaliser BAnQ numérique et web sémantique. 5,125M pour la BAnQ numérisation et nouveaux équipements + BAnQ numérique.

Idée de mettre au centre l’expérience utilisateur. Incitation de partage des documents. Collections patrimoniales de BAnQ, les livres et médias. Offrir une seule porte d’entrée à ce service. V2 recherche multi source.

Données ouvertes et liées, mise sur pied d’un service data.banq.qc.ca, soutien constant du MCC pour les données ouvertes et le web sémantique à la fois pour le hackathon, etc. Plusieurs objectifs, décloisonner les contenus, enrichies, etc.

C106 aider le réseau à s’approprier… deux volets

coordonner et orienter institutions Qc réseau expert
mettre en œuvre, réseau pilote avec MCC (jeu pionnier des relations franco-québécoises)

Création de jeux de données statiques RDF, point d’accès SPARQL endpoint, et amélioration de OAI-PMH. L’usage de données structurées dans les pages web comme schema.org (dit Google un peu au centre de tout). Destiné à favoriser le référencement organique de la BAnQ numérique.

Mise sur pied d’API publiques pour le partage et la collaboration des données utilisateurs.

Qui dit données ouvertes et liées, suppose d’adopter une licence d’utilisation adaptée. Création d’une licence d’utilisation des données.

Lien avec le DNF

Besoin soutien financier gouvernemental pour assurer la poursuite des travaux liés à l’écosystème numérique de la BAnQ. Profiter du chemin tracé par les autres institutions similaires pour édifier la bibliothèque numérique québécoise.

Pendant un temps 10M utilisateurs pour Gallica, alors questionnement sur la manière dont pourraient valoriser la bibliothèque. Idée de penser Gallica comme une plateforme. Gallica marque blanche, idée de proposer de l’apport extérieur de documents. Développer partenariats.

Discussion

Très ouverts pour collaborations avec d’autres institutions comme notamment la Cinémathèque qui a publié sa politique de préservation il y a quelques mois. UQAM intéressée également, Université Laval idem.

Beaucoup en relation avec le MCC pour le Répertoire patrimonial et culturel du Québec. Des liens également avec le web sémantique.

Open science et présence numérique en sciences humaines et sociales

Annaig Mahé (Dicen)

Contexte du travail la science ouverte. Comment garantir un meilleur accès aux publications, aux résultats et aux données de la recherche, leur partage et leur réutilisation en s’inscrivant dans un cadre d’Open Access.

Analyse de la visibilité en ligne de la recherche : comment mettre en œuvre l’interopérabilité dans l‘univers de la science ouverte (technique, sémantique, et organisationnelle). Logiques d’appropriation des nouveaux modes de communication par les acteurs de la communauté scientifique (producteurs et utilisateurs de ressources).

Pas de projet de grande envergure en SHS pour repérer la science. Les grands projets commerciaux référencent assez peu les SHS. Car un domaine relativement local. Peut d’outils développé par des acteurs commerciaux, la plupart des initiatives existantes portée par les acteurs publics. Mais des initiatives fragmentées.

Objectif étude : évaluer les logiques communicationnelles de contributeurs sur HAL et Hypothèses. Type de contenu, volume, discipline. Comparer HAL et Hypothèses.

2008 une plateforme de blogging. HAL du CCSD motivations permettre une communication directe des chercheurs. Mais développement rapide de portails institutionnels. —> dualité des motivations : archive thématique et recensement des productions.

Travail sur les fractions complètes de HAL-SHS grâce à OAI-PMH, récupération des notices en XML-TEI. Voulu faire la même chose avec Hypothèses mais des données DC assez pauvres, manque d’informations sur les créateurs du blog, etc. Convention de recherche en cours avec le Cléo. Corpus des blogs des chercheurs en langue française, 225 blogs en texte intégral.

Pour HAL, distingue quatre niveau de contributions plus ou moins éloignés des objectifs initiaux de la plateforme. Communication scientifique directe. Chercheur non auteur = niveau 2. Beaucoup de dépôts réalisés par les intermédiaires. Enfin dépôts automatiques effectués. Distingue ensuite dépôt avec ou sans fichier, sans fichier pour signalement et référencement.

Faisait hypothèse que les auteurs participaient plus à la communication directe et les personnels d’accompagnement de la recherche au référencement. Répartition des dépôts qui paraît assez conforme à ce qui est déposé. 100 000 avec textes intégral (à peine 30% des dépôts). En outre, si enlève les images et les vidés, seulement 78 000 documents déposés. 86% de chercheurs qui contribuant, sur les 15 000 déposants 14 000 chercheurs. 8% intermédiaires extérieurs. Et deux plateformes SPIR à sciences po et dépôt automatique des thèses Abes. Pourtant Chercheurs contribuent pour moins de moitié à la plateforme.

Différences disciplinaires. Immédiate, sciences information, éducation, économie (pré-print mais là où délais de publication les plus longs). Sur hypothèses contributeurs généralement des chercheurs. Responsable de blog et auteurs. Logiques de contribution très variées.

Connexions possibles entre les plateformes, difficultés techniques. Souvent auteurs anonymes ou emploi de pseudo (peut sans doute faire recherche manuelle). Pas d’identifiant auteurs. De plus en plus utilisation de ORCID dans HAL.

Présence commune assez faible. 25% des contributeurs sur hypothèses présents sur HAL. Aimerait pouvoir repérer des logiques de contribution d’acteurs à travers les plateformes. Forme de communication alternative.

Discussion

Partir des contenus au lieu de partir de résultats d’enquête. Cf. travaux Lille.

Isidore, mais l’alignement surtout fait sur les thématiques de recherche plutôt que les auteurs et les institutions. Aimerait pouvoir circuler dans tout l’écosystème de recherche.

Istex seulement 7% de documents

Usages des bibliothèques numériques : interroger la genèse instrumentale de leur interopérabilité technocentrée

cf thèse De l’organisation des connaissances aux interopérabilités épistémiques : contribution aux humanités numériques. Réflexions et expérimentations autour des Archives Audiovisuelles de la Recherche. par Edwige Pierot

Aujourd’hui la bibliothèque numérique s’inscrit dans le cadre de la société de l’information. Une réalité politique et économique qui s’est mise en place à partir de 1998 avec plusieurs structures comme PAGSI, ADELE, RE/SO 2007, France-Numérique 2008-2012, 2012-2020.

"La République numérique est une société de l’information partagée par et pour tous. Le Palan RE/SO 2007 vise donc à agir ..."

Risque de laisser sur le bord de la route une partie de la population avec les autoroutes de l’Information. Conseil de l’Europe 2006 signalait que besoin d’associer les personnes. Henten A, Skouby K. E., Falch M., European planning Rapport annuel du défenseur des droits qui souligne l’inadéquation des moyens par rapport à la population. Question du haut débit, non existence de réflexion sur les usages communes à tous les publics.

Artefact, outil et instrument

Artefact à l’état brut, outil lorsqu’est orienté vers un but, mais pas encore des instruments, cad des outils intégrés. Instrument pas donné mais élaboré par le sujet.

"L’instrument est une entité mixte qui comprend d’une part l’artefact matérliel, les schèmes d’utilisation, les représentations qui font partie des compétences de l’utilisateur et sont nécessaire..."

Pierre Rabardel, Qu’est-ce qu’un instrument ? Appropriation, conceptualisation, mise en situation, CNDP, DIE, Mars 1995

Conception dans l’usage et pour l’usage. Cf. Folcher V. Revue des interactions humaines médiatisées 2015. Projet d’avantage piloté par ce qu’il est possible de faire plutôt que l’analyse précise des besoins.

L’exemple de OAI-PMH, plusieurs bibliothèques qui se réfèrent les unes et les autres. Questions de l’utilité de ces plateformes car se renvoient les unes et les autres, mais selon le biais de consultation employé, ne donnent pas les mêmes résultants. Interopérabilité sur une partie des éléments. De fait, laisse pensé que l’on est plutôt dans une valorisation technocentrée de l’institution plutôt que dans une réflexion sur les usages des utilisateurs. Souvent une analyse quantitative plutôt que qualitative.

Pour nous des dispositifs-instruments à inventer pour parvenir à un espace construit mais anthropocentré plutôt que technocentré. Travail d’unification possible par l‘intermédiaire d’un ensemble d’API REST, ou bien par l’intermédiaire d’une fourniture de service qui irait construire en fonction du besoin et des habitudes de l’usager. Dégager des invariants orientés usage qui peuvent diriger une conception d’instruments stabilisés.

Rameau, data.bnf, etc. pour construire un service pour les usagers. Plusieurs services construits à partir du projet. Virtual catalog, etc.

INA

Outils qui permettaient de définir ses propres formulaires, outils de visionnage dédié médiascope permettant de faire de la segmentation, de l’annotation à la minute, de superposer des calques et des comparatifs de flux (par exemple pour s’interroger sur un traitement parallèle d’un JT). Un usage expert que l’on a voulu mettre en place.

L’offre en ligne est beaucoup plus limitée. Outils que ne peut pas exposer en dehors de nos emprises physiques. 2012, mise en place d’un réseau de sites partenaires. Mais faute d’accompagnement documentaire pas offre système externe, consultation simple. InaMédia pro plateforme commerciale qui fait concurrence aux outils spécifiquement dédiés aux chercheurs alors que pas complet. Déplacement physique qui rend consultation sur place obsolète. Public cible connaît une certaine décroissance. Décroissance des chercheurs professionnelles mais plus de recherches personnelles.

Ici que les nouvelles technologies nous intéresse, par exemple avec la détection automatique d’image, repérage d’image similaire.

Transcription automatisée qui peuvent remplacer les notices descriptives des JT qui ne sont pas timecodées. Pourrait ici distinguer les plateaux des sujets. Transcription qui permettrait de générer des paquet de mots sémantiques pour associer les notices à des moments précis du flux.

Liage de données. Aujourd’hui des lexiques qui s’appuient sur des personnes et des données. Beaucoup de choses à récupérer ici pour enrichir nos notices. Créer des liens entre nos propres lexiques et les références extérieures, possibilité de distinguer les entités et enrichir la biographie avec des contenus dont ne dispose pas. Mais aussi possibilité de générer des lexiques qui n’existent pas encore dans nos contenus, comme première base de description.

Quelle stratégie pour le data-mining à des fins scientifiques. Enjeux juridiques (CNIL) qui définit très largement le concept de données personnelles. Enjeux de nettoyage et risque d’appauvrissement énorme. Question des interfaces, valoriser les métadonnées pour l’externe comme pour l’interne. Mais comment faire pour que les données mises à disposition ne soit pas prédéterminés par les choix que l’on effectue du point de vue documentaire. Par exemple pour l’archivage des tweets, déconstruction de la données pour construire une interface avec les chercheurs pour faire évoluer l’interface de travail avec lui en fonction du besoin que veut mettre en œuvre.

Refonte de l’outil de gestion documentaire qui donne l’occasion de plus d’interopérabilité. Grande réflexion sur les technologies innovantes afin de dégager du temps de travail humain chez les documentaires pour produire des services personnalisés pour les chercheur. Volonté de construire un hub générique s’adressant à diverses communautés d’usagers.

Discussion

Savoir si travail sur le poste de consultation est documenté dans sa production.

Sémantisation FRBR, travail avec des chercheurs mais part sur CIDOC-CRM, modèle bib-frame sans œuvre pour la base de production. FRBR-OO. Projet ANR sur la valorisation du patrimoine minier. Projet Doremus du mal à travailler avec FRBR-OO car évolue encore.

Vidéo-ethnographie des usages de Gallica : exploration au plus près de l’activité

Nicolas Rollet

Datamining, entretiens utilisateurs, vidé-ethnographie. Dispositif qui associe des caméras subjective avec entretien auto-réflexive. 10aine utilisateurs sur 6 mois d’étude. Caméra qui filme fish-eye autour de l’écran et prend le son. Enregistrement 20 min à 1h. Puis retournait voir les personnes pour revoir avec eux leurs usages. Entretien d’auto-confrontation, leur demande de reconstruire leur raisonnement.

Pour rendre compte des usages, montage vidéo pour proposer à la Bnf des exemples d’utilisation. Une étude exploratoire, petite échelle. Lourd à mettre en œuvre. 10 participants 4 expérimentés ou utilisateurs réguliers, et 6 novices. Une après-midi de montage pour 1h de rush.

Réflexe toujours de voir ce qui sort. Le défilement de la liste, n’est pas perçu comme une perte de temps. Travail de pré-selection que peut déjà rendre visible du point de vue du travail. Déjà du travail scientifique de naviguer dans ce contenu, de créer une persistance pour des utilisations à venir, à travers les onglets.

Axe d’analyse sur l’écologie d’usage de Gallica destiné à rendre compte des utilisateurs sur Gallica mais aussi les conduites avec Gallica. Montrer que Gallica s’insère dans un univers numérique ouvert qui se couple avec des objets physiques ou d’autres interfaces numériques (YouTube, etc.). Un usage qui s’inscrit dans du multi-activité, ou du multi-tâche qui vont se restructurer dans une cohabitation. Dans l’expertise de l’interface numérique, compétence qui consiste à savoir comment inclure cette interface dans son propre monde : numérique, personnel, et social. Interface qui peut aussi servir de modalité de construction de relation au monde et à l’autre.

Une cyberinfrastructure numérique et humaniste. Analyser, diffuser la science

WICRI, LorExplor

WICRI réseau d’information scientifique très ancré dans la recherche. Autre source d’inspiration ISTEX 60M investissement pour offrir contenus grands éditeurs. Excellence documentaire pour tous. Récupère 500 documents, qu’en faire.

LorExplor co-construction de portail scientifique ou culture, recherches exploratoires avec contraintes de temps, biblio thèse, réponse à l’appel à projet, dans une perspective de coopération mondialisée.

Réseau de Wikis utilisant des outils à travers co-construction de portails scientifiques.

Serveur d’exploration dans lequel va travailler sur un corpus pour donner de l’information. Le plus simple, dans un corpus, extraire des caractéristiques.

Sur différents corpus interrogés, différentes étapes de curation de données et de tri des éléments.

Utilisation de MédiaWiki car fort développement.

Nécessité de la curation. En fait sur un terme comme SCRUM 90% des documents correspondant à du bruit à l’OCR (sérum > scrum). Libre accès en Belgique, beaucoup de pb.

API ISTEX et réseau de wiki sémantiques qui s’avère un outil extrêmement puissant pour structurer de l’information. Savoir s’il serait possible de produire une alternative à Wikipédia sur la base de ce modèle.

Données ouvertes

Elaine Ménard, Alexandre Fortier

Projet Dolmen

Les musées offre un accès diversité et privilégié à la culture, aux arts et aux sciences. l’accès au musée demeure toutefois limité par diverses barrières économiques, physiques, etc. La publication virtuelle pourrait lever certaines barrières. Rien n’oblige les musées à fournir un accès virtuel à leurs collections, et ces collections font souvent figure de parent pauvre, même dans les plus grandes institutions.

Aucun standard universel n’existe pour indiquer quelles informations sont essentielles à la bonne description muséale, à l’inverse du domaine biblio. Et les objets museaux varient énormément (ex. téléphone, celui hitler). Plusieurs projets intéressants existent, par exemple hispmuseos, ou American Art Collaborative, 14 institutions américaines. Toutefois les musées qui offrent un bon accès virtuel à leurs collection, une exception plutôt que la règle.

Comprendre que le traitement des collections muséales est avant tout une question d’inventaire. Une revue précise et détaillée qui décrit tous les articles présents dans la collection. A pour but d’assurer la conservation et la surveillance administrative de tous les objets qui lui sont confiées. Question de la propriété. En général complété par une description documentaire.

Les données peuvent offrir au public, via un moteur de recherche un accès aux données de recherche. Description qui initialement est liée à des fonctions documentaires et légal, pas toujours propices à la circulation. Les musées se résolvent souvent à offrir des navigations sur des champs internes au musées. Des informations qui permettent de lier les notices comme les informations sur les écoles, les entités responsables de la fabrication d’un objet, ou des renseignements d’usage sur les objets. Sans compter des informations externes complémentaires existante qui pourrait renseigner les informations utilisateurs. De plus souvent encore en présence d’information sous forme de texte et non de données structurées. En outre les musées travaillent souvent en vase clos, ce qui limite la capacité des institutions à travailler entre elles.

Le modèle conceptuel de référence CIDOC-CRM qui fournit une structure formelle pour la description des documents muséaux par l’ICOM n‘est pas souvent adopté et il effraye souvent les institutions muséales par sa complexité.

Les données liées pourraient répondre à ces difficultés. Données qui pourraient être ouvertes et liées, et grâce aux données liées, les données muséales n’auraient plus de limitation linguistique. Le projet DOLMEN Données ouvertes liées musées et environnement numérique, se propose de données moyens.

comprendre les caractéristiques nécessaires à la description d’objets muséaux de toute nature
Définir un modèle pour la description des objets museaux à l’aide de données ouvertes liées
et renforcer les réseaux et échanges de données entre diverses institutions culturelles et patrimoniale.

Communication qui répond première question.

Population 3133 musée canadiens ensemence humaines, archéologie, arts décoratifs, beaux-arts, ethnologie et histoire. Musées qui à l’automne 2016 offraient au moins au public une partie de leurs collections en ligne. Échantillon de toutes les provinces, variété sur les types d’objets muséaux. Obtenir des cas riches.

Pour chaque musée les métadonnées associées à une 10aine d’objets extraites et compilées en s’assurant que la diversité des objets de chaque collection étaient bien représentés. Métadonnées extraites et codées car souvent différente.

8,5% n=266 des musées qui présentent une partie de leur collection sur internet

5,3% métadonnées structurées n=156

Pour 2,8% n=88 pour aller au-delà description simple.

Portrait de la description des collections des musées canadiens.

Catégorie d’objet n= 61

Origine géographique n= 27

Origine culturelle n = 12

Période n = 10

Technique de fabrication n= 9

Analyse qui révèle également que quatre types d’objets présents dans les collections. Œuvre d’art, objets utilitaires artisanaux et industriels, et documents. Un même objet pouvant être associé aux différents types. Les métadonnées utilisées varient selon leur type.

66 collections HA. etc. Projets actuels principalement intéressés à la description d’œuvre d’art. Collections canadiennes qui concernent surtout des objets utilitaires qui ne peuvent pas s’approcher de la même manière.

Projet DOLMEN cherche à proposer un modèle qui simplifie la description des objets museaux. Développement d’un modèle facile à adopter pour les musées et qui répond à ses besoins en menant en parallèle une étude des besoins des utilisateurs de sites web de musées.

Cherche à rendre compte de la variété des objets museaux en tenant compte des publics.

Discussion

Comment êtes-vous aller chercher les données ? Quid RCIP ? Cherche à produire un modèle simplifié qui n’effraye pas les petites institutions.

Collections muséales au service de la science : une analyse de la collection d’instruments scientifiques de l’université Harvard

Gauvin, La Rivière, Maxime Sainte-Marie post-doc de Vincent sur le projet

Recherche télescope dans le corpus de langue anglaise de Google. Google Ngram et analyse des pics. Peut comparer avec le corpus francophone. Quelles sont les questions posées par ce corpus de données.

Collection d’instruments scientifiques, sextants, etc. astrolabes, etc. Téléscope et microscope dominent la tendance en langue anglaise alors que beaucoup moins en français.

Avec notre propre base de données, comment fait-on pour aller plus loin. Alors contacté Vincent Larivière pour conduire une analyse de cette base de données là. Michel Whitelow Generous interface pour aller au-delà de la simple boîte de recherche et pour offrir des moyens de découvertes enrichis.

Exemple arboretum de Harvard, Jeffrey Shaw, une interface qui permet de visualiser toutes ces données de manière intéressante. 22 octobre 1911, une accession que retrouve dans la base de données du corpus de l’arboretum. Partout, peut voir à quel point l’information change qui permettent d’identifier immédiatement des aspects intéressants de cette base (campagnes acquisitions), mais aussi informations complémentaires, etc.

Collection de 20 000 objets à l’Université d’Harvard, base qui contient elle même 11 000 objets documentés avec 6 000 ouvrages. 450 télescopes, etc. Une base de données classique où retrouve l’information, des notices, des images zoomables, etc. Voulait savoir comment aller plus loin. Pour cela, besoin d’une analyse préalable pour comprendre quelles types de questions peut aller chercher.

Ne serait-ce en regardant l’origine des objets, sait que industrialisation monte en flèche, en conséquence, le nombre d’objets provenant d’Europe devrait naturellement diminuer. Peut visualiser courbe, pendant l’époque coloniale, la majorité de la collection provient de GB. Fin 19e voit monté en puissante de l’Allemagne, déclin socio culturel à partir de 1950.

Provenance par année. Question d’un creux années 60-70.

RMQ Perso, dans l’analyse de provenance par année, confond date de fabrication et date d’acquisition

Perspective d’une analyse experte assistée par l’ordinateur, il s’agit de cibler un certain nombre de régions intéressantes pour analyser la réflexion. 26626 entrées, distingue secteur des objets 11 309 objets, Références 6392, Personnes 8925.

Série d’attributs pour les objets, dates, provenance, ville et pays, sujets, matériaux, description, dimension, notes historiques et curatoriales. Pour les personnes noms, date d’existence, lieu de naissance, décès et travail, objets apparentés, et notes. Enfin, ensemble de la documentation reliée à des notes bibliographiques. Trois secteurs qui peuvent être interalliés pour faire des analyses plus détaillées.

11278 objets 99,7% datés, ce qui est bon. 1400 jusqu’à 2003. Pour les fins d’analyse des tranches de 10 ans, 181.9 objets en moyenne, mais distribution varie beaucoup. Beaucoup d’objets du 20e siècle, toutefois n’empêche pas de faire des analyses intéressantes.

Peut croire que révolution scientifique soit accompagnée d’un grand nombre d’objets, pas le cas. En réalité plutôt la révolution industrielle. Plusieurs dates qui manifestement arrivent à des moments charnière : invention auto, etc.

Analyse de surface qui peut orienter l’analyse de manière intéressante. Mais plus pousse, plus peut obtenir des informations détaillées. 63,4% des objets avec information sur lieu de conception. 600 villes. Villes les plus fréquentes de provenance par année.

Autre aspect intéressant de la base, les différents sujets. 11071 objets avec des sujets 97,5. 223 sujets différents (beaucoup donc regroupement). Utilisation pour la classification des disciplines NSF. Disciplines plus fréquentes par années.

Matériaux identifiés à 99%, 522 matériaux, regroupés en 18 catégories. Étonné par la constance du bois et du papier dans les objets. Ligne mauve qui souligne l’émergence des polymères. Celle-ci va de pair avec la disparition d’autres matériaux comme le verre. Corrélation négative très forte.

Rmq perso : Production et acquisition. Politiques d’acquisitions. Histoire des collections. Pourquoi ne pas indiquer le niveau de certitude pour les matériaux anciens ? Car échantillon tout petit.

Carbone et fer.

Harvard fondé 1636, Tubes de verre vide

Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées

Projet réalisé CRSH UdeM.

Analyse d’une bibliothèque numérique particulière, étudier son contenu avec une approche sémiotique pour étudier le processus de communication à l’œuvre dans un projet de bibliothèque numérique. Cadre de la thèse de Marielle.

La bibliothèque numérique du réseau francophone donne accès à des ressources diverses qui proviennent de différentes interprétations différentes. Bib RFN, extrait XML métadonnées de la ressources.

dc:title, dc:contributeur, dc:provenance, dc:author, etc. Ensemble d’informations encodées en RDF, où chaque triplet représente une donnée en RDF. Un des aspect intéressant des données ouvertes et liées, la possibilité de naviguer dans les données.

Comprendre les choix méthodologiques manifestes dans l’encodage.
Identifier...

Réseau francophone numérique, Méthdoologie analyse sémiotique.

Réseau fondé en 2006, groupe initialement 6 pays, puis 19. Au total 26 institutions documentaires. Depuis analyse, changements de la bibliothèque en ligne (aujourd'hui basée sur Gallica). Exploitation data.rfnum-bibliotheque.org Une des premières initiatives au Québec de mise disposition de ressources au format RDF au Québec en 2010. Peu de moyens et caractère prototypal.

85556 documents, en réalité 520 ! à cause liens vers archives Express par Bib Suisse 12 journaux et 6 livres. Témoigne de difficultés dans l’encodage des données ou la transmission des normes.

Une description en Dublin Core non qualifié. Utilisation de DC forcément inégale. Subject ou description plus ou moins utilisés pour la même chose.

L’analyse mobilisée, une analyse sémiotique. La sémiotique est l‘étude des signes, des systèmes de signes et des processus de significations. Voir de Saussure ou Charles Peirce. Penser à la langue. Souvent proposée comme une interface commune aux différentes sciences humaines et sociales. Elle puise ses origines à la fois à la linguistique de Ferdinand de Saussure et à la socio

Étude de transmission, représentation des documents dont s’occupent les sciences de l’infromation, des objets hautement sémiotiques qui vé

Signe tout véhicule de sens/signification. Caractère, balises, panneau, etc.

Les signes appartiennent à des systèmes qui viennent contraindre leur signification et la manière dont ils sont agencée. Cf. le rouge et panneau. Cellule en biologie, ou en sociologie. Le signe prend sens à l’intérieur d’un système. Et les signes sont agencés en répondant à un certain nombre de règles que l’on appellera la grammaire. Grammaire de la langue française différente de celle d’un ordinateur.

Concept de base de la sémiose (Pierce) est le processus de compréhension d’un système de signe par lequel le sens est induit chez un utilisateur. Ce processus est largement influencé par différents facteurs personnels ou sociologiques. Un même signe ne veut pas dire la même chose dans différentes cultures.

Aspect formel

signes impliqués
r!gles ou des systèmes
textes agencement donné de signes
intersexualité : relations établies entre textes via références explicites qui ajoute du sens

Aspect interprétatif

contexte : processus de communication

Permet notamment d’analyser les choix derrière l’aspect formel d’un texte donné. On a donc procédé à l’analyse sémiotique des données de la bibliothèque.

Du point de vue formel identification de signes qui relève de plusieurs niveaux de signification.

éléments de description
valeurs des champs
encodage formel

Enfin encodage formel réalisé à partir d’un langage RDF qui elle-même est parfaitement inambigu et donc pour laquelle l’analyse sémiotique triviale car le sens parfaitement fixé.

Analyse sémiotique. Règle du ou des systèmes définies par les encodages : Dublin Core, utilisation de vocabulaires contrôlés, RDF.

Texte chaque fiche bibliographique ou ensemble de données

Intertextualité, visible par les hyper liens vers d’autres ressources.

Du point de vue de l’aspect interprétatif, c‘est le processus de communication qui est en jeu. Schéma classique de la communication. L’interprétation des signes n’est pas absolue ou formelle. Un émetteur communique à un destinateur sur un canal qui peut-être un code, un message, un contexte.

Si la sémiotique s’intéresse au code. Va tenir compte de l’interprétation.

Jakobson sur les Fonctions du langage, 1960. État psychologique et attitude, expressive qui influence l’émeteurs. Incitatifs qui Influence les actions destinataires. Canal référentiel, etc.

A regardé les fonctions du langage dans les bibliothèques numériques pour voir dans quels éléments pris en charge. La fonction expressive pourrait être regardé dans les expressions appréciative comme "Ceci est un magnifique dessin". En fait, les descriptions étaient très factuelles.

La fonction référentielle, celle qui transmet les informations factuelles.

Fonction conative, celle associée au destinataire d’un message pour qu’il fasse une action. Pourrait être observée si des messages indiquant de suivre ce lien pour. On ne retrouve pas cela, mais quand on connait interface hypertextuel sait que souligné un lien cliquable. Elle est sous-jascente mais peu présentes.

Quelques lacunes observées dans la BN, liées aux fonctions du langage. La fonction référentielle affectée par trois facteurs, le nombre de métadonnées associées au document. Description peu renseigné. Affecté par la non intersexualité, nombre limité de liens vers autres ressources, de même nuit à la fonction conative.

Des choix méthodologiques manifeste qui démontrent engagement des partenaires dans le RFN. Choix des documents. Contenu des champs variable selon les institutions.

Présentation sur une toute petite bibliothèque numérique. Plutôt le début d’un développement d’une méthodologie pour analyser jeux de données RDF. Comprendre les choix méthodologiques manifestes dans l’encodage. Nombre de documents et niveau de description qui traduit les choix des partenaires. Identifier des lacunes qui nuisent à la compréhension, ici des apports. Nouvelle bibliothèque numérique. Ici seulement analyse sémiotique des données, or l’interface primordiale pour les usagers. Détermine la manière dont reçoit les contenus et détermine manière dont va naviguer dans le contenu.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

crAcfas2017-05-08.md

crAcfas2017-05-08.md

Compte rendu ACFAS, Bibliothèques numériques, 8 mai 2017

Mesure du libre accès aux articles scientifiques : un exercice complexe, Eric Archambault (Science-Metrix)

NLP4NLP

BAnQ numérique

Discussion

Open science et présence numérique en sciences humaines et sociales

Discussion

Usages des bibliothèques numériques : interroger la genèse instrumentale de leur interopérabilité technocentrée

INA

Discussion

Vidéo-ethnographie des usages de Gallica : exploration au plus près de l’activité

Une cyberinfrastructure numérique et humaniste. Analyser, diffuser la science

Données ouvertes

Discussion

Collections muséales au service de la science : une analyse de la collection d’instruments scientifiques de l’université Harvard

Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées

Files

crAcfas2017-05-08.md

Latest commit

History

crAcfas2017-05-08.md

File metadata and controls

Compte rendu ACFAS, Bibliothèques numériques, 8 mai 2017

Mesure du libre accès aux articles scientifiques : un exercice complexe, Eric Archambault (Science-Metrix)

NLP4NLP

BAnQ numérique

Discussion

Open science et présence numérique en sciences humaines et sociales

Discussion

Usages des bibliothèques numériques : interroger la genèse instrumentale de leur interopérabilité technocentrée

INA

Discussion

Vidéo-ethnographie des usages de Gallica : exploration au plus près de l’activité

Une cyberinfrastructure numérique et humaniste. Analyser, diffuser la science

Données ouvertes

Discussion

Collections muséales au service de la science : une analyse de la collection d’instruments scientifiques de l’université Harvard

Bibliothèque du Réseau francophone numérique : étude sémiotique de ses données ouvertes liées