Skip to content

Latest commit

 

History

History
186 lines (138 loc) · 9.24 KB

crDH2014S3-414.md

File metadata and controls

186 lines (138 loc) · 9.24 KB

crDH2014S3-414.md

Encyclopédie

Topic mac sur Encyclopédie Représentation de l'ensemble des connaissances Graphs, maps, trees déplacement du général au particulier Beau une feuille de la métaphysique sur l'arbre de la connaissance. 74131 articles dans le système 13000 qui ne le sont pas.

Regardé ce qu'il en est 2899 classes distinctes 600 utilisées une fois, 2250 moins de 5 fois, 2500 10 fois.

Utilisation d'algorithme pour classification automatique. Naive Bayes et k-Nearest Neighbors (k-NN) Decision tree utilisé pour tranger.

78,3% articles assignés. Certains réassignés. Jurisprudence la classe la plus importante. Histoire naturelle de même.

Volonté de cartographier le savoir cohérent avec le désir des éditeurs. Rapport entre close reading et distant reading. Peut organiser les classes de manière différente. Par poids, etc. Le système de connaissance hiérarchique présenté dans la planche de l'époque se trouve profondément remanié (reshufelling) Si lien sémantiquement significatif entre article et système connaissance.

Notion d'analyse du discours une histoire longue qui dépasse celle de l'analyse automatique Tournant linguistiques sc sociales Langages, mArs 1969 Michel Pêcheux, Analyse automatique du discours 1969 Archéologie du savoir de Foucault la même année.

pratique qui systématiquement forment les objets dont parlent d'après Foucault 1989. Penser la Révolution française, François Furet Lynn Hunt, et ?? Inventing the French Revolution qui ont renouvelé l'approche culturelle de la période.

Automatic Discourse Analysis ? Peut-on l'aborder autrement aujourd'hui.

Topic Modeling et l'ana du discours Algorithmes probabilistes pour analyser les textes. Introduite par David Blei en 2002.

Supervisation de cluster de mots. Construire grande liste de matières distribuées dans la base de données. LDA est un unsupervised world cluster and classifier Supose en premier lieu que chaque txt est une composition de plusieurs topics. Quantifie topics dnas un txt.

Chaque document se voit donné un rang dans la classification d'après le sujet le plus important. Manière de se départir du biais humain : faire face à la masse de données (big data). Une manière de classifier les données avec un minimum d'interférence. David Newman et Sharon Block utilisation probabilistic latent semantic analysis sur journaux 18e. ics.uci.edu/ñewman/pubs... Unsupervised learners, avantage d'être potentiellement objectif, et d'offrir vue potentiellement originale sur une grande masse de données. Le cas de l'Encyclopédie.

Aller au-delà de la classification traditionnelle de l'Encyclopédie. Donner une vue transversale nouvelle. Utilisation de MALLET http://mallet.cs.unmass.edu Deux étapes préliminaires :

  • retirer tous les mots vides
  • fournir à l'algorithme nombre de topic qui correspondent le mieux à l'ensemble de données (essayé avec plusieurs nb) Résultats du topic model stuqués dans une base de données relationnelle, avec les métadonnées relatives. Trois topic modèles réalisés, une manière de pouvoir envisager différents niveaux de focalisation sur le discours. (280 topics, 320 topics, 360 topics)

= identification d'une grande quantité de discours disciplinaires de l'Encyclopédie. De ce point de vue rien de très étonnant. En revanche, parfois articles qui concernent plusieurs domaines. Meilleure compréhension aspects dialogique de la classification.

Ex: Droit naturel Prévalence dans la classe grammaire ! jurisprudence, peu étonnant, morale, mais pourquoi la grammaire. En fait, sait que pour Diderot classe de Grammaire une clearinghouse pour placer ses articles controversés sous une catégorie du savoir en apparence innocente ! Liberté de conscience considérée sur le même plan que d'autres droits inaliénables.

Règle, Règlement par Jaucourt supériorité de la loi naturelle sur la loi positive. Morale et moralité. Encore la grammaire par dessus la morale. mais aussi géographie ancienne. cf. Dranses, Diderot qui décrit secte qui pratique religion étonnamment tolérante !

S'est ensuite intéressé à l'évolution des discours. De 1751 à 1765 (moment où levée de la censure et publication d'un coup de tous les volumes), topic Gloire qui prend de plus en plus de place. Le cas pour Grands hommes.

De même commerce décroit lorsque la notion d'économie politique émerge autour de 53 Ici donne idée, mais bien entendu, il reste nécessaire de retourner au texte pour comprendre ce qui se passe.

Peut encore utiliser ces approches dans une analyse diachronique. Planifient intégration d'un full topic model et outils analytic dans l'interface de l'Encyclopédie. Pas possible de vraiment suivre les renvois car pas toujours remplis.

Discussion

Pas d'évaluation des Topic model. Pas vraiment le centre de leur intérêt. Dynamic topic modelling qui permet de suivre les topic en cours de travail et de reclasser en live. Pas vraiment d'opposition entre distant reading et close reading ici, car pénètre directement le texte.

Seeing the Trees & Understanding the Forest, John Montague

10^7^ data google Opportunité unique et nouvelle de faire quelque chose avec ces données. Cukier et Mayer Schoenberger, 2013 sur ce que les big data peuvent nous permettre de comprendre. Stephen Marche 2012, Literature is the opposite of data

inke, travail outil de visualisation http://inke.ca/2013/07/08/id-team-presents-at-dh-2013/

Comment fouiller les textes pour trouver des choses que ne s'attend pas à trouver. Dendogram, sur les articles. Concept de dendogram modifié.

Plus encodage les gens à interagir avec les données, plus découverte. état de l'art, considérer ...

Mallet, Tapor, Dynamic table content. étude sur flickr

prototype fonctionnel de l'outil de dendrogram. Algo de proximité, échelle de couleurs. Possibilité de filtrer et zoomer dans les données des clusters, panneau dans le bas de l'écran qui fournit des détails sur les individus.

Trading Consequences

Visualisation pour faciliter l'exploration de documents. Projet de public history.

2e round of Digging into Data. Grande collection de documents. Usage d'outils de text mining de sources historiques et stockage dans vdd

Identification de termes commodes car peu de lexiques spécifiques pour le 19e siècle. Seed set collected by historians : CUST 5 Ledgers of Imports Under Articles Collection 25000 entrées, cf. Klein et al. 2014. Noisy data : challenges of processing OCRed Text Transparent output performance (demande des historiens)

Extraction d'entité de bases Termes communs, dbpedia, dates. Géoréférencement des mentions dans le texte avec Geonames.

Une fois qu'avait identifié les entités, recherché les liens entre ces entités.

Plus de 200 000 documents individuels. 595 121 unique commodity terms, 28 595 550 commodity mentions.

Geo-referenced location 2.275.186 unique location., 74 M de localisation

Fruit : commodity – location relatin Graph qu'il faut ensuite rendre explorable par les historiens. Rompre paradigme du formulaire et exploration des données. Voulait rendre compte des facettes des données - commodité vraiety, geographi locations Recherche ciblées, et visualisation (interlinking visualisation) cf. sur le web Clusterisation des mentions de lieux, possibilités de boomer, timeline de la distribution des documents par périodes. Et tagcloud de fréquences des termes. Liste de document. Une vue intéressante de la collection mais pas très utile car rassemble trop de données. Alors possible de Sélectionner une sous partie et explorer les exposés mis à jour sur la même page (concepts qui peuvent alors être considérés comme relatifs.) De même, il est possible de boomer dans la carte, ou filtrer par temps en réduisant la fenêtre d'analyse. Lorsque trouve un document dans la liste, alors possible de le sélectionner. Parfois derrière un paywall.

Question de savoir quelle utilisation de ce prototype CHESS13 workshop (Canadian History and Environment Summer School) Présentation de l'interface et des fonctionnalités générales. Et demandé aux participants d'explorer la visualisation. La plupart des participants d'abord cherché des commodités ou lieux familiers pour explorer faits représentés et leur visualisation. --> Unexpected discoveries spark interest for further research. Visible noise in the data qui devenait très visible et pb pour les chercheurs.

Expérience des visualisation Relativement intuitive à l'usage Points d'entrée dans les données, perspective de valeurs agrégées, mécanismes de filtres valides. Pour améliorer le dispositif, donne extrait du texte dans la liste pour faciliter le repérage. Problème de performances constaté. Bien sûr ennuyeux d'avoir du bruit, mais en un sens, les données sont honnêtes. Des techniques de crowdsourcing peuvent améliorer le dispositif. Aspect rhétorique des données donne l'impression d'une vraie représentation, document exploration vs. in-depth analysis. Explorer la manière dont rendre compte de ce qui n'est pas connu.

Une visualisation des lieux mentionnés sur une timeline

Limitation et questions ouvertes Peut être limité pour faciliter le dialogue avec les données. Ambiguité du bruit Fonctionnalités limités des outils de visualisation actuel. comment quantifier l'ambiguité.

Un blog sur SUGAR

Voir ARTFL