-
Notifications
You must be signed in to change notification settings - Fork 0
/
data_notes.txt
113 lines (88 loc) · 4.63 KB
/
data_notes.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
X_Issue 1: Artists Table has 10 incomplete or malformed names:
7,Anhalzer
92,Cohn
212,Gunzinger = http://www.artprice.com/artist/141366/eduard-gunzinger?
332,Köster = Otto Coester?
345,Kunowski = http://cs.wikipedia.org/wiki/Wanda_von_Debschitz-Kunowski?
416,Monticelli = http://en.wikipedia.org/wiki/Adolphe_Joseph_Thomas_Monticelli?
42,Olms
458,Pfeifer-Calwey
548,Schule Bertold Löffler = http://en.wikipedia.org/wiki/Bertold_L%C3%B6ffler?
648,Weichmüller
X_Issue 2: Artists Table has character encoding problem:
starts to choke on `14,"Auberjonois, René"`
`UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 17: ordinal not in range(128)`
X_Issue 3: Three name names (and René Auberjonois is actually René Victor Auberjonois).
Issue 4: How to get from graph to data in a csv file.
0) I don't quite get RDF, it's very messy and cluttered, hard to tell how many discrete artists made it in. Maybe check if each URI has the proper result or not, flag that in the flat file.
1) save the URI used to access the resource in the flat file
2) match additional data on that URI
Solution 1: Simple RDF Query
import rdflib
g = rdflib.Graph()
g.parse('./data/artists-2014-04-29_mini.rdf')
qry = g.query(
"""PREFIX dbo: <http://dbpedia.org/ontology/>
SELECT ?m
WHERE {
?person dbo:movement ?m .
}""")
for row in qry:
print row
Solution 2: RDF Query for specific property of a specific artist
qry_specfic = g.query(
"""SELECT DISTINCT ?o
WHERE {
<http://dbpedia.org/resource/Josef_Albers> <http://dbpedia.org/property/placeOfDeath> ?o .
}""")
Data Comparisons (Feb-Apr) - Result: Same data.
//FEB//
work_status
unbekannt :5859
zerstört :1723
Rostock, Kulturhistorisches Museum: 572
Berlin, Kupferstichkabinett : 335
Privatbesitz : 251
(Other) :1599
NA's : 2
loss_thru
Beschlagnahme :10145
Tausch : 46
Verkauf : 31
Beschlagnahme aus dem Magazin : 14
Beschlagnahme, aber von Halle nicht ausgeliefert am 21.08.1937: 14
(Other) : 27
NA's : 64
location
unbekannt :5939
Rostock, Kulturhistorisches Museum : 603
Berlin, Kupferstichkabinett : 344
Privatbesitz : 252
München, Bayerische Staatsgemäldesammlungen – Pinakothek der Moderne: 148
(Other) :1306
NA's :1749
//APR//
work_status
unbekannt :5859
zerstört :1723
Rostock, Kulturhistorisches Museum: 572
Berlin, Kupferstichkabinett : 335
Privatbesitz : 251
(Other) :1599
NA's : 2
loss_thru
Beschlagnahme :10145
Tausch : 46
Verkauf : 31
Beschlagnahme aus dem Magazin : 14
Beschlagnahme, aber von Halle nicht ausgeliefert am 21.08.1937: 14
(Other) : 27
NA's : 64
location
unbekannt :5939
Rostock, Kulturhistorisches Museum : 603
Berlin, Kupferstichkabinett : 344
Privatbesitz : 252
München, Bayerische Staatsgemäldesammlungen – Pinakothek der Moderne: 148
(Other) :1306
NA's :1749