-
Notifications
You must be signed in to change notification settings - Fork 27
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Norme pour représenter une coordonnée géographique : xlong ylat ou GeoPoint ? #191
Comments
En tant que producteur de données, cette modification a un impact sur l'homogénéité du système. |
Je suis tout à fait d'accord avec toi @NicolasBerthelot, étant donné que le type Cela entrainera un changement cassant pour les schémas concernés mais si ceux-ci on respecté les conventions SemVer et notamment le fait de ne pas publier une version |
Hello! @Miryad3108 et moi (et d'autres) travaillons sur un nouveau schéma CSV (schéma de comptage des mobilités, avec 3 fichiers). @NicolasBerthelot a remonté le fait que nous avions pour l'instant opté naturellement (car c'est ce qui parlait le plus à l'audience de producteurs et de réutilisateurs qui étaient présents à nos ateliers de co-design du schéma) pour un stockage sur 2 colonnes (latitude et longitude), et nous a prévenu de la présente discussion. De notre côté, par rapport à l'audience qui est la notre sur ce schéma, nous avons opté pour une simplification, le plus possible, de la production et de la consommation des données. Dans ce contexte, 2 colonnes séparées sont bien plus simples à gérer (pas de problème d'encodage de guillemets autour, ou d'escaping de virgule ou autres sujets similaires et très courants). Pouvez-vous nous éclairer sur les avantages concrets (vous indiquez qu'il en existe de nombreux, mais on manque d'exemple ne connaissant pas bien ce point précis) en terme de capacités apportées (autre que la validation TableSchema) ? À l'inverse j'indiquerai que un format tel que Merci pour vos réponses ; avec ces éléments, nous pourrons allons sonder nos "auditeurs" et voir ce qui paraît faisable ! |
Ce format Contrairement au schéma Avantages :
Pour une saisie à la main : dans un outil tableur comme Excel, avec le format par défaut, il n'y a pas de complexité supplémentaire pour l'utilisateur entre une seule colonne ou deux colonnes (l'ajout de guillemets n'est pas nécessaire). Pour une production automatisée ou agrégée, à condition que le champ soit valide (cf. mon point ci-dessus), je ne vois pas de problème en plus ou en moins par rapport à deux colonnes distinctes. Quels seraient les inconvénients et dans quel contexte de production ou réutilisation des données se manifesteraient-ils ? |
Bonjour @johanricher , Car en fonction de ce qui va être arbitré sur {Xlon, Ylat} vs {geopoint}, il faut vraiment que cela soit homogène pour l'ensemble des schémas. Une conséquence est que les données ne soient plus consolidées pour la base nationale, car plus en adéquation avec les format. En ce qui concerne ta dernière question, sur les inconvénients de production, de ntore côté, il n'y en pas plus que cela. Je note cependant que ce format me semble "techniquement" plus pertinent, ce qui est moins évident "fonctionnellement". |
Par exemple en s'inscrivant aux notifications des releases sur le dépôt Github/Gitlab du schéma.
Par conséquent il faut considérer chaque schéma comme ayant son existence propre et ses évolutions indépendamment des autres. Et encore une fois les pratiques SemVer (laisser passer une longue période avant de publier une version 1.0 qui doit par définition être stable) apportent une partie des réponses à tes remarques. Dans ce cas de figure, avant une version 1.0, les producteurs de données peuvent et doivent s'attendre à ce que le schéma évolue et casse leurs process. Il faut considérer ces producteurs comme des "early adopters" qui vont essuyer les platres et permettre de détecter des problèmes dans le schéma et donc de l'améliorer. Une version 1.0 doit être publiée quand le schéma est considéré par ses premiers utilisateurs comme "stable". C'est un débat plus large mais pour ma part je préconiserais d'établir un critère objectivable pour déterminer quand l'adoption d'un schéma a atteint un seuil critique.
Il sera sans doute possible prochainement d'aller plus encore et de faire une recherche par schéma et obtenir les jeux de données conformes à ce schéma. Ca me paraît le meilleur critère pour déterminer l'adoption d'un schéma. |
Il me parait souhaitable que, au même titre que des schémas sont définis, proposés et validés par un certain nombre d'acteurs et qu'on demande à tendre vers ceux-ci, qu'il en soit de même pour les formats. |
Pour que je comprenne la proposition, en pratique (ou avec un exemple concret) cela se passerait comment ? |
cad ? (j'ai du mal comprendre le sens de ta question) |
D'accord pour "envisager" et pourquoi pas rédiger des bonnes pratiques mais ma question c'est : au-delà comment réaliser ce que tu proposes ? C'est à dire en pratique :
|
Ce sujet est revenu sur la table (on en a parlé pas plus tard qu'aujourd'hui avec @jmaupetit de la startup Qualicharge) et je vois que j'ai oublié de répondre à cette question:
Quand un utilisateur s'appuie sur un outil qui n'a pas une connaissance native de ce format |
Je rebondis sur d'autres points :
|
Tu parles d'un utilisateur qui produit un fichier conforme à un schéma ? quel schéma, et à l'aide de quel outil dans ce scénario ? Si on parle d'Excel ou tout autre outil de saisie "à la main"* par exemple, mon avis est toujours le même :
Donc * Ce qui encore une fois n'est pas le scénario que je privilégie, puisque publier.etalab.studio (dont est issue la grande majorité des fichiers IRVE) et d'autres UI existent et sont utilisés, ce sont autant d'arguments en faveur du En pratique, en l'état actuel des choses, pour IRVE, mettre les coordonnées géo au format |
Hello @johanricher !
Je parle d'un "ré-utilisateur" plus technique qui va vouloir ingérer la donnée, la mettre dans un outil d'analyse ou un système à lui. Dans ce cas pour en avoir parlé avec plusieurs personnes, le fait de tomber sur un CSV qui contient (je cite) une "sorte de mini-CSV mais sur une colonne à l'intérieur" est tout à fait surprenant quand on ne connaît pas ça préalablement.
Alors sur ce point je suis bien d'accord: ce choix de format est poussé car il nous (en tant que plate-forme d'état) facilite la vie pour le déploiement des outils de validation, car ils fonctionnent justement avec Frictionless, si j'ai bien compris. Ce point est bien clair, et ça apporte une plus-value à nous (en tant que fournisseurs d'outils) et donc indirectement aux utilisateurs qui s'appuient dessus. Mais si nos outils de validation savaient valider avec un X et Y en deux colonnes, ça leur irait tout aussi bien, et peut-être que Frictionless pourrait permettre d'exprimer exactement ça ? Si ce n'est pas le cas je suis bien tenté d'aller ouvrir un ticket là bas. Le souci que j'y vois au final, c'est qu'on part d'une spécification "CSV basique" et qu'au final, quelque part, le "détail d'implémentation de la validation du GeoPoint" (un gros détail certes) finit par "leaker" dans le format lui-même, et ça rend côté réutilisateur (une fois de plus, uniquement sur la base des échanges que j'ai pu avoir) l'expérience de consommation de la donnée un peu surprenante et un tout petit peu plus error-prone (il faut "re-parser" la colonne). A la réflexion (et je ne juge personne je précise 😄) il y a une balance qui a été faite là dessus entre "la fonctionnalité de validation qu'on peut apporter et l'appui sur frictionless" d'une part, et la facilité de consommation d'autre part. Je serais beaucoup plus à l'aise si on arrivait à conserver des colonnes séparées aujourd'hui (j'ai mis du temps à mûrir ma réflexion), et peut-être que je trouverais ça cool que frictionless évolue dans ce sens, pour que sémantiquement ça soit considéré comme un blob. Désolé si j'ai pu faire quelques "raccourcis" (je ne suis pas un énorme connaisseur de frictionless, validata ou "publier"), et ça fait un peu pavé, mes excuses pour ça !!! (plutôt fan pour en reparler de vive voix à un moment avec ceux que ça tente) |
Dans les schémas récents (https://github.com/etalab/schema-irve ou https://github.com/openmaraude/schema-stationstaxi) les coordonnées géographique d'un point sont exprimés dans un seul champ appelé geopoint ou coordonneesxy. Cela a pour avantage d'être associé à un type standardisé par le format TableSchema. Tout un panel d'outils et de validateurs sont permis par ce modèle. L'ancien système en deux champs xlong ylat semble donc caduque.
Or, plusieurs schémas de données utilisent encore ce format (https://github.com/etalab/schema-stationnement-cyclable ou https://github.com/etalab/schema-stationnement). Est-ce qu'il est temps de lancer une vague d'homogénéisation des schémas de données pour converger vers la solution GeoPoint ?
Il semble important que nous ayons une stratégie claire sur ce sujet pour homogénéiser nos pratiques.
The text was updated successfully, but these errors were encountered: