-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Fehlende Haltestellen in zHV #12
Comments
Wir wissen dass z.B. Sachsen-Anhalt (de:15) noch nicht regelmäßig an das zHv meldet. Das sollte sich aber im zweiten Halbjahr 2021 ändern. |
@delfi-fahrplandaten Danke für die Rückmeldung! Sachsen-Anhalt betrifft 780 von über 100.000, d.h. 1%. Gilt dies analog für alle anderen auch? @NVBWSeifert, werden die Halte Baden-Württembergs regelmäßig an das zHV abgegeben? Es fehlen ca. 14.500 de:08 Halte. |
Nein. Bis auf Sachsen-Anhalt und das Saarland liefern alle anderen Bundesländer regelmäßig Daten an das zHv. |
Hi @hbruch , Allerdings bin ich mit dem aktuellen Zustand unzufrieden, weil das GTFS-Schema nicht aktuell ist. Jetzt ueberlege ich Zeit in die Aktualisierung zu stecken oder andere Wege zu gehen. Ich bin auch schon die ersten Schritte gegangen, um das Projekt gtfs-via-postgres von @derhuerst zu verwenden. Allerdings ist es inkompatibel zu meiner PostgreSQL Version 11.xy. @hbruch , Hi @derhuerst , Cheers! |
Aktuell (Datenstand 17.04.2023) sind 107242 im DELFI-GTFS-Feed enthaltene stops nicht im zHV geführt oder verwenden nicht die im zHV geführte DHID. Bei der weitaus geringsten Anzahl an Haltestellen handelt es sich um Haltestellen im Ausland. Für in Deutschland liegende stops des DELFI-Feed haben deren stop_id
Ich halte die folgenden Maßnahmen für sinnvoll: |
Wenn du einen akzeptablen Workaround für |
Debian Bookworm koennte dieses Jahr veroeffentlicht werden. Damit waere PostgreSQL Version 15 per offiziellem Repository verfuegbar. ;-) So lange wird meine Aktivitaet ruhen, wenn es keine Alternative als gtfs-schema oder gtfs-via-psql fuer den periodischen Import von Delfi- und zHV-Daten in eine SQL-Datenbank gibt. :-( Cheers! |
@dancesWithCycles ich verwende https://github.com/mfdz/gtfs-sql-importer bzw. importiere direkt. Lass uns aber den Austausch zu GTFS-Import außerhalb dieses Issues vertiefen. |
Hat jemand diesen Validator bereits auf den Delfi-Datensatz angewandt? Das Ergebnis fuer die aktuelle Woche (KW17 2023) sieht wie folgt aus. https://nc.swingbe.de/index.php/s/7pdbpyaqtSd4p94 Versteht jemand diese Fehlerart?
Ich vermute, dass diese Fehlerarten auch interessant ist.
Cheers! |
Diese Validator-Meldungen haben nichts mit diesem Issue zu tun. Bitte kommentiere neue Fehler des GTFS-Feeds im Repo https://github.com/mfdz/GTFS-Issues. Für die ersten beiden von Dir genannten Fehlertypen gibt es dort bereits Meldungen, z.B. mfdz/GTFS-Issues#72 mfdz/GTFS-Issues#126. Für die Transfer-Meldung macht vermutlich ein neuer Eintrag Sinn. |
Aktuell (Datenstand Mai 2023) koennen Die Richtung stimmt! Wer moechte mit mir ueber die Geschwindigkeit reden? Angenommen ich habe mich nicht verrechnet, brauchen wir etwa 22 Jahr, um diese beiden Datensaetze in der aktuellen Geschwindigkeit abzugleichen. Das koennte ich noch erleben. ;-) |
Ich habe angefangen, eine API zu betreiben, damit wir die Daten mit mehr Komfort analysieren koennen. Die bisher einzige verfuegbare Route ist die folgende.
Als Antwort erhalten wir Haltestellen aus dem DELFI-GTFS-Datensatz (entsprechend Offset Die aktuelle Anzahl von Haltestellen-Bezeichnern aus dem DELFI-GTFS-Datensatz, welche nicht kompatibel mit der DHID sind, koennen ueber diese Route abgefragt werden. |
|
Das Dokument
Der Code zum Tool ist public und free as in freedom. Das Repository ist aktuell noch nicht komplett, weil ich noch keine Gelegenheit hatte das gesamte Tool dorthin zu kopieren. Diese Arbeit ist hoffentlich nur eine Frage der Zeit ;-) |
Ich habe angefangen diese API mit einem Web-Dienst fuer Datenanalysen zu nutzen. |
Update: In der Zwischenzeit habe ich mein Delfi/NAP-Display erweitert. Etwa 10 Prozent der Haltestellen im Delfi-Datensatz liegen ausserhalb von Deutschland. Diese habe ich jetzt gefiltert. Resultat Stand Juni 2023:
Es bleiben jetzt nur noch etwa 46000 Stops innerhalb DE uebrig, welche nicht kompatible mit der Global ID sind. Ein Workaround, welcher die Halt-Id aus dem ZHV in Stops vom Delfi-Datensatz eintraegt, welche keine Global ID auf Bereichts- oder Mast-Ebene haben, habe ich auch schon ausprobiert. Bei Interesse ergaenze ich dieses Tuning online zu dem aktuellen Stand. Es ist nur die Frage, wann ich Luft holen kann, um mich damit zu beschaeftigen. ;-) |
Die Aanalyse auf der Seite zeigt den folgenden Stand fuer Ende Juni 2023 wie folgt:
Es koennte sein, dass die Daher habe ich hier eine Analyse ergaenzt, welche Ausserdem ist ein Vergleich von Koordinaten der Halte zwischen |
Hallo @dancesWithCycles. Danke für Deine Fortschritt-Reports zu deinem Abgleich. Ich würde dieses Ticket jedoch gerne etwas fokussierter halten. Insbesondere hoffe ich auf eine Rückmeldung des DELFI e.V. zu den verschiedenen in #12 (comment) genannten mutmaßlichen Problemursachen und wie eine Behebung dieser Abweichungen geplant ist. |
@hbruch Sind in den |
Um das zu recherchieren bitte 2-3 Beispiele angeben. |
@CM-RMS Wenn sie bitte meine Kontakt-Seite nutzen um mir eine Email zu schreiben, sende ich Ihnen gerne als Antwort alle 26526 (6.476 %) Stops nicht konform zur DHID aus "DELFI-Datensatz GTFS" per CSV-Datei. Alternativ koennen sie hier live die Stops seitenweise durchblaettern, welche nicht konform zur DHID sind. Zusaetzlich koennen sie hier live die Stops seitenweise durchblaetter, welche die angestrebte DHID als |
Nach meiner Auswertung sind allein > 54.000 GTFS-Stop-IDs mit SELECT stop_id_first_two_letters, count(*)
FROM (
SELECT substr(stop_id,1,2) stop_id_first_two_letters
FROM gtfs_stops
WHERE location_type='0'
AND NOT stop_id IN (SELECT dhid FROM zhv))
GROUP BY stop_id_first_two_letters;
00|28232
...
de|54781
... Zufällig ausgewählte Beispiele zum Nachvollziehen: SELECT *
FROM gtfs_stops
WHERE location_type='0'
AND NOT stop_id IN (SELECT dhid FROM zhv)
AND (stop_id LIKE '00%' or stop_id like 'de%')
LIMIT 10;
000320439797|Bad Homburg v. d. H.-Gonzenheim (U)|50.219050000000|8.640304000000|0|000320439797|
de:06412:1370_G|Frankfurt (Main) Eschersheim Bahnhof|50.160146000000|8.655020000000|0|de:06412:1370|
de:06412:923:6:6|Frankfurt (Main) Stresemannallee/Gartenstraße|50.098119000000|8.669706000000|0|de:06412:923|
000320092041|Frankfurt (Main) Stresemannallee/Mörfelder Landstr|50.089440000000|8.671498000000|0|000320092041|
000320231291|Bad Homburg v. d. H.-Ober-Eschbach (U)|50.215208000000|8.651107000000|0|000320231291|
000320134904|Frankfurt (Main) Riedwiese/Mertonviertel|50.171374000000|8.642985000000|0|000320134904|
000320144509|Frankfurt (Main) Sigmund-Freud-Straße|50.154921000000|8.686205000000|0|000320144509|
000320150799|Frankfurt (Main) Bornheim Mitte|50.126344000000|8.708012000000|0|000320150799|
de:12054:900230004::3|S Babelsberg/Wattstr.|52.391578000000|13.094243000000|0|de:12054:900230004|
de:12054:900230028::1|S Babelsberg/Schulstr.|52.390628000000|13.090521000000|0|de:12054:900230028| |
Confirm! Wenn du nur die Halte innerhalb Deutschland betrachtest, dann sind es aktuell etwa rund 49000
Ich habe die Halte, welche nicht konform mit der DHID (aktuell rund 27000 |
Sechs Monate später ergeben sich immer noch: SELECT stop_id_first_two_letters, count(*)
FROM (
SELECT substr(stop_id,1,2) stop_id_first_two_letters
FROM gtfs_stops
WHERE location_type='0'
AND NOT stop_id IN (SELECT dhid FROM zhv))
GROUP BY stop_id_first_two_letters;
00|25348
...
DE|2
..
de|50422 Ausgewählte Beispiele: SELECT *
FROM gtfs_stops
WHERE location_type='0'
AND NOT stop_id IN (SELECT dhid FROM zhv)
AND (stop_id LIKE '00%' or stop_id like 'de%')
LIMIT 10;
de:06434:559_G|Oberursel (Taunus)-Hohemark|50.215332000000|8.537144000000|0|de:06434:559|
de:06434:1513_G|Oberursel (Taunus) Altstadt|50.206033000000|8.578823000000|0|de:06434:1513|
...
de:12054:900230004::3|S Babelsberg/Wattstr.|52.391578000000|13.094243000000|0|de:12054:900230004|
de:12054:900230028::1|S Babelsberg/Schulstr.|52.390628000000|13.090521000000|0|de:12054:900230028|
de:11000:900074702::6|S Lichtenrade (Berlin)|52.386872000000|13.395325000000|0|de:11000:900074702|
de:12051:900275330::1|Brandenburg Görden Bhf Einkaufszentrum|52.426730000000|12.503137000000|0|de:12051:900275330|
...
000320231291|Bad Homburg v. d. H.-Ober-Eschbach (U)|50.215208000000|8.651107000000|0|000320231291|
000320134904|Frankfurt (Main) Riedwiese/Mertonviertel|50.171374000000|8.642985000000|0|000320134904|
000320144509|Frankfurt (Main) Sigmund-Freud-Straße|50.154921000000|8.686205000000|0|000320144509|
000320150799|Frankfurt (Main) Bornheim Mitte|50.126344000000|8.708012000000|0|000320150799| @CM-RMS Gibt es neue Erkenntnisse bzgl. der Ursachen oder Aktivitäten, diese anzugehen? |
Der aktuelle Deutschland GTFS-Gesamtfahrplan beinhaltet 101614 Stops, welche nicht im zHV geführt sind. Dies, obwohl im gtfs-germany Feed derzeit noch die Fahrplandaten einiger Bundesländer fehlen.
Insbesondere scheint es sich (neben Halten außerhalb Deutschlands) um solche Halte zu handeln, deren stop_id nicht dem Aufbau der DHID entspricht. Beispiele:
Für manche dieser Stops scheint ein Duplikat mit offizieller DHID in den zHV-Daten enthalten zu sein, der Fehler also eher in einer fehlerhaften stop_id im GTFS-Feed zu liegen. Andere stops fehlen jedoch vollständig im zHV.
Stand der Daten
zHV: 09.07.2021
GTFS: 16.07.2021
The text was updated successfully, but these errors were encountered: