Die Deutsche Bahn hat vor einigen Tagen ihr Open-Data-Portal eröffnet und ein paar erste Datensätze eingestellt. Ich mir diese Datensätze jetzt mal angesehen und mit eigenem Wissen und OSM-Daten verglichen.
Die meisten Datensätze stehen unter der CC-BY 4.0. Da die CC-BY eine Namensnennung verlangt, dürfen diese Daten derzeit noch nicht für OSM genutzt werden. Die DB ist gewillt, uns eine Ausnahmegenehmigung zu erteilen. Ich rechne damit, dass wir diese im Laufe der kommenden Woche erhalten.
Stuttgart 21
Die Datensätze von DB Projekt Stuttgart–Ulm GmbH sind die einzigen Datensätze, die derzeit unter der CC-0 verfügbar sind (und deshalb rechtlich keinerlei Beschränkungen unterliegen). Es stehen drei Datensätze zur Verfügung. Sie sind derzeit die einzigen echten Geodaten, alle anderen Datensätze im Portal sind reine Sachdaten.
"Geodaten der Tunnelachsen"
"Geodaten der Gleisanlagen"
"Geodaten der Webcam-Standorte"
Alle drei Datensätze werden als Shapefiles mit EPSG:3857 (Web Mercator) bereitgestellt. Es ist davon auszugehen, dass bei der DB selbst ein andere Bezugssystem zur Planung verwendet wird – höchstwahrscheinlich das DB-Ref, eine Gauß-Krüger-Abbildung, die jedoch von den Gauß-Krüger-Systemen der Vermessungsverwaltungen abweicht [1]. Wie die Daten in Web Mercator transformiert wurden (das ist keine einfache Umrechnung, sondern ein Datumsübergang) wird nicht offengelegt. Diese Frage muss geklärt sein, bevor die Daten in OSM übernommen werden.
In den Datensätzen sind nur die Planfeststellungsabschnitte enthalten, die auch schon planfestgestellt sind. Der Abschnitt um den Flughafen herum fehlt. Hier läuft noch immer das Planfeststellungsverfahren.
Der Datensatz "Geodaten der Gleisanlagen" enthält bei den Tunnel die Flächen der Tunnel, der Querschläge, der Rettungszufahrten, die Rettungsplätze an den Portalen, die Stollen der Zwischenangriffe sowie einige oberirdische Streckenabschnitte (viele sind es ja nicht). Auch die neuen Tunnel der Stadtbahnstrecken um den Hauptbahnhof, die verlegt werden, sind enthalten.
Der Datensatz "Geodaten der Tunnelachsen" enthält die Achsen der Tunnel. Hier sind nur die Tunnel mit Gleisen enthalten (also keine Querschläge und Zwischenangriffsstollen). Beim Fildertunnel fehlt die Oströhre, welche im Datensatz "Geodaten der Gleisanlagen" enthalten ist. Bei der Stadtbahntrasse unter der Heilbronner Straße fehlt auch ein Teil einer Röhre, der im anderen Datensatz als Fläche enthalten ist. Zwischen Bad Canstatt und Untertürkheim sind auch oberirdische Abschnitte enthalten, die im anderen Datensatz fehlen.
"Geodaten der Webcam-Standorte" enthält die Webcam-Standorte als Punkte. Dieser Datensatz ist nur bedingt brauchbar. Er enthält Links auf die Bilder der Kameras. Die Punkte befinden sich nicht am Standort der Kamera, sondern mitten im Blickfeld der Kamera. Dieser Datensatz ist ungeeignet.
Aufgrund der fehlenden Informationen zum Datumsübergang treffe ich hier keine Aussagen über die Lageunterschiede zwischen den bestehenden OSM-Daten und den Daten der DB.
Stationsdaten
Die Datensätze "Stationsdaten" und "Bahnsteigdaten" sind nach DB Station & Service AG und DB Regionetz Infrastruktur (RNI) getrennt. RNI ist eine Tochter der DB, die in einigen Netzen regionaler Bedeutung die Gleise und Bahnhöfe betreibt. Der Rest (der Großteil aller DB-Stationen) wird von DB Station & Service AG betrieben.
Diese Datensätze stehen als CSV und XSLX zur Verfügung. Die Tabelle Stationsdaten enthält folgende Spalten:
Bundesland
BM (Bahnhofsmanagement) – enthält einen der folgenden Werte: Aachen, Augsburg, Bamberg, Berlin, Berlin Hauptbahnhof, Bielefeld, Bonn, Braunschweig, Bremen Hbf, Chemnitz, Cottbus, Darmstadt, Dortmund, Dresden, Duisburg, Düsseldorf, Erfurt, Essen, Frankfurt (Oder), Frankfurt a.M., Freiburg, Friedrichshafen, Gera, Gießen, Göttingen, Hagen, Halle (Saale), Hamburg, Hannover, Kaiserslautern, Karlsruhe, Kassel, Koblenz, Köln, Leipzig, Magdeburg, Mainz, Mannheim, München, Münster (Westf), Nürnberg, Osnabrück, Potsdam, Regensburg, Rosenheim, Rostock, Saarbrücken, Schleswig-Holstein, Schwerin, Stralsund, Stuttgart, Ulm, Würzburg
Bf. Nr. (Bahnhofsnummer) – eine ein- bis vierstellige Nummer für jeden Bahnhof, Nr. 1 bis 7079 sind anscheinend alphabetisch vergeben, neuere Stationen haben Nummern ab 7081 erhalten. Die Nummer wird im Datensatz Bahnsteigdaten verwendet, in der Reiseauskunft kann man sie nicht verwenden.
Station – der Name der Station (Kommentar siehe unten)
"Bf DS100 Abk." – Betriebsstellenkürzel nach DS100, ein alphabetischer Code (gelegentlich mit Leerzeichen), bei Stationen, die aus mehreren Betriebsstellen bestehen (z.B. Berlin Hbf) ist nur ein Kürzel angegeben
Kat. Vst – Kategorie der Verkehrsstation. Die DB hat für jede Station eine Bahnhofskategorie festgelegt (siebenteilige Skala). Danach werden die Stationsgebühren berechnet, die ein Eisenbahnverkehrsunternehmen bei einem Halt dort zu entrichten hat. Eine Liste in PDF-Form dürfen wir schon seit 2008 nutzen, getaggt wird das mit railway:station_category. Derzeit besteht jedoch der Trend bei den Bahnmappern, diese Daten durch ein selbstkreiertes internationaleres Schema zu ersetzen, welches näher an der Fahrplanrealität ist und von kaufmännischen Interessen befreit ist.
Straße
PLZ
Ort
Aufgabenträger – die Gesellschaft, die dort den Schienenpersonennahverkehr bestellt
Verkehrsverbund – "0", falls keiner existent
Fernverkehr – "ja" oder "nein" (siehe unten)
Nahverkehr – dto.
In der Spalte "Station" kommen Abkürzungen vor. Regionen, die als Namenszusatz verwendet werden (z.B. "Württ") sind abgekürzt. Ortsnamen sind ausgeschrieben. In Berlin scheint sich die Schreibweise des Stationsnamens meist an die Beschilderung vor Ort zu halten. Außerhalb Berlins stimmt das nicht. In den Daten steht "Wolfgang (Kr. Hanau)", vor Ort steht aber nur "Wolfgang". Selbiges gilt für "Forchheim (b Kalrsruhe)", welche auf den Schildern auf dem Bahnsteig "Forchheim", auf dem gelben Aushangfahrplan vor Ort "Forchheim (b Karlsruhe)" heißt. Die zum Fahrplanwechsel im Dezember 2014 erfolgte Umbenennung von "Bad Friedrichshall-Jagstfeld" in "Bad Friedrichshall Hbf" ist enthalten.
Die Daten in den Spalten Straße, PLZ und Ort sind mit denen auf bahnhof.de identisch. Diese stammen aus Geocoding. Man sieht das ganz schön an Haltepunkten, in deren Umgebung keine Gebäude (also Objekte mit Hausnummer) stehen. Für Seddin wird als Adresse "Kunersdorfer Str. 1, 14554 Seddin" geführt. Dieses Gebäude steht aber auf der anderen Seite des Güterbahnhofs und ist 380 bis 390 Meter vom Haltepunkt entfernt! Desweiteren sind diese Daten veraltet. Aufgrund einer Kommunalreform heißt die Gemeined mittlerweile "Seddiner See", Ortsteil Neuseddin. Mit dem Haltepunkt Baitz ist es sogar noch schlimmer. Hier wird als Adresse "Bahnhofstr. 1, 14822 Brück" genannt. Das ist 5,2 km Luftlinie entfernt! Ok, wer dort landet ist nur noch 760 m Luftlinie vom Bahnhof "Brück (Mark)" entfernt, der an derselben Strecke eine Station weiter Richtung Berlin liegt. ;-)
Interessant ist, dass bei den neuen Stationen entlang der Strecke Bad Friedrichshall Hbf–Sinsheim-Steinsfurt, die erst seit Anfang Mai bedient werden, die Adresse fehlt. Auf bahnhof.de steht hingegen eine.
Ich frage mich, weshalb DB Station & Service AG die Adressdaten überhaupt unter der CC-BY 4.0 veröffentlicht hat. Hat man dort keine Kenntnis vom Datenbankschutzrecht?
Fazit: Wer sich auf die Adressen in diesen Daten und auf bahnhof.de verlässt, ist verlassen. In OSM gehören die Daten auch nicht. Sie sind erstens urheberrechtlich unsauber und zweitens verschlechtern sie die Datenqualität von OSM.
Die Spalten Aufgabenträger und Verkehrsverbund habe ich nicht geprüft. Bei der Spalte "Fernverkehr" gab es wieder Anlass zum Lachen. In weiten Teilen ist die Spalte "Fernverkehr" zwei Jahre alt, stellenweise fünfzehn.
Dillenburg, Haiger, Herborn (Dillkreis) (vor zwei Jahren ein EC-Zugpaar)
Bad Nauheim (letztes Jahr einzelne Züge in der Tagesrandlage),
Bullay DB, Cochem, Wittlich Hbf, Trier Hbf (seit einem Jahr fahren keine Fernzüge mehr nach Trier)
Bremerhaven Hbf, Bremerhaven-Lehe Pbf
Lehrte
Tarp
Munster (Örtze)
Klinge, Forst (Lausitz)
Kronach
Pegnitz
Schweinfurt Hbf
Lutherstadt Eisleben, Sangerhausen, Nordhausen, Leinefelde, Heilbad Heiligenstadt
Magdeburg-Buckau
Kehl
Eberbach (da ist bestimmt niemand in der Zeile verrutscht, weder Dallau noch Eicholzheim haben/hatten Fernverkehr)
Heilbronn Hbf (schön wär's, den IR Rennsteig hat man uns 2001 genommen. Oder glaubt DB Station & Service AG an den Erfolg von Der Schnellzug?)
Dessau Hbf hat der Tabelle zufolge keinen Fernverkehr. Das stimmt leider nicht. Freitags hält gegen halb fünf nachmittags der IC 1933 (hat keinen Gegenzug). Er tat das auch schon zeitweise im Fahrplanjahr 2014. Auch Hünfeld fehlt. Dort hält der Mo-Fr IC 1950 Berlin–Leipzig–Bebra–Frankfurt (Di-Fr nur ab Bebra). Der Gegenzug dazu, der IC 2398 hält nicht in Schlüchtern.
Bahnsteigdaten
Auch dieser Datensatz ist nach DB Station & Service AG und RNI getrennt. Wie schon in den Kommentaren im Open-Data-Portal von anderen Usern kritisiert, werden Kommata als Dezimaltrenner verwendet. Folgende Spalten sind vorhanden:
bf_nr (Bahnhofsnummer, siehe dazu das Stationsverzeichnis)
bahnsteig – Bahnsteigbezeichnung (ein Bahnsteig hat mehere Kanten!), z.B. B01 für Gleis 1, B02 für Gleis 2+3
bahnsteigkante_bw_auf_bs – wie vor Ort angeschrieben, z.B. "1", "2", "3"
örtliche_bezeichnung – z.B. "Gleis 1", "Gleis 2"
nettobaulängen_m – Länge der Bahnsteigkante. Die nutzbare Bahnsteiglänge ist kürzer, das merkt man an Stumpfgleisen, da hier noch ein paar Meter für den Prellbock verlorengehen
höhe_bahnsteigkante_cm – Höhe über Schienenoberkante
Bei all meinen Stichproben mit Bahnhöfen, die kürzlich neue Bahnsteige erhalten haben, waren die Bahnsteighöhen aktuell: Weinheim (Bergstraße), Bad Friedrichshall Hbf, Crivitz, Roßlau (Elbe) Pbf, Coswig (Anhalt). Wie es mit Höhen im Altbestand aussieht, habe ich nicht geprüft.
Ein Problem sind hingegen die Bahnsteige, die in ihrer Länge unterschiedlich hoch sind. In Osterburken ist der Bahnsteig an Gleis 1 südlich des Reisendenübergangs 76 cm über Schienenoberkante hoch (S-Bahn-Standard), nördlich davon sind es unter 40 cm. In den DB-Daten steht der Bahnsteig sei 76 cm hoch und 235 m lang. Verschwiegen wird, dass ca. 90 m davon nicht 76 cm hoch sind. An Gleis 2 ist es genauso.
An ausgewählten Stationen habe ich die Bahnsteiglängen mit denen in OSM verglichen. Die OSM-Bahnsteiglängen sind nicht immer verlässlich. Oft sind Bahnsteige von Bing abgezeichnet. Gerade bei unbefestigten Bahnsteigen, deren Oberfläche wie eine gemähte Wiese aussehen, kann man auf dem Luftbild schlecht Anfang und Ende ermitteln. Daher habe ich Bahnsteige verglichen, an denen ich schon vorbeigefahren bin und sie dabei per Videomapping erfasst habe. An allen Bahnsteigen lagen die Unterschiede im Bereich der Messgenauigkeit. Diese Daten sind ok (und aktuell).
Betriebsstellenverzeichnis
Dieser Datensatz enthält die DS100-Kürzel für Betriebsstellen. Auch nicht bundeseigene Eisenbahnen und ausländische Betriebsstellen sind enthalten. Unter Betriebsstellen versteht man Bahnhöfe, Anschluss-, Ausweichanschluss-, Abzweig-, Überleitstellen, Haltepunkte, Blockstellen, Streckenwechsel, Betreiberwechsel usw. Der Datensatz hat folgende Tabellen:
Abk (Abkürzung)
Kurzname
Ländercode
Locationcode
Gültig ab
Kurzname ist wirklich ein Kurzname. Für maschinelle Anwendungen ist er nur sehr eingeschränkt geeignet. Den Langnamen kann man sich leider nicht einfach aus dem Stationsverzeichnis holen (in beiden steht das DS100-Kürzel), da erstens nicht alle Betriebsstellen Bahnhöfe oder Haltepunkte des Personenverkehrs sind und zweitens eine Station (von DB Station & Service AG) aus mehreren Betriebsstellen bestehen kann.
Bei den Nicht-DB-Betriebsstellen sind die Spalten "Ländercode", "Locationcode" und "Gültig ab" nicht ausgefüllt. Ausländische Betriebsstellen kann man aber an einem X als ersten Buchstaben im Kürzel erkennen.
Der Ländercode entspricht nicht dem politischen Land entspricht, in dem die Betriebsstelle liegt. Er ist vielmehr eine Kennzeichnung, dass die Betriebsstelle von der DB betrieben wird. DB-Bahnhöfe auf Schweizer Staatsgebiet, die aufgrund des Staatsvertrags von 1852 von der DB betrieben werden, tragen ein deutsches Kürzel (R* für Direktion Karlsruhe) und haben den Ländercode "DE".
Netzradar
Den Netzradar-Datensatz habe ich mir nicht genauer angesehen, da er für OSM nicht interessant ist.
[1] Da Vermessung Ländersache ist, gab/gibt es in Deutschland 16 verschiedene geodätische Bezugssysteme. An den Ländergrenzen gibt es Spannungen zwischen den Systemen von bis zu 2 Meter! Aus diesem Grund pflegt die DB ihr eigenes geodätisches Bezugssystem, da ihre Trassen eben des Öfteren über Bundesländergrenzen hinweggehen.
EDIT: Typo