Harvesting
Daten per Harvester automatisiert einlesen
Ein Harvester ist ein automatisiertes System, das in regelmäßigen Abständen Ihre Metadaten abruft und in den Datenatlas integriert. Stellen Sie sich vor, der Harvester funktioniert wie ein digitaler Postbote, der periodisch bei Ihnen vorbeischaut, um zu prüfen, ob neue Datensätze verfügbar sind oder bestehende aktualisiert wurden. Dieses Verfahren bietet den großen Vorteil, dass Sie Ihre Daten einmal korrekt strukturiert bereitstellen und anschließend alle Änderungen automatisch übernommen werden.
Vorteile des Harvestings
Die automatisierte Bereitstellung über Harvester bietet viele Vorteile gegenüber einer manuellen Datenbereitstellung. Einmal korrekt eingerichtet, erfolgen alle weiteren Aktualisierungen ohne manuellen Aufwand. Dies reduziert nicht nur den Verwaltungsaufwand, sondern minimiert auch das Risiko von Fehlern bei der Datenübertragung. Zudem gewährleistet das Verfahren eine konsistente Datenqualität, da alle Datensätze nach denselben standardisierten Regeln verarbeitet werden.
Die Harvester-Methode ermöglicht es Ihnen außerdem, Ihre Daten parallel in mehreren Portalen bereitzustellen. Durch die Verwendung standardisierter Metadatenformate können verschiedene Systeme auf denselben Katalog zugreifen, was die Reichweite Ihrer Daten erheblich erhöht.
Unterstützung und Beratung
Unser Team des Datenatlas Zivilgesellschaft steht Ihnen gerne bei allen Fragen rund um die Datenbereitstellung zur Verfügung. Ob Sie Unterstützung bei der technischen Umsetzung benötigen, Hilfe bei der Metadatenstrukturierung wünschen oder Fragen zu spezifischen Anforderungen haben – wir begleiten Sie durch den gesamten Prozess.
Kontaktieren Sie uns gerne, wenn Sie Klarstellungen zu den technischen Standards benötigen oder bei der Vorbereitung Ihrer Daten auf Herausforderungen stoßen. Wir sorgen dafür, dass Ihre offenen Daten bestmöglich im Datenatlas Zivilgesellschaft präsentiert werden.
Vorgaben für die Datenanbindung an den Datenatlas Zivilgesellschaft
Um sicherzustellen, dass ein Datensatz auf Datenatlas Zivilgesellschaft angebunden werden kann, müssen bestimmte Vorgaben erfüllt werden. Zum einen müssen dafür die Pflichtvorgaben von DCAT- AP.de erfüllt werden, damit der Datensatz dem Standard entspricht. Weiterhin gibt es einige zusätzliche Felder, deren Angabe notwendig ist, damit die Nutzenden den Datensatz auf Datenatlas Zivilgesellschaft optimal verwenden können. Empfohlene Vorgaben sind wünschenswert, da sie wesentlich zur Verbesserung der Qualität des Datensatzes beitragen.
Titel (dct:title) und Beschreibung (dct:description): Diese Informationen sind nach dem DCAT-AP.de-Format verpflichtend.
- Datenbereitsteller (dct:publisher): Der Datenbereitsteller, also die Organisation oder Person, die den Datensatz zur Verfügung stellt, muss klar angegeben sein.
- Datensatz (dcat:dataset): Hier wird der Datensatz mit dem Katalog verknüpft.
- Kategorie (dcat:theme): Der Datensatz sollte einer geeigneten Kategorie zugeordnet werden, um seine thematische Einordnung zu erleichtern. Wichtig ist, dass es sich dabei um eine genormte Angabe handelt, die einem fixen Vokabular folgen muss. Die von der EU vorgegebenen Kategorien werden hier gelistet: EU Vocabularies: data- theme
- Aktualisierungsdatum (dct:modified) und Kontaktangabe
- Kontaktangabe (dcat:contactPoint): Abgesehen vom letzten Aktualisierungsdatum des Datensatzes muss eine Kontaktangabe vorhanden sein, die den Namen, die E-Mail-Adresse und gegebenenfalls Telefonnummer oder ein Kontaktformular enthält, um Nutzenden bei Rückfragen die Möglichkeit zur Kontaktaufnahme zu bieten.
- Empfohlen: Erste Veröffentlichung (dct:issued): Spezifiziert das Datum der ersten Herausgabe des Datensatzes.
- Empfohlen: Schlagwörter (dcat:keyword): Schlagwörter dürfen frei gewählt werden und erleichtern das Filtern nach Datensätzen auf unserem Portal.
- Empfohlen: Zeitliche Abdeckung (dct:temporal): Zeitintervall, welches die zeitliche Abdeckung des Datensatzes spezifiziert.
- Empfohlen: Geopolitisches Level (dcatde:politicalGeocodingLevelURI): Definiert die Verwaltungebene, von der die Datenstruktur erhoben und eingestellt wurde. Hier gibt es ein fixes Vokabular, welcher hier angegeben ist: https://www.dcat-ap.de/def/politicalGeocoding/Level/
- Empfohlen: Geopolitische Abdeckung (dcat:politicalGeocodingURI): Bezeichnet den verwaltungspolitischen Geobezug, damit die Daten den verschiedenen deutschen Verwaltungsträgern zugewiesen werden können. Das Vokabular ist ebenfalls hier angegeben: www.dcat- ap.de/def/dcatde/2.0/implRules/#verwaltungspolitischer-geobezug-alsuri
- Lizenzangabe (dct:license): Es muss angegeben werden, unter welcher Lizenz die Distribution des Datensatzes zur Verfügung gestellt wird. Diese richtet sich nach einem genormten Vokabular, welches hier spezifiziert ist: https://www.dcat-ap.de/def/licenses/
Für die Veröffentlichung in Civora empfehlen wird die Creative Commons Lizenzen CC 0, CC BY oder CC BY-SA in der jeweils aktuellsten Version. Mehr Informationen dazu sind in z.B. in folgendem Lizenzleitfaden zusammengestellt: oc.bydata.de/sharing/articles/licenses - Namensnennungstext für By-Clauses (dcatde:licenseAttributionByText:) Falls eine CC BY oder CC BY-SA (Share-Alike) Lizenz vergeben wurde, wird dieses Feld empfohlen. Darin wird erfasst, welcher Namensnennungstext bei einer Weiternutzung angegeben werden soll.
- URL (dcat:accessURL): Dies bezeichnet den Link, über welchen Nutzende leicht auf die Daten zugreifen können. Der Link kann zu einem Webservice oder zu einem Dateidownload führen. Nicht zu verwechseln mit dcat:downloadURL, letztere Angabe ist nicht verpflichtend.
- Format (dct:format): Das Format der Distribution muss klar spezifiziert sein, damit Nutzende wissen, in welchem Dateiformat die Rohdaten vorliegen. Dieses richtet sich nach einem genormten Vokabular, welches hier vorgegeben ist: http://publications.europa.eu/resource/authority/file-type
- Empfohlen: Verwendete Sprache (dct:language): Bezeichnet die natürliche (nicht die technische) Sprache, in der die Daten verfügbar sind.
Eine detaillierte Übersicht der einzelnen Felder ist in der Spezifikation angegeben: https://www.dcat-ap.de/def/dcatde/2.0/spec/