Datensatzdokumentation
SARS-CoV-2-Nowcasting und -R-Schätzung
Robert Koch-Institut | RKI
Nordufer 20
13353 Berlin
Matthias an der Heiden
FG 34 | HIV/AIDS und andere sexuell oder durch Blut übertragbare Infektionen
Beitragende:
FG 32 | Surveillance
Justus Benzler (Datenkuration)
MF 4 | Forschungsdatenmanagement
Hannes Wuensche (Datenkuration)
an der Heiden, Matthias (2021): SARS-CoV-2 Nowcasting und R Schaetzung, Berlin: Zenodo. DOI:muss.hier_eingetragen/werden
Der Datensatz "SARS-CoV-2-Nowcasting und -R-Schaetzung" steht unter der Creative Commons Lizenz Attribution 4.0 | CC-BY 4.0
Informationen zur Studie und zum Forschungskontext
Das Nowcasting erstellt eine Schätzung des Verlaufs der Anzahl von bereits erfolgten SARS-CoV-2-Erkrankungsfällen in Deutschland unter Berücksichtigung des Diagnose-, Melde- und Übermittlungsverzugs. Aufbauend auf dem Nowcasting kann eine Schätzung der zeitabhängigen Reproduktionszahl R (oder R-Wert) durchgeführt werden. Die Reproduktionszahl beschreibt, wie viele Menschen eine infizierte Person im Mittel ansteckt. Sie kann nicht alleine als Maß für die Notwendigkeit und Wirksamkeit von Maßnahmen herangezogen werden. Wichtig sind außerdem u.a. die absolute Zahl der täglichen Neuinfektionen sowie die Schwere der Erkrankungen. Die absolute Zahl der Neuinfektionen muss klein genug sein, um eine effektive Kontaktpersonennachverfolgung zu ermöglichen, und die Zahl der schweren Erkrankungen klein genug, um die Kapazitäten an Intensivbetten nicht zu überlasten.
Administrative und organisatorische Angaben
Der Datensatz "SARS-CoV-2-Nowcasting und -R-Schätzung" wird vom Robert Koch-Institut im Zusammenhang mit der SARS-CoV-2-Pandemie bereitgestellt. Autor des Datensatzes ist Matthias an der Heiden, wissenschaftlicher Mitarbeiter des Fachgebiet 34 | HIV/AIDS und andere sexuell oder durch Blut übertragbare Infektionen des RKI. Inhaltliche Fragen bezüglich des Nowcastings und der R-Schätzungen können an Matthias an der Heiden per Mail, unter AnderHeidenM@rki.de gestellt werden. Das Nowcasting und die R-Schätzung erfolgt seit März 2020 und wird täglich aktualisiert.
Die Datenkuration sowie das Qualitätsmanagement der (Meta-)Daten erfolgt durch Justus Benzler, Fachgebiet 32 | Surveillance und Hannes Wuensche, Fachgebiet MF 4 | Forschungsdatenmanagement des RKI. Fragen zum Datenmanagement und zur Publikationsinfrastruktur können an das Fachgebiet MF4 unter MF4@rki.de gerichtet werden.
Inhalt und Aufbau des Datensatzes
Der Datensatz enthält die epidemiologischen Schätzungen über den Verlauf der SARS-CoV-2-Infektionen in Deutschland und der daraus resultierenden Reproduktionszahl. Weiterhin enthält er grundlegende Metadaten sowie die Datensatzdokumentation und die in ihr zitierten wissenschaftlichen Publikationen. Im Datensatz enthalten sind:
- Tabelle mit täglichen Fallzahlenschätzungen und R-Wert-Angaben
- Archiv mit der Sammlung bisheriger Fallzahlenschätzungen und R-Wert-Angaben
- Lizenz-Datei mit der Nutzungslizenz des Datensatzes in Deutsch und Englisch
- Datensatzdokumentation und auf den Datensatz bezogene Publikationen in deutscher Sprache
- Metadaten-Datei zum Import in Zenodo
Aufbereitung und Auswertung der Daten
Es besteht ein großes Interesse daran, das aktuelle Infektionsgeschehen und die zeitliche Entwicklung der Zahlen von SARS-CoV-2-Infektionen und Covid-19-Erkrankungsfällen in Deutschland zeitnah darzustellen und zu verstehen. Aufgrund unvermeidbarer Verzüge kann niemand die tatsächliche Anzahl der heute oder in der vergangenen Woche erfolgten Infektionen genau wissen oder bestimmen. Erst wenn die betroffenen Personen positiv getestet wurden, kann deren Anzahl in einem Erhebungssystem erfasst und analysiert werden.
Ganz allgemein gilt jedoch, dass nicht alle infizierten Personen Symptome entwickeln, dass nicht alle, die Symptome entwickeln, eine Arztpraxis aufsuchen, dass nicht alle, die zum Arzt gehen, getestet werden, und dass nicht alle, die positiv getestet werden, auch in einem Erhebungssystem erfasst werden. Außerdem vergeht zwischen all diesen einzelnen Schritten eine gewisse Zeit, so dass kein Erhebungssystem, und sei es noch so gut, ohne zusätzliche Annahmen und Berechnungen eine Aussage über das aktuelle Infektionsgeschehen machen kann.
In Deutschland werden gemäß der Meldepflicht nach Infektionsschutzgesetz (IfSG) Infektionen mit SARS-CoV-2 von den diagnostizierenden Ärzten und Laboren an die zuständigen Gesundheitsämter gemeldet und von diesen über die zuständigen Landesbehörden an das Robert Koch-Institut übermittelt.
Methoden, Instrumente und Verlauf der Datengenerierung
Grundlage der Berechnungen des Nowcastings und der R-Schätzungen sind die aktuellen, durch die Gesundheitsämter an des Robert Koch-Institut gemeldeten, SARS-CoV-2-Infektionen in Deutschland. Die öffentlich zur Verfügung gestellten Daten der Infektionsmeldungen sind im SARS-CoV-2 Daten-Dashboard des RKI abrufbar. Auf Basis der gemeldeten SARS-CoV-2-Infektionen erfolgen die Fallzahlenschätzungen und die R-Wert-Berechnung in folgenden Schritten:
- Multiple Imputation fehlender Information zum Erkrankungsbeginn von COVID-19-Fällen unter einer Missing-at-Random-Annahme
- Korrektur der Anzahl von Neuerkrankungen für den Diagnose-, Melde- und Übermittlungsverzug mittels des Nowcasting-Verfahren
- Berechnung der zeitlich variierenden Reproduktionszahl unter der Annahme einer Generationszeit von 4 Tagen
Eine detaillierte Beschreibung der Methoden, Instrumente und des Verlaufs der Datengenerierung findet sich in folgenden Publikationen, die ebenfalls im Datensatz enthalten sind:
an der Heiden, M; Hamouda, O (2020): Schätzung der aktuellen Entwicklung der SARS-CoV-2-Epidemie in Deutschland – Nowcasting. Epid Bull, S.10–16. DOI: 10.25646/6692.4
Robert Koch-Institut (2020): Erläuterung der Schätzung der zeitlich variierenden Reproduktionszahl R. RKI. DOI:10.25646/8164
Daten und Datenaufbereitung
Zentrales Datum des Datensatzes ist die Tabelle mit dem Nowcasting der aktuellen Infektionen und der sich daraus ergebenden R-Werte. Die Tabelle erhält den Dateinamen "Nowcast_R_JJJJ-MM-DD". Im Dateinamen repräsentiert die Sequenz "JJJJ-MM-TT" das Erstellungsdatum der Datei und damit gleichzeitig das Datum des enthaltenen Datenstands. "JJJJ" steht dabei für das Jahr, "MM" für den Monat und "TT" für den Tag der Erstellung bzw. des enthaltenen Datenstands.
Nowcast_R_JJJJ-MM-DD.csv
Der Tabelle des Nowcastings und der R Schätzung wird jeden Tag um die Zeile der Daten des vergangene Tages erweitert. Die Fallzahlenschätzungen und R-Wert Angaben bilden einen tagesaktuellen Stand (00:00 Uhr) ab.
Die Schätzwerte zur Anzahl von Neuerkrankungen und der R-Schätzung zu früheren Tagen können von den Angaben in früheren Versionen der Tabelle abweichen, weil täglich der Gesamtverlauf, aufgrund der aktuell verfügbaren Daten, neu geschätzt wird.
Formatierung der Nowcasting und R Schätzung Tabelle
Das Nowcasting und die R Schätzung sind im Datensatz als kommaseparierte .csv Datei enthalten. Der verwendete Zeichensatz der .csv Datei ist UTF-8. Trennzeichen der einzelnen Werte ist ein Komma ",". Datumsangaben sind im ISO8601 Standard formatiert.
- Zeichensatz: UTF-8
- Datumsformat: ISO8601
- .csv Trennzeichen: Komma ","
Variablen des Nowcastings und der R Schätzung
Vier zentrale Variablen sind im Nowcastings und der R Schätzung für jeden Tag JJJJ-MM-TT abgebildet:
- Punktschätzer der Anzahl an Neuerkrankungen (ohne Glättung)
- ohne Glättung: ohne Bildung eines gleitenden Mittelwerts und
- Punktschätzer der Anzahl an Neuerkrankungen (mit Glättung)
- mit Glättung: unter Bildung eines gleitenden Mittelwerts über 4 Tage
- jeder Wert mit den Werten der 3 vorhergehenden Tage gemittelt
- Punktschätzer des 4-Tage R-Werts
- Punktschätzer des 7-Tage R-Werts
Zu jedem dieser Variablen ist darüber hinaus, das 95%-Prädiktionsintervall mit einem Ober- und einer Untergrenze angegeben. In der folgenden Tabelle sind die sich daraus ergebenden Variablen und deren Ausprägungen angegeben:
Merkmal | Ausprägung | Erläuterung |
---|---|---|
Datum | JJJJ-MM-DD | Datum der geschätzten Neuinfektionen und der sich ergebenden R-Werte. JJJJ entspricht der Jahreszahl, MM dem Monat und TT dem Tag. |
PS_COVID_Faelle | Natürliche Zahl | Punktschätzer der Anzahl an Neuerkrankungen (ohne Glättung) |
UG_PI_COVID_Faelle | Natürliche Zahl | Untere Grenze des 95%-Prädiktionsintervalls der Anzahl an Neuerkrankungen (ohne Glättung) |
OG_PI_COVID_Faelle | Natürliche Zahl | Obere Grenze des 95%-Prädiktionsintervalls der Anzahl an Neuerkrankungen (ohne Glättung) |
PS_COVID_Faelle_ma4 | Natürliche Zahl | Punktschätzer der Anzahl an Neuerkrankungen (mit Glättung) |
UG_PI_COVID_Faelle_ma4 | Natürliche Zahl | Untere Grenze des 95%-Prädiktionsintervalls der Anzahl an Neuerkrankungen (mit Glättung) |
OG_PI_COVID_Faelle_ma4 | Natürliche Zahl | Obere Grenze des 95%-Prädiktionsintervalls der Anzahl an Neuerkrankungen (mit Glättung) |
PS_4_Tage_R_Wert | Rationale Zahl | Punktschätzer des 4-Tage R-Werts |
UG_PI_4_Tage_R_Wert | Rationale Zahl | Untere Grenze des 95%-Prädiktionsintervalls des 4-Tage R-Werts |
OG_PI_4_Tage_R_Wert | Rationale Zahl | Obere Grenze des 95%-Prädiktionsintervalls des 4-Tage R-Werts |
PS_7_Tage_R_Wert | Rationale Zahl | Punktschätzer des 7-Tage-R Werts |
UG_PI_7_Tage_R_Wert | Rationale Zahl | Untere Grenze des 95%-Prädiktionsintervalls des 7-Tage-R Werts |
OG_PI_7_Tage_R_Wert | Rationale Zahl | Obere Grenze des 95%-Prädiktionsintervalls des 7-Tage-R Werts |
Hinweise zur Nachnutzung der Daten
Offene Forschungsdaten des RKI werden GitHub.com sowie Zenodo.org bereitgestellt:
Metadaten
Die bereitgestellten Daten sind mit Metadaten beschreiben und wissenschaftlich zitierbar, u.a. durch die Vergabe einer DOI durch Zenodo.org. Die für den Import in Zenodo bereitgestellten Metadaten sind in folgender Datei hinterlegt:
.zenodo.json
Die Dokumentation der einzelen Metadatenvariablen ist unter https://developers.zenodo.org/#representation nachlesbar.
Lizenz
Der Datensatz "SARS-CoV-2 Nowcasting und R Schätzung" steht unter der Creative Commons Lizenz Attribution 4.0 | CC-BY 4.0
Die im Datensatz bereitgestellten Daten sind, unter Bedingung der Namensnennung des Autors als Quelle, frei verfügbar. Das bedeutet, dass jede_r das Recht hat, die Daten zu verarbeiten und zu verändern, Derivate des Datensatzes zu erstellt und sie für kommerzielle und nicht kommerzielle Zwecke zu nutzen. Weitere Informationen zur Lizenz finden sich in den LICENSE und LICENSE-DE Dateien des Datensatzes.
Die empfohlene Zitierweise ist:
an der Heiden, Matthias (2021): SARS-CoV-2 Nowcasting und R Schaetzung, Berlin: Zenodo. DOI:muss.hier_eingetragen/werden).