Kausale Modellselektion für Kohortendaten

Beschreibung

In diesem Projekt haben wir Methoden der kausalen Modellselektion (Causal Discovery) für die Analyse von Kohortendaten entwickelt. Kohortenstudien sind in der epidemiologischen oder soziologischen Erforschung von Lebensabläufen eine wichtige Informationsquelle, u.a. um späte Folgen einer Exposition in jungen Jahren abzuschätzen. Methoden des Causal Discovery befinden sich an der Schnittstelle zwischen Informatik und Statistik. Dabei wird der Datensatz unter Ausnutzung spezieller Annahmen statistisch dahin gehend ausgewertet, dass idealerweise alle kausalen Zusammenhänge zwischen den Variablen einem Graph zu entnehmen sind. Obwohl Causal Discovery Methoden schon seit einigen Jahren vor allem im „Big Data“ Kontext vermehrt eingesetzt wurden, gabe es keine entsprechenden Verfahren, die speziell auf Kohortendaten ausgerichtet oder direkt dafür geeignet waren. In unserem DFG-Projekt haben wir diese Lücke geschlossen. Konkret haben wir:
  • (1) die neue Modellklasse der kausalen Kohortengraphen (CCGs) definiert und dafür geeignete und effiziente Modellselektionsverfahren entwickelt.
  • (2) diese neuen statistischen Ansätze zur kausalen Modellselektion weiter entwickelt, um spezielle Probleme mit Kohortendaten zu lösen, vor allem Methoden für fehlende Werte. Hier wurde insbesondere die Methode der multiplen Imputation mit den sogenannten PC-Algorithmus kombiniert.
  • (3) einen Leitfaden zur praktischen Anwendung (inkl. Empfehlungen und Warnungen) erstellt und bedienungsfreundlichen Software entwickelt sowie bereit gestellt, damit die neuen Methoden eine weit verbreitete Anwendung finden.
  • (4) die neue Methodik wurde erfolgreich auf praktische Beispiele angewandt: Zum einen haben wir das genetisches Netzwerk für den Protein 53 Pfad analysiert, der beim Kopf-Hals-Plattenepithelkarzinom eine wichtige Rolle spielt. Zum anderen haben wir die IDEFICS/I.Family Kohortendaten analysiert und mögliche neue indirekte kausale Zusammenhänge aufgedeckt.

Das Vorhaben war vor allem deshalb von grosser Bedeutung, weil Causal Discovery für Kohortendaten einen fundamental anderen Ansatz verfolgt als die üblichen statistischen Verfahren. Wir haben somit die Möglichkeit eröffnet, gänzlich neue Grundlagenerkenntnisse zu gewinnen, die z.B. für neue Ansätze in zukünftigen Interventionsstudien genutzt werden können - wie etwa zur Beratung von Eltern und Lehrern / Lehrerinnen von übergewichtigen Kindern. Unsere Ergebnisse leisten einen vielversprechenden Beitrag zur öffentlichen Gesundheitsversorgung und zur medizinischen Entscheidungsfindung.

Förderzeitraum

Beginn:   Januar 2018
Ende:   Mai 2021

Förderer

  • Deutsche Forschungsgemeinschaft (DFG)

Kontaktperson

Prof. Dr. rer. nat. Vanessa Didelez

Ausgewählte Veröffentlichungen zum Projekt

    Zeitschriftenartikel mit peer-review

  • Foraita R, Witte J, Börnhorst C, Gwozdz W, Pala V, Lissner L, Lauria F, Reisch LA, Molnár D, De Henauw S, Moreno LA, Veidebaum T, Tornaritis M, Pigeot I, Didelez V. A longitudinal causal graph analysis investigating modifiable risk factors and obesity in a European cohort of children and adolescents. Scientific Reports. 2024;14:6822.
    https://doi.org/10.1038/s41598-024-56721-y
  • Witte J, Foraita R, Didelez V. Multiple imputation and test-wise deletion for causal discovery with incomplete cohort data. Statistics in Medicine. 2022;41(23):4716-4743.
    https://doi.org/10.1002/sim.9535
  • Foraita R, Friemel J, Günther K, Behrens T, Bullerdiek J, Nimzyk R, Ahrens W, Didelez V. Causal discovery of gene regulation with incomplete data. Journal of the Royal Statistical Society. Series A (Statistics in Society). 2020;183(4):1747-1775.
    https://doi.org/10.1111/rssa.12565
  • Witte J, Henckel L, Maathuis MH, Didelez V. On efficient adjustment in causal graphs. Journal of Machine Learning Research. 2020;21(246):1-45.
    http://jmlr.org/papers/v21/20-175.html
  • Witte J, Didelez V. Covariate selection strategies for causal inference: Classification and comparison. Biometrical Journal. 2019;61(5):1270-1289.
    https://doi.org/10.1002/bimj.201700294
  • Vorträge bei wissenschaftlichen Tagungen (eingeladen)

  • Foraita R, Witte J, Didelez V. Causal discovery with cohort data. Institutskolloquium des Instituts für Medizinische Biometrie, Epidemiologie und Informatik (IMBEI) der Universität Mainz, 9. Februar 2023, Mainz.
  • Didelez V, Witte J, Foraita R. Causal and graphical modelling in epidemiology. Statistische Woche, Jahrestagung der Deutschen Statistischen Gesellschaft (DStatG), 14.-17. September 2021, Online-Vortrag.
  • Didelez V, Witte J. Kovariablen-Selektion für kausale Inferenz - Verschiedene Ansätze im Vergleich. Institutskolloquium des Instituts für Medizinische Biometrie, Epidemiologie und Informatik (IMBEI) der Universität Mainz, 10. Dezember 2020, Online-Vortrag.
  • Witte J, Didelez V. Kovariablen-Selektion für kausale Inferenz: Verschiedene Ansätze im Vergleich. Kolloquium "Statistische Methoden in der empirischen Forschung" des Instituts für Veterinär-Epidemiologie und Biometrie der Freien Universität Berlin, 11. Dezember 2018, Berlin.
  • Software

  • Witte J, Foraita R. R-Paket tpc. (Version 1.0); 2023.
    https://cran.r-project.org/web/packages/tpc/
  • Foraita R, Witte J. Multiple imputation in causal graph discovery. (Version 1.1.0); 2022.
    https://cran.r-project.org/package=micd
  • Witte J. tPC - Causal discovery with temporal background knowledge. (Version 1.0.0); 2021.
    https://github.com/bips-hb/tpc
  • Foraita R. micd (Multiple Imputation in Causal Graph Discovery). R package. (Version 0.2.0); 2019.
    https://github.com/bips-hb/micd