Universität Heidelberg | AG SIP | Arbeiten

Jan JOHANNES 15 Jul 2022 Arbeiten

Abschlussarbeit:: Master in Mathematik

Autor:: Daniel Fridljand

Titel:: Better multiple Testing: Using multivariate co-data for hypothesis weighting

Betreuer:: Wolfgang Huber (EMBL); Jan JOHANNES

Abstrakt:: Betrachte ein multiples Testproblem, bei dem wir für jeden Test Zugriff auf einen P-Wert sowie zusätzliche Information in Form einer ein- oder mehrdimensionalen Kovariate haben. Die Kovariate kann über die a-priori Wahrscheinlichkeit der Null-Hypothese und/oder die Trennschärfe des Tests informieren. Wie einige andere aktuelle Vorschläge, nutzt IHW (Ignatiadis und Huber, 2021) diese Kovariaten für das Verfahren für das multiple Testproblem. IHW zerlegt den Raum der Kovariaten in eine endliche Anzahl an Teilmengen, gewichtet jene individuell, und nutzt die Gewichte um die Hypothesen in den jeweiligen Teilmengen a-priori zu priorisieren. IHW kontrolliert die Falscherkennungsrate und erhöht den Anteil der korrekt erkannten Entdeckungen verglichen mit ungewichteten Methoden, wie Benjamini-Hochberg (BH). Ignatiadis and Huber (2021) benutzen eine Zerlegung, die auf den Quantilen der einzelnen Kovariatdimensionen basiert. Nachteile davon sind, dass die Anzahl der Kombinationen mit der Kovariatdimension explodiert. Desweiteren ist die Methode ungeeignet for heterogene Kovariaten. Wir addressieren dieses Problem mit einem Random Forest (IHW-Forest), wo die Blätter der Bäume als Zerlegung für die Kovariaten dienen. Die Baumkonstruktion ist sensitiv bezüglich der a-priori Wahrscheinlichkeit einer Hypothese wahr zu sein. IHW-Forest skaliert gut zu hochdimensionalen Kovariaten und kann uninformative Kovariaten ignorieren. Letzteres ist praktisch, wenn der/die Nutzer*in nicht weiß, welche Kovariaten für die Fragestellung relevant sind. Durch die automatische Auswahl der relevantesten Kovariaten wird die Anwendung von IHW deutlich erweitert. IHW-Forest nutzt die P-Werte um die Zerlegung zu konstruieren, wodurch Teilmengen der Zerlegung homogen werden und die Trennschärfe erhöht wird. Wir demonstrieren die Vorteile von IHW-Forest in Simulationen und in einer Anwendung aus der Bioinformatik. IHWs Trennungsschärfe verschwindet mit steigender Anzahl an Kovariaten, während die von IHW-Forest stabil bleibt. Wenn das Signal in einer schrumpfenden Region konzentriert ist, übertrifft IHW-Forest vergleichbare Methoden. Wir wenden IHW-Forest auf eine hQTL Analyse an, welche nach Assoziationen zwischen genetischer Variation und Histonmodifikationen beim Menschen sucht. Dies führt zu 16 Milliarden Hypothesentests auf den ersten beiden Chromosomen. Wir benutzen 11 verschiedene Kovariaten, unter anderem den Abstand auf dem Genom. Wegen des exponentiellen Anstieges der Anzahl der Quantil Kombinationen und der Anzahl der Kovariaten, ist IHW nicht mehr anwendbar, aber IHW-Forest schon. Das aktualisierte Paket wird auf Bioconductor unter http://www.bioconductor.org/packages/IHW verfügbar gemacht.
Literatur:: N. Ignatiadis und W. Huber. Covariate powered cross-weighted multiple testing, Journal of the Royal Statistical Society, Series B, 83(4):720–751, 2021.