FS 25: Data Analytics and Machine Learning

Machine Learning bezeichnet einen methodischen Zugang, der maschinelles Lernen für die Schätzung kausaler Effekte einsetzt. Im Zentrum steht nicht die blosse Vorhersage eines Outcomes (Y) aus Kovariaten (X), sondern die Frage, wie sich (Y) verändert, wenn eine Behandlung oder Intervention (D) variiert wird, während relevante Einflussfaktoren in (X) kontrolliert werden. Damit verschiebt sich der Fokus von der prädiktiven Logik (Y=f(X)) hin zur Identifikation von Ursache-Wirkungs-Zusammenhängen.

Die methodische Grundannahme besteht darin, dass beobachtbare Kovariaten gleichzeitig die Behandlung und das Outcome beeinflussen können. Ohne Kontrolle dieser Confounder wäre der geschätzte Zusammenhang zwischen (D) und (Y) verzerrt. Causal Machine Learning nutzt deshalb datengetriebene Verfahren, um aus einer grossen Zahl potenzieller Einflussgrössen jene Strukturen herauszufiltern, die für eine unverzerrte Effektschätzung relevant sind. Lasso dient dabei zur Selektion wichtiger Kontrollvariablen in hochdimensionalen Datensätzen, während Double-Lasso und Partialling-out ermöglichen, den kausalen Effekt auch dann konsistent zu schätzen, wenn die Zahl möglicher Kovariaten sehr gross ist.

Über lineare Modelle hinaus erweitert der Ansatz die kausale Analyse um flexible nichtlineare Verfahren wie Random Forests. Dadurch können nicht nur durchschnittliche Behandlungseffekte, sondern auch heterogene Effekte geschätzt werden. Der kausale Effekt wird somit nicht als für alle Beobachtungen gleich angenommen, sondern als abhängig von individuellen Merkmalskonstellationen verstanden. Relevant ist damit nicht nur, ob eine Intervention wirkt, sondern auch, für wen sie besonders wirksam ist.

Double Machine Learning systematisiert diese Logik, indem Hilfsmodelle für Behandlung und Outcome zunächst mit Methoden des maschinellen Lernens geschätzt und anschliessend in einer orthogonalen, gegen Schätzfehler robusteren Effektschätzung kombiniert werden. Sample Splitting und Cross-Fitting reduzieren dabei das Risiko der Überanpassung und sichern statistische Inferenz trotz hoher Modellflexibilität ab. Der Ansatz verbindet somit prädiktive Stärke mit inferenzstatistischer Strenge.

Der Kerngedanke lässt sich so fassen: Causal Machine Learning ersetzt die rein beschreibende Beziehung (Y=f(X)) durch eine kausale Modellierung, in der der Effekt einer Intervention (D) auf (Y) unter Kontrolle von (X) geschätzt wird. Ziel ist nicht Vorhersage um ihrer selbst willen, sondern die belastbare Bestimmung kausaler Effekte, ihrer Heterogenität und ihrer Nutzbarkeit für evidenzbasierte Entscheidungen.