'Deep Learning' liefert Einblicke in die kosmische Strukturbildung
Wie kann uns maschinelles Lernen helfen, das komplexe kosmische Netz zu verstehen? Astrophysiker präsentieren in einer neuen Studie nun ein 'Deep Learning'-Modell, um Licht in die Physik der Entstehung von Halos aus dunkler Materie zu bringen. Die Ergebnisse zeigen, dass sphärisch gemittelte Anfangsbedingungen des Universums die wichtigsten Informationen über die endgültige Masse der Halos bereits enthalten.
Alle kosmischen Strukturen im Universum entstanden aus winzigen Fluktuationen in der Dichte der Materie im frühen Universum. Aufgrund der Gravitation wuchsen diese kleinen Störungen im Laufe der kosmischen Zeit zu ausgedehnten Halos aus dunkler Materie, die durch Filamente verbunden und von Hohlräumen umgeben sind. Die normale Materie folgt dieser Verteilung der dunklen Materie, so dass großräumige Beobachtungen unseres Universums die Verteilung der Galaxien und Galaxienhaufen in einem "kosmischen Netz" zeigen. Auch wenn die nichtlineare Entwicklung der Materie mit Hilfe von kosmologischen Simulationen berechnet werden kann, bleibt dieser komplexe Prozess theoretisch nur schwer fassbar.
In unserer Studie verwenden wir ein Modell des ‚Deep Learning‘, um mehr über die nicht-lineare Beziehung zwischen den Anfangsbedingungen und den endgültigen Halos der dunklen Materie in kosmologischen Simulationen zu erfahren (Abb. 1). Mit diesem Modell wollen wir unser physikalisches Verständnis darüber verbessern, wie die nicht-linearen, kosmischen Strukturen in der Spätzeit des Kosmos aus den linearen Anfangsbedingungen entstehen. Wie sich herausstellt, besteht die größte Hürde darin zu verstehen und zu erklären, wie und warum komplexe Deep-Learning-Algorithmen zu bestimmten Entscheidungen gelangen – in den meisten Anwendungen fungieren sie effektiv als "Blackbox". In unserem Fall möchten wir verstehen, welche Merkmale der Anfangsbedingungen von dem Algorithmus extrahiert werden, um die endgültigen Vorhersagen zu treffen.
Unser dreidimensionales neuronales Konvolutionsnetzwerk (engl.: Convolutional Neural Network oder CNN) wird darauf trainiert, die nichtlineare Beziehung zwischen dem anfänglichen Dichtefeld und der endgültigen Masse von Halos aus dunkler Materie in kosmologischen Simulationen zu erkennen. Das CNN besteht aus sechs Schichten, wobei die Merkmale hierarchisch über die Schichten hinweg extrahiert werden (von lokalen Merkmalen auf niedriger Ebene in den ersten Schichten zu abstrakteren Merkmalen auf hoher Ebene in den nachfolgenden Schichten). Zwei vollständig gekoppelte Schichten kombinieren dann die Merkmale, um die endgültige Vorhersage zu liefern. Durch das Training des Netzwerks mit vielen Beispielen, welche Anfangsbedingungen welchen Halomassen zugeordnet sind, lernt das Modell, diejenigen Aspekte des anfänglichen Dichtefeldes zu identifizieren, die einen Einfluss auf die endgültige Masse der resultierenden Halos haben.
Der entscheidende Schritt besteht nun darin, die durch das maschinelle Lernen erhaltene Zuordnung physikalisch zu interpretieren: Wir entfernen einen Teil der Eingabeinformationen, trainieren das Modell neu und messen, wie sich die Leistung des Modells ändert. Diese einfache und effektive Technik offenbart, welche Aspekte der Eingabe die Ausgabe des Modells beeinflussen.
Wir entfernen anisotrope Informationen über das ursprüngliche Dichtefeld und trainieren das CNN neu (Abb. 2). Die beiden Modelle, d.h. das auf rohen Dichteeingaben und das auf gemittelten Dichteeingaben trainierte, liefern konsistente Vorhersagen; mit anderen Worten, die Leistung des CNN verschlechtert sich nicht, wenn wir anisotrope Informationen über die Dichte entfernen. Die vom CNN erlernten Merkmale sind daher äquivalent zu sphärischen Mittelwerten über das ursprüngliche Dichtefeld. Das bedeutet, dass anisotrope Eigenschaften des anfänglichen Dichtefeldes keine relevanten Informationen für die Bestimmung der endgültigen Masse von Halos aus dunkler Materie enthalten.
Diese Tatsache führt zu einer Neubewertung unserer bisherigen Interpretation des Gravitationskollapses, der auf analytischen Näherungen der Strukturentstehung beruht. Jahrzehntelang wurden analytische Modelle dahingehend interpretiert, dass eine Berücksichtigung anisotroper Eigenschaften des frühen Universums, wie z.B. Scherungseffekte externer Gezeitenkräfte, ein verbessertes Modell für den Halokollaps liefern im Vergleich zu einem Modell auf der Basis isotroper Eigenschaften. Stattdessen zeigen wir hier das Gegenteil: anisotrope Eigenschaften des anfänglichen Dichtefeldes spielen bei der Bestimmung der endgültigen Halo-Masse keine relevante Rolle. Ein entscheidender Test für die Robustheit unseres Modells war der Nachweis, dass das Deep-Learning-Modell räumlich-lokale Eigenschaften auf allen Skalen effektiv extrahieren kann und robuste Vorhersagen für die Halo-Massen liefert, die den Erwartungen für einen einfacheren Testfall entsprechen.
Unsere Arbeit zeigt, dass interpretierbare Deep-Learning-Modelle ein leistungsfähiges Werkzeug sein können, um Einblicke in die kosmologische Strukturbildung zu gewinnen. Die Entwicklung von Toolkits für die Interpretierbarkeit von ‚Deep Learning‘ ist auch für andere Wissenschaften von großem Interesse, denn nur wenn Wissenschaftler verstehen, wie Modelle auf Basis des maschinellen Lernens ihre Vorhersagen machen, können sie den KI-Werkzeugen in wissenschaftlichen Anwendungen vertrauen.