Forschung
Im Rahmen des “Ingest-Workflows” von wissenschaftlichen Papers (PDFs) in mein LLM Wiki sollen keine Zusammenfassungen erstellt werden, die alles enthalten, sondern nur die wirklich relevanten Informationen extrahieren. Der Kontext “verstopft” dann meist die Verarbeitung, es entsteht enormer Noise. Viele Informationen in einem Paper sind für spezifische Forschungsfragen meist sogar irrelevant, aber das Modell weiß das nicht von allein.
In der analogen Welt ist die Lösung einfach: Lineares Lesen, markieren, extrahieren. Zeitaufwändig. Fehleranfällig. Nicht skalierbar.
Es gibt aber eine Möglichkeit: die Extraktion von Informationen durch strukturiertes Parsing mittels der Methode Discourse Graph.
Der Discourse Graph ist nicht nur ein ontologisches Wissenskonzept, sondern eine praktische Methode fĂĽr die systematische Extraktion und Vernetzung von Wissen aus unstrukturierten Quellen. Die Idee: Zerlege jeden Text in granulare, vernetzte Einheiten anstatt alles als Block zu betrachten.
Die fĂĽnf Kernkomponenten des Discourse Graph habe ich wie folgt auf mein Wiki angewendet:
Das Primärdokument selbst. Wer hat es geschrieben? Wann? In welchem Kontext? Dies ist der Anker für alle nachgelagerten Informationen.
Alle verwertbaren Informationen aus der Quelle:
Methodische Details (Forschungsdesign, Sample Size, Instrumente)
Theoretische Grundlagen (Konzepte, Frameworks)
Empirische Befunde (Ergebnisse, Metriken, Beobachtungen)
Wichtig: Evidenzen sind Fakten oder Beobachtungen, noch keine Interpretationen.
Die Schlussfolgerungen, die die Autoren aus den Evidenzen ziehen: “Wenn Evidenz X zeigt, dann folgt Aussage Y”. Claims sind die wissenschaftlichen Erkenntnisse, die das Paper propagiert.
Die wissenschaftlichen Fragen, die der Text beantwortet oder aufwirft. Diese entstehen induktiv aus den Evidenzen und Claims. Sie bilden den Forschungsraum ab.
Übergeordnete Ideen, Theorien, Konstrukte, die mehrere Claims und Evidenzen verbinden. Sie sind die “Bausteine” meines Wissensgraphen.
Diese Struktur nennt sich auch Atomisierung oder Granularisierung von Wissen. Jede Einheit ist klein genug, um isoliert verständlich zu sein, aber groß genug, um einen Informationsgehalt zu haben.
Diese Struktur fußt auf Stephen Toulmin’s Argumentationstheorie (The Uses of Argument, 1958). Toulmin zeigte, dass gültige Argumente nicht nur aus “These + Beweis” bestehen, sondern aus:
Claim (Behauptung)
Data/Evidence (Belege)
Warrant (Garantie, warum die Evidenz den Claim stĂĽtzt)
Backing (Untermauerung der Garantie)
Qualifier (Einschränkung, Sicherheit)
Rebuttal (Gegenargumente)
Der Discourse Graph ist eine praktische Anwendung dieses Modells auf die Wissensvernetzung und sehr nĂĽtzlich fĂĽr die Analyse von wissenschaftlichen Texten.
Den folgenden Workflow habe ich sukzessive entwickelt. Statt PDFs einfach zu laden und eine Zusammenfassung zu erstellen, kann man im LLM Wiki ein strukturiertes Parsing umsetzen. Wie ich in meinem bereits beschriebenen System (siehe hier Vom Wiki-LLM zum Reasoning Linter) dargelegt habe, sieht die Pipeline wie folgt aus:
PDF Input
↓
[1] Strukturiertes Parsing
→ Textabschnitte & Segmente
→ Jedes Segment indexierbar & verlinkt
↓
[2] Evidenz-Extraktion
→ Methodische Evidenzen
→ Theoretische Evidenzen
→ Ergebnisbezogene Evidenzen
↓
[3] Claim-Identifikation
→ Claims basierend auf Evidenzen
→ Claims als Interpretationen/Schlussfolgerungen
↓
[4] Question Generation (induktiv)
→ Welche Fragen beantwortet dieser Text?
→ Welche neuen Fragen entstehen?
↓
[5] Knowledge Graph Assembly
→ Bidirektionale Links zwischen allen Komponenten
→ Relation-Typen definieren
→ Graph-Speicherung (Tana, ObsidianMD, Neo4j, etc.)
↓
Output: Queryable Knowledge Graph
Abb. 1: Die Pipeline (Flussdiagramm) (eigene Darstellung)
Das fĂĽhrt zu folgendem Ergebnis:
Keine Zusammenfassungen, sondern Strukturen: Der Prozess erzeugt nicht “Das Paper sagt X”, sondern “Evidenz A stützt Claim B, welcher Frage C beantwortet”.
Kontext-Reduktion durch Granularität: Jedes Segment ist klein genug, um auf seinen Punkt beschränkt zu sein.
Verlinkung als Qualitätssicherung: Wenn Evidenz und Claim nicht verlinkt werden können, fehlt etwas.
Bidirektionale Verbindungen: Ich kann nicht nur “Welche Claims stützt diese Evidenz?” fragen, sondern auch “Welche Evidenzen habe ich für diesen Claim?” abfragen.
Das Parsing-Pattern in Python wurde auf diese Weise erstellt (nicht perfekt, aber ein guter Start):
def parse_pdf_to_discourse_graph(pdf_path):
# 1. PDF in Segments zerlegen
segments = extract_segments(pdf_path)
# 2. FĂĽr jedes Segment: Evidenzen identifizieren
for segment in segments:
evidences = extract_evidences(segment, types=[
"methodological",
"theoretical",
"empirical"
])
# 3. Claims aus Evidenzen ableiten
claims = derive_claims(segment, evidences)
# 4. Fragen induktiv generieren
questions = generate_questions(segment, evidences, claims)
# 5. In Graph speichern mit Relationen
save_to_knowledge_graph({
"source": pdf_metadata,
"segment": segment,
"evidences": evidences,
"claims": claims,
"questions": questions,
"links": create_bidirectional_links(...)
})Zukünftig können die o.g. Notiztypen über Claims, Evidence, Questions und Concepts hinaus erweitert werden, wie z.B. mit:
Hypothesen (Hypotheses): Vermutungen, die aus den Daten abgeleitet werden und zwar nicht nur, was das Paper sagt, sondern was es sein könnte.
Didaktische Patterns (Didactical Patterns): FĂĽr Lehrentwicklung und Lehrforschung sind auch didaktische Konzepte von Interesse.
Methodische Innovationen: Neue Methoden, die sich aus den Erkenntnissen ableiten.
Außerdem braucht es noch eine ausgefeiltere Grammatik für die Relationen zwischen den Wissenstypen. Denn sie beschreiben nicht nur “diese Dinge sind verbunden”, sondern wie sie verbunden sind.
Es gibt Verbindungen zu folgenden anderen Beiträgen in diesem Digital Garden:
Von PKM zu CKM: Collaborative Knowledge Management statt Personal Knowledge Management — genau das, was ein Wissensgraph ermöglicht.
Wikipedia-Projekt: PKM: Die Idee, öffentliches Wissen strukturiert zu kuratieren.
Warum wir öffentlich schreiben: Weil öffentliches Wissen durch Vernetzung wertvoller wird.
Vom Wiki-LLM zum Reasoning Linter: Die technische Realisation — automatisierter “Linting” von Argumentationen.
Everything Claude Code: Die Werkzeuge, um das zu automatisieren.
Granularisierung als Standard: Wie wäre es, wenn in der Wissenschaft von Forschenden anstatt Bücher und Papers zu schreiben, erwartet wird, Erkenntnisse in granularer Form zu veröffentlichen?
Forschung als Graphabfrage: Statt “Schreib ein Review”, könnten Forscher folgende Aufgabe umsetzen: “Erstelle eine Query auf Basis des Graphen: Welche Evidenzen unterstützen These X? Welche Konzepte sind kontrovers? Wo gibt es Lücken?”
Automatisierte Synthesisierung: Mit LLMs kann ich nicht nur Papiere lesen, sondern den Graphen direkt abfragen und Synthesen generieren. Statt sie manuell zu schreiben, kann ein vorstrukturierter Text mit einer Auswertung der bisherigen Erkenntnisse erstellt werden, der als Inspiration fĂĽr neuen Text dient.
Interdisziplinäre Erkenntnis: Wenn ich Wissensgraphen über Disziplinen hinweg verbinde, entstehen neue Erkenntnisse einfach durch die Architektur des Graphen, neben dem manuellen Denken.
Das alles klingt danach, dass die Extraktion von Informationen aus wissenschaftlichen Texten automatisiert werden kann und diese Arbeit zukünftig von Maschinen übernommen wird. Ja, ein wenig hoffe ich auch darauf, bestimmte manuelle Arbeiten abzugeben. Gleichzeitig sind wir Forschende aber auch für die Qualitätssicherung verantwortlich. Die Ergebnisse müssen am Ende überprüft werden. Das ist vermutlich eine Idee für einen späteren Beitrag.
Created: 2026-05-17 · v01