Ergebnisse

Komponenten‑Ablation

Um den Beitrag einzelner Bausteine zu verstehen, wurde eine schrittweise Ablation durchgeführt:

Baseline (nur Encoder+Decoder, keine Regularisierung): Die Segmentierung ist in allen drei Klassen (WT, TC, ET) deutlich zu schwach – ein Decoder ohne Ausgleichsmechanismen neigt dazu, nur die dominanten Modalitäten zu nutzen.
+Geteilter Decoder (Reg): Der gemeinsame Decoder erzwingt ein modalitätsunabhängiges Feature‑Learning. Dadurch sinkt der Bias gegenüber stark vertretenen Modalitäten und die Gesamtleistung steigt moderat.
+Adaptive Fusion Transformer (AFT): Mit dem AFT erscheinen erstmals deutliche Sprünge, besonders in der schwierigen ET‑Klasse. Damit wird die Wirksamkeit einer globalen, maskierten Attention auf fehlende Modalitäten empirisch bestätigt.
+SRA bzw. KFT: Sowohl die Spatial Relevance Attention (SRA) als auch der Kanalbezogene Fusion‑Transformer (KFT) verbessern die Balance der Feature‑Fusion, ohne andere Modalitäten nennenswert zu beeinträchtigen.
Vollausbau: Werden alle Komponenten kombiniert, ergibt sich eine mittlere Dice‑Steigerung von 2,49%/3,53%/6,99% (WT/TC/ET) gegenüber der reinen AFT‑Baseline.

KFT‑Einsatz in Skip‑Connections

PRISMS wendet die räumliche Gewichtung (SRA) auf allen Skip‑Connections an. KFT‑Module werden dagegen nur in den unteren beiden Ebenen platziert:

Eine gezielte Ablation (Tab.2) zeigt, dass bereits ein KFT‑Layer in der tiefsten Skip‑Connection den DSC im Schnitt um 0,82% hebt.
Werden KFTs in die beiden tiefsten Ebenen eingefügt, steigt die mittlere Verbesserung auf 0,35% gegenüber einem Einzel‑KFT.
Eine aggressive Ausweitung auf alle Skip‑Connections verschlechtert die Leistung – hochaufgelöste Features der oberen Ebenen sind weniger diskriminativ, was eine kanalweise Neugewichtung erschwert.

Tabelle 1 Komponenten Ablation
Komponenten				∅DSC(%)				Komplexität
Reg	AFT	KFT	SRA	WT	TC	ET	∅	Params	GFLOPs
○	○	○	○	85.37	75.67	59.78	73.61	29.00	197.818
●	○	○	○	86.16	77.68	61.85	75.23	+0.00	+0.000
●	●	○	○	87.15	78.50	64.24	76.63	+10.44	+7.851
●	●	●	○	87.38	78.63	65.53	77.18	+13.87	+11.750
●	●	○	●	87.45	78.95	64.55	76.98	+10.44	+7.856
●	●	●	●	87.86	79.20	66.77	77.94	+13.87	+11.754

Tabelle 2 KFT-Abaltion: Die Stage gibt an, über wie viele Skip‑Connections der Encoder mit dem KFT verwendet wird.
Stage	SRA	∅DSC(%)				Komplexität
Stage	SRA	WT	TC	ET	∅	Params	GFLOPs
0	○	87.15	78.50	64.24	76.63	39.44	205.670
0	●	87.45	78.95	64.55	76.98	+0.00	+0.005
1	●	87.62	78.88	65.86	77.45	+2.63	+1.151
2	●	87.86	79.20	66.77	77.94	+3.43	+3.903
3	●	87.60	78.99	65.39	77.33	+3.69	+11.241
4	●	87.39	78.54	66.11	77.35	+3.79	+33.253
5	●	87.32	78.72	66.14	77.39	+3.83	+106.621

Hyperparameter

Zur Bewertung des Adaptive Fusion Transformer (AFT) wurde eine Ablationsstudie mit unterschiedlicher Layer‑Tiefe durchgeführt (Tab.3). Bereits ein einziger AFT‑Layer verbessert die Baseline deutlich – im Mittel um ≈3,1 Dice‑Prozentpunkte. Werden zusätzliche AFT‑Layer hinzugefügt, steigt die Leistung dagegen kaum weiter an. Der Grund liegt in der datenintensiven Natur von Transformer‑Schichten: Ab einer gewissen Tiefe tendieren die Self‑Attention‑Matrizen zu „uniformen“ Verteilungen[1], sodass zusätzliche Layer nur noch begrenzten Mehrwert bieten.

Ein zweiter zentraler Hyperparameter ist die Anzahl der Kanalbezogenen Fusionstransformer (KFT). Tab.4 zeigt, dass ein einzelner KFT‑Layer bereits merklich hilft, indem er Redundanzen entlang der Kanäle reduziert und kompaktere, modalitätsspezifische Features lernt. Fügt man jedoch zu viele KFT‑Layer hinzu, kippt der Effekt: Die fortlaufende Re‑Gewichtung entlang der Kanaldimension dämpft zunehmend die räumlichen Informationen und führt zu Leistungseinbußen.

Interessant ist zudem die Modellkomplexität: Ein einzelnes KFT‑Modul ersetzt die konventionellen Convolution‑Skip‑Connections im mmFormer‑Backbone und reduziert dadurch die Parameterzahl – trotz seines Transformer‑Anteils. Damit bietet die Kombination „1×AFT+1×KFT“ einen guten Kompromiss aus Genauigkeit und Effizienz.

Tabelle 3 Anzahl AFT Layer
L₁	WT	TC	ET	∅DSC(%)	Params	GFLOPs
0	86.16	77.68	61.85	75.23	29.0	197.78
1	87.69	79.11	65.35	77.38	+9.14	+5.851
2	87.77	79.20	66.34	77.77	+11.50	+8.803
3	87.86	79.20	66.77	77.94	+13.87	+11.754

Tabelle 4: Anzahl KFT layer
L₂	WT	TC	ET	∅DSC(%)	Params	GFLOPs
0	87.45	78.95	64.55	76.98	39.44	205.674
1	87.58	79.05	65.93	77.52	-0,01	+0.076
2	87.86	79.20	66.77	77.94	+3.43	+3.899
3	87.68	79.20	66.10	77.66	+6.86	+7.721
4	87.46	79.24	65.65	77.51	+10.30	+11.544


Typ	Methode	BraTS2018 (HD)	BraTS2020 (HD)
WT	HeMIS	26.72	27.32
	U‑HVED	25.10	28.00
	RobustMSeg	11.37	13.05
	RFNet	7.24	8.42
	mmFormer	7.30	7.71
	PRISMS	6.38	5.68
TC	HeMIS	27.99	25.27
	U‑HVED	25.18	23.77
	RobustMSeg	11.74	12.70
	RFNet	7.24	8.42
	mmFormer	7.30	7.71
	PRISMS	6.60	6.49
ET	HeMIS	15.48	16.70
	U‑HVED	13.48	14.86
	RobustMSeg	8.28	9.04
	RFNet	7.24	8.42
	mmFormer	7.30	7.71
	PRISMS	5.95	5.02

Vergleich mit distillationsbasierten Multi‑Model‑Ansätzen

Für den direkten Vergleich wurden bewusst ausschließlich Single‑Model‑Methoden des aktuellen State of the Art herangezogen. Distillationsbasierte Verfahren wie ACN [2] und SMU‑Net [3] trainieren dagegen für jede Modalitätskonstellation ein eigenes Modell (insgesamt 15 Modelle). Ihre Ergebnisse sind in Tab. 5 zusammengefasst.

Ein wichtiger Unterschied liegt in der Eingabeauflösung: ACN und SMU‑Net verarbeiten Volumina mit \(160 \times 192 \times 128\) Voxel, während PRISMS aus Hardware‑Gründen mit \(80 \times 80 \times 80\) Voxel operiert. Trotz dieses handfesten Nachteils erzielt PRISMS:

38 / 45 bessere Ergebnisse gegenüber ACN
- durchschnittliche Dice‑Steigerung: +1.0 % (WT), +4.5 % (TC), +2.1 % (ET)
38 / 45 bessere Ergebnisse gegenüber SMU‑Net
- durchschnittliche Dice‑Steigerung: +0.4 % (WT), +3.4 % (TC), +1.0 % (ET)

Diese Resultate unterstreichen die Effizienz der präferenzgesteuerten Selbstdistillation von PRISMS selbst bei halbierter Eingabegröße. Da höhere Auflösungen erfahrungsgemäß zusätzliche Detailinformationen liefern, ist bei einer Skalierung auf größere Volumina eine weitere Leistungssteigerung zu erwarten.

Tabelle 5: KD-Verfahren
Typ	Flair	○	○	○	●	○	○	●	○	●	●	●	●	●	○	●	Avg.
	T1	○	○	●	○	○	●	●	●	○	○	●	●	○	●	●
	T1ce	○	●	○	○	●	●	○	○	○	●	●	○	●	●	●
	T2	●	○	○	○	●	○	○	●	●	○	●	○	○	●	●
WT	ACN	85.4	79.8	78.7	87.3	84.9	79.6	86.0	84.4	86.9	87.8	88.4	87.4	87.2	86.6	89.1	85.30
	SMU‑Net	85.7	80.3	78.6	87.5	86.1	80.3	87.3	85.6	87.9	88.4	88.2	88.3	88.2	86.5	88.9	85.85
	PRISMS	83.5	78.9	78.0	87.7	86.3	82.5	88.9	86.0	88.7	89.4	89.5	89.2	89.6	87.1	89.6	86.33
TC	ACN	66.8	83.3	70.9	66.4	83.2	83.9	70.4	72.8	70.7	82.9	83.3	67.7	82.9	83.2	84.8	76.88
	SMU‑Net	67.2	84.1	69.5	71.8	85.0	84.4	71.2	73.5	71.2	84.1	84.2	67.9	82.5	84.4	87.3	77.89
	PRISMS	70.8	87.7	71.0	70.8	88.2	88.4	75.4	74.6	73.7	88.3	88.5	75.8	88.2	88.6	88.4	81.23
ET	ACN	41.7	78.0	41.8	42.2	74.9	75.3	42.5	46.5	44.3	77.5	75.1	42.8	73.8	75.9	78.2	60.70
	SMU‑Net	43.1	78.3	42.8	46.1	75.7	75.1	44.0	47.7	46.0	77.3	76.2	43.1	75.4	76.2	79.3	61.75
	PRISMS	47.5	79.0	39.7	32.8	79.4	79.8	41.0	48.6	48.4	79.2	79.5	49.1	79.4	79.6	79.4	62.83

Modelleffizents

Vergleich verschiedener sota Modelle

Methode	HeMIS	U‑HVED	RobustMSeg	mmFormer	MAML	RFNet	RA‑HVED	U‑Net‑MFI	PRISMS
Parameter in Millionen	1.17	3.79	37.58	57.61	22.71	8.40	5.89	30.91	42.87
GFLOPs	77.88	284.37	848.54	206.83	375.92	204.57	328.43	999.04	209.57
Avg DSC [%]	64.53	66.61	71.85	74.95	78.55	75.55	74.47	78.17	85.81

Cross‑Training

Um die Generalisierungsfähigkeit von PRISMS zu evaluieren, wurde ein Cross‑Training‑Szenario durchgeführt: Ein ausschließlich auf BraTS2018 trainiertes Modell wurde unverändert auf den BraTS2020‑Datensatz angewendet. Damit kein Daten‑Leakage entsteht, wurden alle Fälle, die bereits in BraTS2018 enthalten sind, aus BraTS2020 entfernt.

Die Ergebnisse sind in Tab. 6 dargestellt. Während alle verglichenen Modelle im domänenfremden Setting an Genauigkeit einbüßen, bleibt der Leistungsabfall bei PRISMS deutlich geringer. Insbesondere vergrößert sich der Abstand zu den konkurrierenden Ansätzen nochmals, was die Robustheit und die bessere Übertragbarkeit der innerhalb von PRISMS gelernten Cross‑Modal‑Repräsentationen unterstreicht.

Tabelle 6: Cross-Training
Typ	Methode	DSC (%)	p‑value	HD (mm)	p‑value
WT	HeMIS	81.89	<0.001	23.55	<0.001
	U‑HVED	83.12	<0.001	20.01	<0.001
	RobustMSeg	86.43	<0.001	10.04	<0.001
	RFNet	88.63	<0.001	5.90	<0.001
	mmFormer	87.93	<0.001	5.33	<0.001
	PRISMS	90.00	–	4.31	–
TC	HeMIS	71.03	<0.001	25.58	<0.001
	U‑HVED	73.38	<0.001	19.47	<0.001
	RobustMSeg	78.12	<0.001	9.87	<0.001
	RFNet	83.05	<0.001	5.73	<0.001
	mmFormer	82.64	<0.001	6.30	<0.001
	PRISMS	84.82	–	4.67	–
ET	HeMIS	59.67	<0.001	16.08	<0.001
	U‑HVED	62.15	<0.001	10.53	<0.001
	RobustMSeg	66.54	<0.001	6.89	<0.001
	RFNet	72.13	<0.001	5.10	0.018
	mmFormer	71.15	<0.001	5.22	0.002
	PRISMS	73.61	–	4.28	–

Tabelle 7: BraTS2021
Typ	Methode	DSC (%)	p‑value	HD (mm)	p‑value
WT	HeMIS	78.75	<0.001	24.62	<0.001
	U‑HVED	80.75	<0.001	24.54	<0.001
	RobustMSeg	83.64	<0.001	22.17	<0.001
	RFNet	87.16	<0.001	9.64	<0.001
	mmFormer	87.13	<0.001	7.51	<0.001
	PRISMS	88.33	–	6.37	–
TC	HeMIS	66.05	<0.001	23.62	<0.001
	U‑HVED	70.50	<0.001	24.62	<0.001
	RobustMSeg	74.25	<0.001	12.54	<0.001
	RFNet	80.56	<0.001	7.50	<0.001
	mmFormer	80.90	<0.001	6.84	<0.001
	PRISMS	83.20	–	5.38	–
ET	HeMIS	54.93	<0.001	17.61	<0.001
	U‑HVED	60.41	<0.001	18.03	<0.001
	RobustMSeg	64.23	<0.001	10.07	<0.001
	RFNet	70.13	<0.001	6.18	<0.001
	mmFormer	70.40	<0.001	5.78	<0.001
	PRISMS	73.76	–	4.88	–

Quellen

[1] Touvron, H., Cord, M., Sablayrolles, A., Synnaeve, G., & Jégou, H. (2021). Going Deeper with Image Transformers. arXiv preprint arXiv:2103.17239. doi:10.48550/arXiv.2103.17239 [2] https://arxiv.org/abs/2106.14591 [3] https://arxiv.org/abs/2204.02961