Ergebnisse
Komponenten‑Ablation
Um den Beitrag einzelner Bausteine zu verstehen, wurde eine schrittweise Ablation durchgeführt:
Baseline (nur Encoder+Decoder, keine Regularisierung): Die Segmentierung ist in allen drei Klassen (WT, TC, ET) deutlich zu schwach – ein Decoder ohne Ausgleichsmechanismen neigt dazu, nur die dominanten Modalitäten zu nutzen.
+Geteilter Decoder (Reg): Der gemeinsame Decoder erzwingt ein modalitätsunabhängiges Feature‑Learning. Dadurch sinkt der Bias gegenüber stark vertretenen Modalitäten und die Gesamtleistung steigt moderat.
+Adaptive Fusion Transformer (AFT): Mit dem AFT erscheinen erstmals deutliche Sprünge, besonders in der schwierigen ET‑Klasse. Damit wird die Wirksamkeit einer globalen, maskierten Attention auf fehlende Modalitäten empirisch bestätigt.
+SRA bzw. KFT: Sowohl die Spatial Relevance Attention (SRA) als auch der Kanalbezogene Fusion‑Transformer (KFT) verbessern die Balance der Feature‑Fusion, ohne andere Modalitäten nennenswert zu beeinträchtigen.
Vollausbau: Werden alle Komponenten kombiniert, ergibt sich eine mittlere Dice‑Steigerung von 2,49%/3,53%/6,99% (WT/TC/ET) gegenüber der reinen AFT‑Baseline.
KFT‑Einsatz in Skip‑Connections
PRISMS wendet die räumliche Gewichtung (SRA) auf allen Skip‑Connections an. KFT‑Module werden dagegen nur in den unteren beiden Ebenen platziert:
- Eine gezielte Ablation (Tab.2) zeigt, dass bereits ein KFT‑Layer in der tiefsten Skip‑Connection den DSC im Schnitt um 0,82% hebt.
- Werden KFTs in die beiden tiefsten Ebenen eingefügt, steigt die mittlere Verbesserung auf 0,35% gegenüber einem Einzel‑KFT.
- Eine aggressive Ausweitung auf alle Skip‑Connections verschlechtert die Leistung – hochaufgelöste Features der oberen Ebenen sind weniger diskriminativ, was eine kanalweise Neugewichtung erschwert.
Komponenten | ∅DSC(%) | Komplexität | |||||||
---|---|---|---|---|---|---|---|---|---|
Reg | AFT | KFT | SRA | WT | TC | ET | ∅ | Params | GFLOPs |
○ | ○ | ○ | ○ | 85.37 | 75.67 | 59.78 | 73.61 | 29.00 | 197.818 |
● | ○ | ○ | ○ | 86.16 | 77.68 | 61.85 | 75.23 | +0.00 | +0.000 |
● | ● | ○ | ○ | 87.15 | 78.50 | 64.24 | 76.63 | +10.44 | +7.851 |
● | ● | ● | ○ | 87.38 | 78.63 | 65.53 | 77.18 | +13.87 | +11.750 |
● | ● | ○ | ● | 87.45 | 78.95 | 64.55 | 76.98 | +10.44 | +7.856 |
● | ● | ● | ● | 87.86 | 79.20 | 66.77 | 77.94 | +13.87 | +11.754 |
Stage | SRA | ∅DSC(%) | Komplexität | ||||
---|---|---|---|---|---|---|---|
WT | TC | ET | ∅ | Params | GFLOPs | ||
0 | ○ | 87.15 | 78.50 | 64.24 | 76.63 | 39.44 | 205.670 |
0 | ● | 87.45 | 78.95 | 64.55 | 76.98 | +0.00 | +0.005 |
1 | ● | 87.62 | 78.88 | 65.86 | 77.45 | +2.63 | +1.151 |
2 | ● | 87.86 | 79.20 | 66.77 | 77.94 | +3.43 | +3.903 |
3 | ● | 87.60 | 78.99 | 65.39 | 77.33 | +3.69 | +11.241 |
4 | ● | 87.39 | 78.54 | 66.11 | 77.35 | +3.79 | +33.253 |
5 | ● | 87.32 | 78.72 | 66.14 | 77.39 | +3.83 | +106.621 |
Hyperparameter
Zur Bewertung des Adaptive Fusion Transformer (AFT) wurde eine Ablationsstudie mit unterschiedlicher Layer‑Tiefe durchgeführt (Tab.3). Bereits ein einziger AFT‑Layer verbessert die Baseline deutlich – im Mittel um ≈3,1 Dice‑Prozentpunkte. Werden zusätzliche AFT‑Layer hinzugefügt, steigt die Leistung dagegen kaum weiter an. Der Grund liegt in der datenintensiven Natur von Transformer‑Schichten: Ab einer gewissen Tiefe tendieren die Self‑Attention‑Matrizen zu „uniformen“ Verteilungen[1], sodass zusätzliche Layer nur noch begrenzten Mehrwert bieten.
Ein zweiter zentraler Hyperparameter ist die Anzahl der Kanalbezogenen Fusionstransformer (KFT). Tab.4 zeigt, dass ein einzelner KFT‑Layer bereits merklich hilft, indem er Redundanzen entlang der Kanäle reduziert und kompaktere, modalitätsspezifische Features lernt. Fügt man jedoch zu viele KFT‑Layer hinzu, kippt der Effekt: Die fortlaufende Re‑Gewichtung entlang der Kanaldimension dämpft zunehmend die räumlichen Informationen und führt zu Leistungseinbußen.
Interessant ist zudem die Modellkomplexität: Ein einzelnes KFT‑Modul ersetzt die konventionellen Convolution‑Skip‑Connections im mmFormer‑Backbone und reduziert dadurch die Parameterzahl – trotz seines Transformer‑Anteils. Damit bietet die Kombination „1×AFT+1×KFT“ einen guten Kompromiss aus Genauigkeit und Effizienz.
L₁ | WT | TC | ET | ∅DSC(%) | Params | GFLOPs |
---|---|---|---|---|---|---|
0 | 86.16 | 77.68 | 61.85 | 75.23 | 29.0 | 197.78 |
1 | 87.69 | 79.11 | 65.35 | 77.38 | +9.14 | +5.851 |
2 | 87.77 | 79.20 | 66.34 | 77.77 | +11.50 | +8.803 |
3 | 87.86 | 79.20 | 66.77 | 77.94 | +13.87 | +11.754 |
L₂ | WT | TC | ET | ∅DSC(%) | Params | GFLOPs |
---|---|---|---|---|---|---|
0 | 87.45 | 78.95 | 64.55 | 76.98 | 39.44 | 205.674 |
1 | 87.58 | 79.05 | 65.93 | 77.52 | -0,01 | +0.076 |
2 | 87.86 | 79.20 | 66.77 | 77.94 | +3.43 | +3.899 |
3 | 87.68 | 79.20 | 66.10 | 77.66 | +6.86 | +7.721 |
4 | 87.46 | 79.24 | 65.65 | 77.51 | +10.30 | +11.544 |
Typ | Methode | BraTS2018 (HD) | BraTS2020 (HD) |
---|---|---|---|
WT | HeMIS | 26.72 | 27.32 |
U‑HVED | 25.10 | 28.00 | |
RobustMSeg | 11.37 | 13.05 | |
RFNet | 7.24 | 8.42 | |
mmFormer | 7.30 | 7.71 | |
PRISMS | 6.38 | 5.68 | |
TC | HeMIS | 27.99 | 25.27 |
U‑HVED | 25.18 | 23.77 | |
RobustMSeg | 11.74 | 12.70 | |
RFNet | 7.24 | 8.42 | |
mmFormer | 7.30 | 7.71 | |
PRISMS | 6.60 | 6.49 | |
ET | HeMIS | 15.48 | 16.70 |
U‑HVED | 13.48 | 14.86 | |
RobustMSeg | 8.28 | 9.04 | |
RFNet | 7.24 | 8.42 | |
mmFormer | 7.30 | 7.71 | |
PRISMS | 5.95 | 5.02 |
Vergleich mit distillationsbasierten Multi‑Model‑Ansätzen
Für den direkten Vergleich wurden bewusst ausschließlich Single‑Model‑Methoden des aktuellen State of the Art herangezogen. Distillationsbasierte Verfahren wie ACN [2] und SMU‑Net [3] trainieren dagegen für jede Modalitätskonstellation ein eigenes Modell (insgesamt 15 Modelle). Ihre Ergebnisse sind in Tab. 5 zusammengefasst.
Ein wichtiger Unterschied liegt in der Eingabeauflösung: ACN und SMU‑Net verarbeiten Volumina mit \(160 \times 192 \times 128\) Voxel, während PRISMS aus Hardware‑Gründen mit \(80 \times 80 \times 80\) Voxel operiert. Trotz dieses handfesten Nachteils erzielt PRISMS:
- 38 / 45 bessere Ergebnisse gegenüber ACN
- durchschnittliche Dice‑Steigerung: +1.0 % (WT), +4.5 % (TC), +2.1 % (ET)
- 38 / 45 bessere Ergebnisse gegenüber SMU‑Net
- durchschnittliche Dice‑Steigerung: +0.4 % (WT), +3.4 % (TC), +1.0 % (ET)
Diese Resultate unterstreichen die Effizienz der präferenzgesteuerten Selbstdistillation von PRISMS selbst bei halbierter Eingabegröße. Da höhere Auflösungen erfahrungsgemäß zusätzliche Detailinformationen liefern, ist bei einer Skalierung auf größere Volumina eine weitere Leistungssteigerung zu erwarten.
Typ | Flair | ○ | ○ | ○ | ● | ○ | ○ | ● | ○ | ● | ● | ● | ● | ● | ○ | ● | Avg. |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
T1 | ○ | ○ | ● | ○ | ○ | ● | ● | ● | ○ | ○ | ● | ● | ○ | ● | ● | ||
T1ce | ○ | ● | ○ | ○ | ● | ● | ○ | ○ | ○ | ● | ● | ○ | ● | ● | ● | ||
T2 | ● | ○ | ○ | ○ | ● | ○ | ○ | ● | ● | ○ | ● | ○ | ○ | ● | ● | ||
WT | ACN | 85.4 | 79.8 | 78.7 | 87.3 | 84.9 | 79.6 | 86.0 | 84.4 | 86.9 | 87.8 | 88.4 | 87.4 | 87.2 | 86.6 | 89.1 | 85.30 |
SMU‑Net | 85.7 | 80.3 | 78.6 | 87.5 | 86.1 | 80.3 | 87.3 | 85.6 | 87.9 | 88.4 | 88.2 | 88.3 | 88.2 | 86.5 | 88.9 | 85.85 | |
PRISMS | 83.5 | 78.9 | 78.0 | 87.7 | 86.3 | 82.5 | 88.9 | 86.0 | 88.7 | 89.4 | 89.5 | 89.2 | 89.6 | 87.1 | 89.6 | 86.33 | |
TC | ACN | 66.8 | 83.3 | 70.9 | 66.4 | 83.2 | 83.9 | 70.4 | 72.8 | 70.7 | 82.9 | 83.3 | 67.7 | 82.9 | 83.2 | 84.8 | 76.88 |
SMU‑Net | 67.2 | 84.1 | 69.5 | 71.8 | 85.0 | 84.4 | 71.2 | 73.5 | 71.2 | 84.1 | 84.2 | 67.9 | 82.5 | 84.4 | 87.3 | 77.89 | |
PRISMS | 70.8 | 87.7 | 71.0 | 70.8 | 88.2 | 88.4 | 75.4 | 74.6 | 73.7 | 88.3 | 88.5 | 75.8 | 88.2 | 88.6 | 88.4 | 81.23 | |
ET | ACN | 41.7 | 78.0 | 41.8 | 42.2 | 74.9 | 75.3 | 42.5 | 46.5 | 44.3 | 77.5 | 75.1 | 42.8 | 73.8 | 75.9 | 78.2 | 60.70 |
SMU‑Net | 43.1 | 78.3 | 42.8 | 46.1 | 75.7 | 75.1 | 44.0 | 47.7 | 46.0 | 77.3 | 76.2 | 43.1 | 75.4 | 76.2 | 79.3 | 61.75 | |
PRISMS | 47.5 | 79.0 | 39.7 | 32.8 | 79.4 | 79.8 | 41.0 | 48.6 | 48.4 | 79.2 | 79.5 | 49.1 | 79.4 | 79.6 | 79.4 | 62.83 |
Modelleffizents
Methode | HeMIS | U‑HVED | RobustMSeg | mmFormer | MAML | RFNet | RA‑HVED | U‑Net‑MFI | PRISMS |
---|---|---|---|---|---|---|---|---|---|
Parameter in Millionen | 1.17 | 3.79 | 37.58 | 57.61 | 22.71 | 8.40 | 5.89 | 30.91 | 42.87 |
GFLOPs | 77.88 | 284.37 | 848.54 | 206.83 | 375.92 | 204.57 | 328.43 | 999.04 | 209.57 |
Avg DSC [%] | 64.53 | 66.61 | 71.85 | 74.95 | 78.55 | 75.55 | 74.47 | 78.17 | 85.81 |
Cross‑Training
Um die Generalisierungsfähigkeit von PRISMS zu evaluieren, wurde ein Cross‑Training‑Szenario durchgeführt: Ein ausschließlich auf BraTS2018 trainiertes Modell wurde unverändert auf den BraTS2020‑Datensatz angewendet. Damit kein Daten‑Leakage entsteht, wurden alle Fälle, die bereits in BraTS2018 enthalten sind, aus BraTS2020 entfernt.
Die Ergebnisse sind in Tab. 6 dargestellt. Während alle verglichenen Modelle im domänenfremden Setting an Genauigkeit einbüßen, bleibt der Leistungsabfall bei PRISMS deutlich geringer. Insbesondere vergrößert sich der Abstand zu den konkurrierenden Ansätzen nochmals, was die Robustheit und die bessere Übertragbarkeit der innerhalb von PRISMS gelernten Cross‑Modal‑Repräsentationen unterstreicht.
Typ | Methode | DSC (%) | p‑value | HD (mm) | p‑value |
---|---|---|---|---|---|
WT | HeMIS | 81.89 | <0.001 | 23.55 | <0.001 |
U‑HVED | 83.12 | <0.001 | 20.01 | <0.001 | |
RobustMSeg | 86.43 | <0.001 | 10.04 | <0.001 | |
RFNet | 88.63 | <0.001 | 5.90 | <0.001 | |
mmFormer | 87.93 | <0.001 | 5.33 | <0.001 | |
PRISMS | 90.00 | – | 4.31 | – | |
TC | HeMIS | 71.03 | <0.001 | 25.58 | <0.001 |
U‑HVED | 73.38 | <0.001 | 19.47 | <0.001 | |
RobustMSeg | 78.12 | <0.001 | 9.87 | <0.001 | |
RFNet | 83.05 | <0.001 | 5.73 | <0.001 | |
mmFormer | 82.64 | <0.001 | 6.30 | <0.001 | |
PRISMS | 84.82 | – | 4.67 | – | |
ET | HeMIS | 59.67 | <0.001 | 16.08 | <0.001 |
U‑HVED | 62.15 | <0.001 | 10.53 | <0.001 | |
RobustMSeg | 66.54 | <0.001 | 6.89 | <0.001 | |
RFNet | 72.13 | <0.001 | 5.10 | 0.018 | |
mmFormer | 71.15 | <0.001 | 5.22 | 0.002 | |
PRISMS | 73.61 | – | 4.28 | – |
Typ | Methode | DSC (%) | p‑value | HD (mm) | p‑value |
---|---|---|---|---|---|
WT | HeMIS | 78.75 | <0.001 | 24.62 | <0.001 |
U‑HVED | 80.75 | <0.001 | 24.54 | <0.001 | |
RobustMSeg | 83.64 | <0.001 | 22.17 | <0.001 | |
RFNet | 87.16 | <0.001 | 9.64 | <0.001 | |
mmFormer | 87.13 | <0.001 | 7.51 | <0.001 | |
PRISMS | 88.33 | – | 6.37 | – | |
TC | HeMIS | 66.05 | <0.001 | 23.62 | <0.001 |
U‑HVED | 70.50 | <0.001 | 24.62 | <0.001 | |
RobustMSeg | 74.25 | <0.001 | 12.54 | <0.001 | |
RFNet | 80.56 | <0.001 | 7.50 | <0.001 | |
mmFormer | 80.90 | <0.001 | 6.84 | <0.001 | |
PRISMS | 83.20 | – | 5.38 | – | |
ET | HeMIS | 54.93 | <0.001 | 17.61 | <0.001 |
U‑HVED | 60.41 | <0.001 | 18.03 | <0.001 | |
RobustMSeg | 64.23 | <0.001 | 10.07 | <0.001 | |
RFNet | 70.13 | <0.001 | 6.18 | <0.001 | |
mmFormer | 70.40 | <0.001 | 5.78 | <0.001 | |
PRISMS | 73.76 | – | 4.88 | – |
Quellen
[1] Touvron, H., Cord, M., Sablayrolles, A., Synnaeve, G., & Jégou, H. (2021). Going Deeper with Image Transformers. arXiv preprint arXiv:2103.17239. doi:10.48550/arXiv.2103.17239 [2] https://arxiv.org/abs/2106.14591 [3] https://arxiv.org/abs/2204.02961