Ergebnisse

Komponenten‑Ablation

Um den Beitrag einzelner Bausteine zu verstehen, wurde eine schrittweise Ablation durchgeführt:

  • Baseline (nur Encoder+Decoder, keine Regularisierung): Die Segmentierung ist in allen drei Klassen (WT, TC, ET) deutlich zu schwach – ein Decoder ohne Ausgleichsmechanismen neigt dazu, nur die dominanten Modalitäten zu nutzen.

  • +Geteilter Decoder (Reg): Der gemeinsame Decoder erzwingt ein modalitätsunabhängiges Feature‑Learning. Dadurch sinkt der Bias gegenüber stark vertretenen Modalitäten und die Gesamtleistung steigt moderat.

  • +Adaptive Fusion Transformer (AFT): Mit dem AFT erscheinen erstmals deutliche Sprünge, besonders in der schwierigen ET‑Klasse. Damit wird die Wirksamkeit einer globalen, maskierten Attention auf fehlende Modalitäten empirisch bestätigt.

  • +SRA bzw. KFT: Sowohl die Spatial Relevance Attention (SRA) als auch der Kanalbezogene Fusion‑Transformer (KFT) verbessern die Balance der Feature‑Fusion, ohne andere Modalitäten nennenswert zu beeinträchtigen.

  • Vollausbau: Werden alle Komponenten kombiniert, ergibt sich eine mittlere Dice‑Steigerung von 2,49%/3,53%/6,99% (WT/TC/ET) gegenüber der reinen AFT‑Baseline.

KFT‑Einsatz in Skip‑Connections

PRISMS wendet die räumliche Gewichtung (SRA) auf allen Skip‑Connections an. KFT‑Module werden dagegen nur in den unteren beiden Ebenen platziert:

  • Eine gezielte Ablation (Tab.2) zeigt, dass bereits ein KFT‑Layer in der tiefsten Skip‑Connection den DSC im Schnitt um 0,82% hebt.
  • Werden KFTs in die beiden tiefsten Ebenen eingefügt, steigt die mittlere Verbesserung auf 0,35% gegenüber einem Einzel‑KFT.
  • Eine aggressive Ausweitung auf alle Skip‑Connections verschlechtert die Leistung – hochaufgelöste Features der oberen Ebenen sind weniger diskriminativ, was eine kanalweise Neugewichtung erschwert.
Tabelle 1 Komponenten Ablation
Komponenten∅DSC(%)Komplexität
RegAFTKFTSRAWTTCETParamsGFLOPs
85.3775.6759.7873.6129.00197.818
86.1677.6861.8575.23+0.00+0.000
87.1578.5064.2476.63+10.44+7.851
87.3878.6365.5377.18+13.87+11.750
87.4578.9564.5576.98+10.44+7.856
87.8679.2066.7777.94+13.87+11.754
Tabelle 2 KFT-Abaltion: Die Stage gibt an, über wie viele Skip‑Connections der Encoder mit dem KFT verwendet wird.
StageSRA∅DSC(%)Komplexität
WTTCETParamsGFLOPs
087.1578.5064.2476.6339.44205.670
087.4578.9564.5576.98+0.00+0.005
187.6278.8865.8677.45+2.63+1.151
287.8679.2066.7777.94+3.43+3.903
387.6078.9965.3977.33+3.69+11.241
487.3978.5466.1177.35+3.79+33.253
587.3278.7266.1477.39+3.83+106.621

Hyperparameter

Zur Bewertung des Adaptive Fusion Transformer (AFT) wurde eine Ablationsstudie mit unterschiedlicher Layer‑Tiefe durchgeführt (Tab.3). Bereits ein einziger AFT‑Layer verbessert die Baseline deutlich – im Mittel um ≈3,1 Dice‑Prozentpunkte. Werden zusätzliche AFT‑Layer hinzugefügt, steigt die Leistung dagegen kaum weiter an. Der Grund liegt in der datenintensiven Natur von Transformer‑Schichten: Ab einer gewissen Tiefe tendieren die Self‑Attention‑Matrizen zu „uniformen“ Verteilungen[1], sodass zusätzliche Layer nur noch begrenzten Mehrwert bieten.

Ein zweiter zentraler Hyperparameter ist die Anzahl der Kanalbezogenen Fusionstransformer (KFT). Tab.4 zeigt, dass ein einzelner KFT‑Layer bereits merklich hilft, indem er Redundanzen entlang der Kanäle reduziert und kompaktere, modalitätsspezifische Features lernt. Fügt man jedoch zu viele KFT‑Layer hinzu, kippt der Effekt: Die fortlaufende Re‑Gewichtung entlang der Kanaldimension dämpft zunehmend die räumlichen Informationen und führt zu Leistungseinbußen.

Interessant ist zudem die Modellkomplexität: Ein einzelnes KFT‑Modul ersetzt die konventionellen Convolution‑Skip‑Connections im mmFormer‑Backbone und reduziert dadurch die Parameterzahl – trotz seines Transformer‑Anteils. Damit bietet die Kombination „1×AFT+1×KFT“ einen guten Kompromiss aus Genauigkeit und Effizienz.

Tabelle 3 Anzahl AFT Layer
L₁WTTCET∅DSC(%)ParamsGFLOPs
086.1677.6861.8575.2329.0197.78
187.6979.1165.3577.38+9.14+5.851
287.7779.2066.3477.77+11.50+8.803
387.8679.2066.7777.94+13.87+11.754
Tabelle 4: Anzahl KFT layer
L₂WTTCET∅DSC(%)ParamsGFLOPs
087.4578.9564.5576.9839.44205.674
187.5879.0565.9377.52-0,01+0.076
287.8679.2066.7777.94+3.43+3.899
387.6879.2066.1077.66+6.86+7.721
487.4679.2465.6577.51+10.30+11.544
TypMethodeBraTS2018 (HD)BraTS2020 (HD)
WTHeMIS26.7227.32
U‑HVED25.1028.00
RobustMSeg11.3713.05
RFNet7.248.42
mmFormer7.307.71
PRISMS6.385.68
TCHeMIS27.9925.27
U‑HVED25.1823.77
RobustMSeg11.7412.70
RFNet7.248.42
mmFormer7.307.71
PRISMS6.606.49
ETHeMIS15.4816.70
U‑HVED13.4814.86
RobustMSeg8.289.04
RFNet7.248.42
mmFormer7.307.71
PRISMS5.955.02

Vergleich mit distillations­basierten Multi‑Model‑Ansätzen

Für den direkten Vergleich wurden bewusst ausschließlich Single‑Model‑Methoden des aktuellen State of the Art herangezogen. Distillations­basierte Verfahren wie ACN [2] und SMU‑Net [3] trainieren dagegen für jede Modalitäts­konstellation ein eigenes Modell (insgesamt 15 Modelle). Ihre Ergebnisse sind in Tab. 5 zusammengefasst.

Ein wichtiger Unterschied liegt in der Eingabe­auflösung: ACN und SMU‑Net verarbeiten Volumina mit \(160 \times 192 \times 128\) Voxel, während PRISMS aus Hardware‑Gründen mit \(80 \times 80 \times 80\) Voxel operiert. Trotz dieses handfesten Nachteils erzielt PRISMS:

  • 38 / 45 bessere Ergebnisse gegenüber ACN
    • durchschnittliche Dice‑Steigerung: +1.0 % (WT), +4.5 % (TC), +2.1 % (ET)
  • 38 / 45 bessere Ergebnisse gegenüber SMU‑Net
    • durchschnittliche Dice‑Steigerung: +0.4 % (WT), +3.4 % (TC), +1.0 % (ET)

Diese Resultate unterstreichen die Effizienz der präferenz­gesteuerten Selbstdistillation von PRISMS selbst bei halbierter Eingabe­größe. Da höhere Auflösungen erfahrungsgemäß zusätzliche Detail­informationen liefern, ist bei einer Skalierung auf größere Volumina eine weitere Leistungs­steigerung zu erwarten.

Tabelle 5: KD-Verfahren
TypFlairAvg.
T1
T1ce
T2
WTACN85.479.878.787.384.979.686.084.486.987.888.487.487.286.689.185.30
SMU‑Net85.780.378.687.586.180.387.385.687.988.488.288.388.286.588.985.85
PRISMS83.578.978.087.786.382.588.986.088.789.489.589.289.687.189.686.33
TCACN66.883.370.966.483.283.970.472.870.782.983.367.782.983.284.876.88
SMU‑Net67.284.169.571.885.084.471.273.571.284.184.267.982.584.487.377.89
PRISMS70.887.771.070.888.288.475.474.673.788.388.575.888.288.688.481.23
ETACN41.778.041.842.274.975.342.546.544.377.575.142.873.875.978.260.70
SMU‑Net43.178.342.846.175.775.144.047.746.077.376.243.175.476.279.361.75
PRISMS47.579.039.732.879.479.841.048.648.479.279.549.179.479.679.462.83

Modelleffizents

Vergleich verschiedener sota Modelle

MethodeHeMISU‑HVEDRobustMSegmmFormerMAMLRFNetRA‑HVEDU‑Net‑MFIPRISMS
Parameter in Millionen1.173.7937.5857.6122.718.405.8930.9142.87
GFLOPs77.88284.37848.54206.83375.92204.57328.43999.04209.57
Avg DSC [%]64.5366.6171.8574.9578.5575.5574.4778.1785.81

Cross‑Training

Um die Generalisierungsfähigkeit von PRISMS zu evaluieren, wurde ein Cross‑Training‑Szenario durchgeführt: Ein ausschließlich auf BraTS2018 trainiertes Modell wurde unverändert auf den BraTS2020‑Datensatz angewendet. Damit kein Daten‑Leakage entsteht, wurden alle Fälle, die bereits in BraTS2018 enthalten sind, aus BraTS2020 entfernt.

Die Ergebnisse sind in Tab. 6 dargestellt. Während alle verglichenen Modelle im domänen­fremden Setting an Genauigkeit einbüßen, bleibt der Leistungsabfall bei PRISMS deutlich geringer. Insbesondere vergrößert sich der Abstand zu den konkurrierenden Ansätzen nochmals, was die Robustheit und die bessere Übertragbarkeit der innerhalb von PRISMS gelernten Cross‑Modal‑Repräsentationen unterstreicht.

Tabelle 6: Cross-Training
TypMethodeDSC (%)p‑valueHD (mm)p‑value
WTHeMIS81.89<0.00123.55<0.001
U‑HVED83.12<0.00120.01<0.001
RobustMSeg86.43<0.00110.04<0.001
RFNet88.63<0.0015.90<0.001
mmFormer87.93<0.0015.33<0.001
PRISMS90.004.31
TCHeMIS71.03<0.00125.58<0.001
U‑HVED73.38<0.00119.47<0.001
RobustMSeg78.12<0.0019.87<0.001
RFNet83.05<0.0015.73<0.001
mmFormer82.64<0.0016.30<0.001
PRISMS84.824.67
ETHeMIS59.67<0.00116.08<0.001
U‑HVED62.15<0.00110.53<0.001
RobustMSeg66.54<0.0016.89<0.001
RFNet72.13<0.0015.100.018
mmFormer71.15<0.0015.220.002
PRISMS73.614.28
Tabelle 7: BraTS2021
TypMethodeDSC (%)p‑valueHD (mm)p‑value
WTHeMIS78.75<0.00124.62<0.001
U‑HVED80.75<0.00124.54<0.001
RobustMSeg83.64<0.00122.17<0.001
RFNet87.16<0.0019.64<0.001
mmFormer87.13<0.0017.51<0.001
PRISMS88.336.37
TCHeMIS66.05<0.00123.62<0.001
U‑HVED70.50<0.00124.62<0.001
RobustMSeg74.25<0.00112.54<0.001
RFNet80.56<0.0017.50<0.001
mmFormer80.90<0.0016.84<0.001
PRISMS83.205.38
ETHeMIS54.93<0.00117.61<0.001
U‑HVED60.41<0.00118.03<0.001
RobustMSeg64.23<0.00110.07<0.001
RFNet70.13<0.0016.18<0.001
mmFormer70.40<0.0015.78<0.001
PRISMS73.764.88

Quellen

[1] Touvron, H., Cord, M., Sablayrolles, A., Synnaeve, G., & Jégou, H. (2021). Going Deeper with Image Transformers. arXiv preprint arXiv:2103.17239. doi:10.48550/arXiv.2103.17239 [2] https://arxiv.org/abs/2106.14591 [3] https://arxiv.org/abs/2204.02961