Ergebnisse

Datensätze

Für die Evaluation werden zwei Datensätze aus der “Multimodal Brain Tumor Segmentation Challenge (BRATS)” herangezogen. Beide Datensätze enthalten MRT-Bilder aus vier Modalitäten: Flair, T1ce, T2 und T1. Wie in [1–3] beschrieben, wurden zunächst die schwarzen Hintergrundregionen entfernt, und jede Modalität wurde anschließend auf einen Nullmittelwert und eine Einheitsvarianz normalisiert. Für den BRATS2018-Datensatz wurden die Datenaufteilungen aus [1] und [3] übernommen, sodass die Fälle in 199 Trainings-, 29 Validierungs- und 57 Testbeispiele unterteilt wurden. Beim BRATS2020-Datensatz, der 369 Fälle umfasst, erfolgte eine Aufteilung in 219 Trainings-, 50 Validierungs- und 100 Testbeispiele – hier wurde die Methodik aus [3] strikt eingehalten. Zur Evaluierung wurden sowohl der Dice Similarity Coefficient (DSC) als auch die Hausdorff-Distanz (HD) verwendet.

Implementierungsdetails

Das Framework wurde in PyTorch implementiert und mit dem AdamW-Optimierer trainiert. Dabei kam eine initiale Lernrate von \(2 \times 10^{-4}\) sowie ein Weight Decay von \(1 \times 10^{-4}\) zum Einsatz; die Batch-Größe betrug 2. Das Training fand über 1000 Epochen auf Google Colab Premium statt. Zur Anpassung der Lernrate wurde eine adaptive Strategie („why-uop learning rate scheduling“) genutzt, die mit einem Poly-Decay-Verfahren (mit \(p = 0.9\)) kombiniert wurde.

Gemäß [1–3] erfolgte das Training im VTD-Szenario, wobei modalitiespezifische Maskierung zur Simulation fehlender Modalitäten eingeführt wurde. Jedes Volumen wurde dabei zufällig auf eine Größe von \(80 \times 80 \times 80\) Pixeln zugeschnitten und zusätzlich durch zufällige Rotationen, Intensitätsänderungen sowie Mirror-Flips augmentiert. In Bezug auf die Positional Embeddings wurden, analog zu dem Inter-Modal Transformer im mmFormer, lernbare Positions-Embeddings den Fusionstokens hinzugefügt – ein Konzept, das dem großen Class-Token im ViT ähnelt.

Vergleich mit state-of-the-art Methoden

Basierend auf der Verfügbarkeit von Open-Source-Code sowie den öffentlich zugänglichen Datenaufteilungen wurden fünf moderne Ansätze für die unvollständige multimodale Hirntumorsegmentierung ausgewählt. Für den Vergleich wurden identische Datensplits verwendet. Zu den ausgewählten Methoden zählen sowohl CNN-basierte Ansätze – namentlich HeMIS [A], U-HVED [B], RobustMSeg [C] und RFNet [D] – als auch der transformerbasierte Ansatz mmFormer [E].

1) Quantitativer Vergleich

In Tab. 1 sind die Ergebnisse aller 15 multimodalen Modalitätskombinationen auf dem BraTS2018-Datensatz aufgeführt. Unter den etablierten State‑of‑the‑Art-Methoden erzielt RFNet die besten Mittelwerte für Whole Tumor (WT), Tumor Core (TC) und Enhancing Tumor (ET) und übertrifft mmFormer in 40 von 45 Kombinationen. PRISMS hingegen liefert in allen 45 Konstellationen durchgängig höhere Dice-Werte als sowohl mmFormer als auch RFNet – und zwar für WT, TC und ET gleichermaßen.

Ein ähnliches Bild zeigt sich in Tab. 2 (z. B. auf BraTS2020 oder im UTD-Szenario): Die größten Leistungsgewinne durch PRISMS treten in den schwierigeren Klassen auf (Reihenfolge der Schwierigkeit: WT < TC < ET. Dies unterstreicht, dass PRISMS cross‑modale Informationen besonders effektiv nutzt, was gerade in herausfordernden Settings (UTD vs. VTD) entscheidend ist. Zusätzlich belegen die angeführten p‑Werte die statistische Signifikanz dieser Verbesserungen.

Schließlich werden in Tab. 3 die gleichen Methoden anhand der Hausdorff-Distanz (HD) verglichen. Auch hier zeigt PRISMS durchweg niedrigere HD-Werte als die Konkurrenz, was auf eine präzisere Formwiedergabe der Segmentierungen hinweist.

Tabelle 1 BraTS2018
TypModelFlairAvg.p‑value
T1
T1ce
T2
WTHeMIS78.3155.8253.2375.1680.6263.2881.1480.3083.1382.2483.7784.8285.1981.8385.8576.9876.98<0.001
U‑HVED80.1161.4157.0377.3082.9266.8282.5982.0685.4284.0785.6486.1987.3783.3687.6879.3379.33<0.001
RobustMSeg83.4370.6667.9180.2085.5674.5585.7585.2187.7686.4888.7388.2688.3385.9688.6583.1683.160.001
RFNet84.6876.3376.1685.6986.6979.5488.0586.6088.2088.3588.7689.0189.1987.1789.4685.5985.590.006
mmFormer84.2875.2473.3685.0186.1078.6087.3986.0088.0088.1188.5188.4989.0186.6189.1984.9384.930.002
PRISMS86.9277.7877.2187.1588.0781.0688.3787.4589.2488.8588.9589.3989.7888.0089.7386.5386.53--
TCHeMIS56.6862.4933.1846.2574.9566.2851.9058.7359.2173.6075.3160.3477.1175.9377.4563.2963.29<0.001
U‑HVED58.8367.7941.6843.6676.2670.7751.8860.8960.8975.2376.3062.2677.9576.9978.3765.3265.32<0.001
RobustMSeg65.8677.4355.6155.7383.9180.7268.3770.4570.5181.1182.2672.3982.7084.0283.1874.2874.280.001
RFNet69.6981.8865.9268.1484.0282.3673.9272.5473.0682.8783.8974.6883.6984.7784.4877.7377.730.016
mmFormer67.9779.0162.0664.8082.2681.3772.7271.3871.9382.0483.4274.0983.2383.4384.0076.2576.250.002
PRISMS72.3782.6066.2469.8985.2383.4574.0874.4575.4084.7885.2676.4885.2985.4685.6779.1179.11--
ETHeMIS30.0657.086.6020.6363.9659.1714.8329.8831.4865.6268.1629.7464.6664.8266.6944.8944.89<0.001
U‑HVED30.8559.4913.1813.4064.6664.1818.9832.9832.7364.2966.5631.8466.6067.2168.4646.3646.36<0.001
RobustMSeg37.1363.9926.3028.9266.9367.2436.2440.5440.2666.9267.9042.3865.7068.8769.3652.5852.580.001
RFNet38.1174.4736.2636.9876.7273.4939.8442.0942.8577.6578.2644.5274.5576.8476.6559.2959.290.006
mmFormer37.1975.3732.4531.5974.4776.3038.7640.2641.0976.8379.5343.0177.1774.8877.6958.4458.440.002
PRISMS46.4178.9237.2437.9880.9380.7743.4847.2349.1282.0582.1949.7980.5680.8280.6163.8763.87--

Tabelle 2 BraTS2020
TypModelFlairAvg.p‑value
T1
T1ce
T2
WTHeMIS76.0758.2651.2379.5280.6964.6983.7479.4684.6383.5685.5585.9787.2682.3588.0078.0778.07<0.001
U‑HVED80.0262.3155.1379.8882.3064.7483.0581.5986.6384.7385.8087.1687.7882.7788.0679.4679.46<0.001
RobustMSeg83.0071.6167.7382.4286.1076.3187.1985.6488.3487.7588.6989.0289.2886.4989.5783.9483.94<0.001
RFNet86.5576.7476.8286.9788.1680.5089.3787.9789.6389.4390.2490.4290.3888.5490.8986.8486.84<0.001
mmFormer85.3774.8674.9186.2787.3579.6188.9187.1989.0489.0389.6189.9689.8287.8590.3186.0186.01<0.001
PRISMS87.2078.8079.1588.7088.6782.4090.3088.3490.5690.3891.0090.9191.1689.0191.3687.86--
TCHeMIS56.7166.3534.8153.3176.3470.4960.2959.6063.8273.8775.6365.1077.7977.4178.3465.9965.99<0.001
U‑HVED62.3569.7043.5751.9278.6873.5058.1765.1065.3176.0577.9366.8980.0479.6880.4968.6368.63<0.001
RobustMSeg63.8777.9553.2957.2883.5581.5167.0169.6569.3581.9382.4770.6483.1784.3883.3973.9673.96<0.001
RFNet69.8581.7264.7868.8284.7582.4273.3872.0373.7085.4684.6274.1585.4784.1085.0978.0278.020.018
mmFormer70.2180.7464.2467.8084.3082.0071.8372.6172.8284.4484.5973.9084.6384.2884.4977.5377.53<0.001
PRISMS72.3181.8566.7572.2084.6283.7074.4473.5675.4285.5485.8276.1485.2784.9085.4379.20--
ETHeMIS30.5261.7012.4726.2568.6065.4029.5732.6635.8767.5668.1636.7368.2170.0169.3949.5449.54<0.001
U‑HVED37.3065.7719.9519.3269.5667.7028.8438.7938.1868.0370.2139.0770.9470.1172.4151.7551.75<0.001
RobustMSeg40.1474.1625.4232.6774.8073.9838.6142.2142.4175.6276.9945.1073.3974.6874.4257.6457.64<0.001
RFNet47.7575.6534.8540.4076.0278.1844.6247.8247.9675.1778.4248.8676.3878.2776.5061.7961.79<0.001
mmFormer46.1276.4534.7838.3975.2977.1241.1748.0747.9877.2277.1348.7776.3676.6978.1161.3161.31<0.001
PRISMS51.5082.5740.8743.3982.3583.8147.0449.9053.8783.0784.1253.3381.2382.3682.1766.77--

Tabelle 3 HD auf BraTS2018 und BraTS2020
TypMethodeBraTS2018 (HD)BraTS2020 (HD)
WTHeMIS26.7227.32
U‑HVED25.1028.00
RobustMSeg11.3713.05
RFNet7.248.42
mmFormer7.307.71
PRISMS6.385.68
TCHeMIS27.9925.27
U‑HVED25.1823.77
RobustMSeg11.7412.70
RFNet7.248.42
mmFormer7.307.71
PRISMS6.606.49
ETHeMIS15.4816.70
U‑HVED13.4814.86
RobustMSeg8.289.04
RFNet7.248.42
mmFormer7.307.71
PRISMS5.955.02

2) Qualitiativer Vergleich

Qualitiatver Vergleich auf BraTS2018 und BraTS2020

Segmentierungsergebnisse auf BraTS2018 und BraTS2020


Hier sind die Quellenangaben in einem einheitlichen, vollständigen Format:

[1] Dorent, R., Joutard, S., Modat, M., Ourselin, S., & Vercauteren, T. (2019). Hetero‑Modal Variational Encoder‑Decoder for Joint Modality Completion and Segmentation. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2019 (pp. 87–95). Springer. https://arxiv.org/abs/1907.11150 [2] Chen, C., Dou, Q., Jin, Y., Chen, H., Qin, J., & Heng, P.‑A. (2020). Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion. CoRR, abs/2002.09708. arXiv:2002.09708 citeturn1search0

[3] Sun, L., Yang, K., Hu, X., Hu, W., & Wang, K. (2020). Real‑time Fusion Network for RGB‑D Semantic Segmentation Incorporating Unexpected Obstacle Detection for Road‑driving Images. CoRR, abs/2002.10570. https://github.com/dyh127/RFNet


[A] Havaei, M., Davy, A., Warde‑Farley, D., et al. (2016). HeMIS: Hetero‑modal Image Segmentation. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2016 (LNCS 9901, pp. 111–119). https://arxiv.org/abs/1607.05194

[B] Dorent, R., Joutard, S., Modat, M., Ourselin, S., & Vercauteren, T. (2019). Hetero‑Modal Variational Encoder‑Decoder for Joint Modality Completion and Segmentation. https://arxiv.org/pdf/1907.11150

[C] Chen, C., Dou, Q., Jin, Y., Chen, H., Qin, J., & Heng, P.‑A. (2020). Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement and Gated Fusion. https://arxiv.org/pdf/2002.09708

[D] Sun, L., Yang, K., Hu, X., Hu, W., & Wang, K. (2020). Real‑time Fusion Network for RGB‑D Semantic Segmentation Incorporating Unexpected Obstacle Detection for Road‑driving Images. https://arxiv.org/abs/2002.10570

[E] Zhang, Y., He, N., Yang, J., Li, Y., Wei, D., Huang, Y., Zhang, Y., He, Z., & Zheng, Y. (2022). mmFormer: Multimodal Medical Transformer for Incomplete Multimodal Learning of Brain Tumor Segmentation. In Medical Image Computing and Computer Assisted Intervention – MICCAI 2022 (LNCS 13332, pp. 71–83). https://arxiv.org/abs/2206.02425