Zwiększenie pola recepcyjnego modeli jest kluczowe dla skutecznej segmentacji obrazów medycznych 3D

Traditionele convolutionele neurale netwerken (CNN’s) hebben vaak moeite om globale informatie uit hoogwaardige 3D-medische beelden vast te leggen. Een voorgestelde oplossing is het gebruik van grotere kernelconvoluties om een breder scala aan kenmerken vast te leggen. Echter, op CNN gebaseerde benaderingen hebben ondersteuning nodig om relaties tussen verre pixels te vangen.

Onlangs is uitgebreid onderzoek uitgevoerd naar transformerarchitecturen, waarbij zelfaandachtsmechanismen worden gebruikt om wereldwijde informatie voor 3D-medische beeldsegmentatie te extraheren, zoals TransBTS, dat 3D-CNN combineert met transformers om zowel lokale ruimtelijke kenmerken als wereldwijde afhankelijkheden in hoog-niveau kenmerken vast te leggen; UNETR, dat Vision Transformers (ViTs) overneemt als zijn encoders voor het leren van contextuele informatie. Echter, op transformer gebaseerde methoden stuiten vaak op computationele moeilijkheden met betrekking tot de hoge resolutie van 3D-medische beelden, wat leidt tot verminderde prestaties.

Om de uitdagingen van het modelleren van lange sequenties aan te pakken, hebben onderzoekers eerder een toestandsruimtemodel (SSM) geïntroduceerd genaamd Mamba, dat efficiënt modelleren van langdurige afhankelijkheden mogelijk maakt met behulp van selectiemechanismen en hardwarebewuste algoritmes. Diverse studies zijn uitgevoerd waarbij Mamba is toegepast op computervisietaken. Zo integreert U-Mamba de Mamba-laag om de segmentatie van medische beelden te verbeteren.

Tegelijkertijd stelt Vision Mamba het Vim-blok voor, dat een bidirectioneel SSM-model bevat voor het modelleren van globaal visueel context en positionele embeddings voor het begrijpen van ruimtelijk bewustzijn. VMamba introduceert ook de CSM-module om het verschil tussen 1-D-reeksverwerking en 2-D-vlakscanning te overwinnen. Echter, traditionele transformerblokken hebben moeite met het verwerken van grote kenmerken, waarbij het modelleren van correlaties binnen kenmerken met hoge dimensies nodig is om visueel begrip te verbeteren.

Geïnspireerd door dit, hebben onderzoekers van de Beijing Academy of Artificial Intelligence SegMamba geïntroduceerd, een nieuwe architectuur die een “U”-vormige structuur combineert met Mamba om globale kenmerken van het hele volume op verschillende schalen te modelleren, specifiek voor 3D-medische beeldsegmentatie. SegMamba toont aanzienlijke capaciteiten in het modelleren van langdurige afhankelijkheden binnen volumetrische gegevens, met behoud van uitzonderlijke inferentiesnelheid in vergelijking met traditionele CNN- en op transformer gebaseerde benaderingen.

Onderzoekers hebben uitgebreide experimenten uitgevoerd op de BraTS2023 dataset om de effectiviteit en efficiëntie van SegMamba in 3D-medische beeldsegmentatietaken te bevestigen. In tegenstelling tot op transformer gebaseerde methoden, maakt SegMamba gebruik van principes van toestandsruimtemodellering om functies nauwkeurig te modelleren over het hele volume, terwijl het een uitstekende verwerkingssnelheid garandeert. Zelfs met volumetrische kenmerken van een resolutie van 64 × 64 × 64 (gelijk aan een sequentielengte van ongeveer 260k), vertoont SegMamba opmerkelijke prestaties.

Raadpleeg het wetenschappelijke artikel en het project op Github voor meer informatie. Alle credits voor deze studie gaan naar de onderzoekers achter dit project. Vergeet niet ons te volgen op Twitter en Google News. Sluit je aan bij onze ML-community met meer dan 36k abonnees, een Facebook-groep met meer dan 41k leden, een Discord-kanaal en een LinkedIn-groep.

Als je ons werk waardeert, zul je dol zijn op onze nieuwsbrief.

Vergeet ook niet om lid te worden van ons Telegram-kanaal.

FAQ:

1. Wat zijn traditionele convolutionele neurale netwerken (CNN)?
Traditionele convolutionele neurale netwerken (CNN’s) zijn een machine learning-techniek die wordt gebruikt voor het analyseren en verwerken van visuele gegevens, zoals afbeeldingen.

2. Hoe behandelen traditionele convolutionele neurale netwerken (CNN’s) 3D-medische beelden?
Traditionele convolutionele neurale netwerken (CNN’s) kunnen moeite hebben om globale informatie in hoogwaardige 3D-medische beelden op te nemen.

3. Wat zijn de voorgestelde oplossingen voor dit probleem?
Een voorgestelde oplossing is het gebruik van grotere kernelconvoluties om een breder scala aan kenmerken vast te leggen. Er is ook een benadering die gebruikmaakt van transformers, zoals TransBTS en UNETR.

4. Wat is Mamba?
Mamba is een toestandsruimtemodel (SSM) dat efficiënt modelleren van langdurige afhankelijkheden mogelijk maakt met behulp van selectiemechanismen en hardwarebewuste algoritmes.

5. Hoe is het Mamba-model toegepast in computervisietaken?
U-Mamba maakt gebruik van de Mamba-laag om de segmentatie van medische beelden te verbeteren.

6. Wat is Vision Mamba?
Vision Mamba stelt het Vim-blok voor, dat een bidirectioneel SSM-model bevat voor het modelleren van globaal visueel context en positionele embeddings voor het begrijpen van ruimtelijk bewustzijn.

7. Hoe verschilt SegMamba van traditionele CNN- en op transformer gebaseerde benaderingen?
SegMamba combineert een “U”-vormige structuur met Mamba om globale kenmerken van het hele volume op verschillende schalen te modelleren. Het vertoont ook uitzonderlijke inferentieprestaties.

8. Welke experimenten zijn uitgevoerd op SegMamba?
Onderzoekers hebben uitgebreide experimenten uitgevoerd op de BraTS2023 dataset om de effectiviteit en efficiëntie van SegMamba in 3D-medische beeldsegmentatietaken te bevestigen.

Belangrijke Termdefinities:

– Convolutionele Neurale Netwerken (CNN): Machine learning-techniek die wordt gebruikt voor het analyseren en verwerken van visuele gegevens, zoals afbeeldingen.

– Hoogwaardige 3D-medische beelden: Medische beelden met een hoog detailniveau in drie dimensies.

– Transformer: Machine learning-model dat zelfaandachtsmechanismen gebruikt om wereldwijde informatie te extraheren en relaties tussen gegevens op te bouwen.

Voorgestelde Links:

– Github
– Twitter
– Google Nieuws
– Telegramkanaal

The source of the article is from the blog rugbynews.at