A hagyományos konvolúciós neurális hálózatok (CNN) gyakran nehézségekbe ütköznek a magas felbontású 3D orvosi képek globális információinak megragadásában. Egy javasolt megoldás az lenne, hogy nagyobb kernel konvolúciókat használjunk a szélesebb körű jellemzők felismerésére. Azonban a CNN-alapú megközelítések támogatást igényelnek a távoli pixelek közötti kapcsolatok megragadásában.
Mostanában széleskörű kutatásokat végeztek transzformátor architektúrákon, amelyek önmegfigyeléses mechanizmusokat alkalmaznak a 3D orvosi képek globális információinak kinyerésére. Például a TransBTS ötvözi a 3D-CNN-t transzformátorokkal, hogy megragadja a helyi térbeli jellemzőket és a globális függőségeket a magas szintű jellemzőkben; az UNETR pedig a Vision Transformer (ViT) enkódereket használja a kontextuális információk tanulásához. Azonban a transzformátor alapú módszerek gyakran számítási nehézségekkel néznek szembe a 3D orvosi képek magas felbontásával kapcsolatban, ami csökkentett teljesítményt eredményez.
A hosszú sorok modellálásának kihívásaira válaszul a kutatók korábban bevezettek egy állapotteres modellt (SSM) a Mamba nevű modellt, amely hatékony modellálást tesz lehetővé hosszú távú függőségek kiválasztási mechanizmusok és hardver-érzékeny algoritmusok használatával. Különböző tanulmányokat végeztek a Mamba alkalmazásával a számítógépes látás feladataihoz. Például az U-Mamba integrálja a Mamba réteget a képalkotó eljárások javítása érdekében.
Ugyanebben az időben a Vision Mamba az Vim blokkot vezeti be, amely magában foglal egy kétirányú SSM modellt, hogy globális vizuális kontextust és pozíciós beágyazásokat modellezzen a térbeli tudatosság megértéséhez. A VMamba bevezeti a CSM modult is, hogy leküzdje a 1D tömbfeldolgozás és a 2D síkpásztázás közötti különbséget. Azonban a hagyományos transzformátor blokkoknak nehézséget okoznak a nagyméretű jellemzők kezelése, és olyan korrelációkat kell modellezniük a magas dimenziós jellemzőkön belül, amelyek növelik a látási megértést.
Ennek hatására a Pekingi Mesterséges Intelligencia Akadémiájának kutatói bemutatják a SegMamba-t, egy új architektúrát, amely egy „U” alakú struktúrát kombinál a Mamba-val, hogy globális jellemzői modellezze az egész térfogatot különböző skálákon, kifejezetten 3D orvosi kép szegmentáláshoz. A SegMamba jelentős képességeket mutat a hosszú távú függőségek modellezésében a háromdimenziós adatoknál, miközben kivételes gyorsaságot biztosít a hagyományos CNN és transzformátor alapú megközelítésekhez képest.
A kutatók széleskörű kísérleteket végeztek a BraTS2023 adatkészleten, hogy megerősítsék a SegMamba hatékonyságát és hatékonyságát a 3D orvosi kép szegmentálási feladatokban. A SegMamba, mivel a hagyományos transzformátor alapú módszerekkel ellentétben az állapotteres modellezés elveit használja, pontosan modellezi a jellemzőket az egész térfogaton belül, miközben kiváló feldolgozási sebességet biztosít. Még a 64 × 64 × 64-es térfogatképpel rendelkező jellemzőkkel (általában mintegy 260k szekvenciahossz), a SegMamba figyelemre méltó teljesítményt nyújt.
További információkért kérjük, keresse fel a tudományos cikket és a projektet a Githubon. Minden elismerés és köszönet a projekt mögött álló kutatóknak jár. Ne felejtsen el követni minket a Twitteren és a Google Hírek oldalán. Csatlakozzon 36 ezer előfizetővel rendelkező ML közösségünkhöz, 41 ezer tagot számláló Facebook csoportunkhoz, Discord csatornánkhoz és LinkedIn csoportunkhoz.
Ha értékeli munkánkat, a hírlevelünket is nagyra fogja értékelni.
Ne felejtse el csatlakozni a Telegram csatornánkhoz sem!
Gyakran Ismételt Kérdések (GYIK):
1. Mit jelent a hagyományos konvolúciós neurális hálózatok (CNN)?
A hagyományos konvolúciós neurális hálózatok (CNN) egy gépi tanulási technika, amelyet a vizuális adatok, például képek elemzésére és feldolgozására használnak.
2. Hogyan kezelik a hagyományos konvolúciós neurális hálózatok (CNN) a 3D orvosi képeket?
A hagyományos konvolúciós neurális hálózatok (CNN) nehezen tudják beépíteni a globális információkat a magas felbontású 3D orvosi képekbe.
3. Milyen megoldásokat javasolnak erre a problémára?
Az egyik javasolt megoldás az lenne, hogy nagyobb kernel konvolúciókat használjunk a szélesebb körű jellemzők felismerésére. Ezenkívül vannak transzformátor alapú megközelítések, mint például a TransBTS és az UNETR.
4. Mi az a Mamba?
A Mamba egy állapotteres modell (SSM), amely hatékony modellálást tesz lehetővé hosszú távú függőségek kiválasztási mechanizmusok és hardver-érzékeny algoritmusok használatával.
5. Hogyan alkalmazták a Mamba modellt a számítógépes látás (CV) feladataira?
Az U-Mambaban a Mamba réteget alkalmazzák a képalkotó eljárások javítása érdekében.
6. Mi az a Vision Mamba?
A Vision Mamba a Vim blokkot javasolja, amely magában foglal egy kétirányú SSM modellt a globális vizuális kontextus modellezéséhez és a térbeli tudatosság megértéséhez pozíciós beágyazásokkal.
7. Hogyan különbözik a SegMamba a hagyományos CNN és transzformátor alapú megközelítésektől?
A SegMamba egy „U” alakú struktúrát kombinál a Mamba-val, hogy globális jellemzőket modellezzen az egész térfogatban különböző skálákon. Kivételes feldolgozási teljesítményt is nyújt.
8. Milyen kísérleteket végeztek a SegMambán?
A kutatók széleskörű kísérleteket végeztek a BraTS2023 adatkészleten, hogy megerősítsék a SegMamba hatékonyságát és hatékonyságát a 3D orvosi kép szegmentálási feladatokban.
Kulcsszó meghatározások:
– Konvolúciós neurális hálózatok (CNN): Gépi tanulási technika, amelyet a vizuális adatok, például képek elemzésére és feldolgozására használnak.
– Magas felbontású 3D orvosi képek: A háromdimenziós orvosi képek, amelyek magas részletességgel rendelkeznek.
– Transzformátor: Gépi tanulási modell, amely önmegfigyeléses mechanizmusokat használ a globális információk kinyerésére és kapcsolatok kialakítására az adatok között.
Javasolt linkek:
– Github
– Twitter
– Google Hírek
– Telegram csatorna
The source of the article is from the blog smartphonemagazine.nl