Probabilistische segmentatie en fuzzy classificatie van natuurlijke vegetatie in hyperspectrale beelden
Scriptie voor de opleiding Geodesie
Technische Universiteit Delftmei 2003
Jochem Lesparre
Volledige versie (3,3 MB pdf-bestand)
Samenvatting
Aanleiding
De Meetkundige Dienst doet voor Rijkswaterstaat onderzoek naar semi-automatische interpretatie van remote-sensing-beelden om de productiviteit en met name de objectiviteit van de vegetatiekartering te verbeteren. Er doen zich hierbij twee problemen voor. Ten eerste lijken bij vergelijking van twee afzonderlijke classificaties door toevalligheden veranderingen op te treden die in werkelijkheid geen veranderingen zijn. Het tweede probleem is dat geleidelijke veranderingen van mengverhoudingen van klassen niet of pas laat zichtbaar zijn, omdat deze vaak geen aanleiding geven tot classificatie in een andere klasse. De oplossing voor deze twee problemen wordt gezocht in het gebruiken van fuzzy technieken.
Een ander probleem is dat automatische classificatie van natuurlijke vegetatie redelijk moeizaam is, daar de verschillende klassen vaak spectraal lastig te onderscheiden zijn. Daarom is het wenselijk gebruik te maken van hyperspectrale scanners en wordt er gezocht naar nieuwe technieken die op een slimmere manier classificeren, door bijvoorbeeld gebruik te maken van expertkennis of ruimtelijke samenhang.
Doelstelling
Doel van het afstudeerproject is te onderzoeken in hoeverre het gebruik van een fuzzy classificatie van hyperspectrale beelden met behulp van een probabilistische segmentatie [Gorte 1998] verbetering geeft ten opzichte van een crisp, pixelgewijze classificatie voor monitoring van natuurlijke vegetatie. Er wordt verwacht dat probabilistische segmentatie een verbetering geeft omdat deze methode naast de spectrale eigenschappen ook rekening houdt met de ruimtelijke kenmerken van de terrein-eenheden. De probabilistische segmentatiemethode is ontwikkeld voor multispectrale data van agrarische gebieden. Natuurlijke vegetatie groeit niet zo gestructureerd als cultuurgewassen, maar ook niet lukraak door elkaar. Daarom wordt ook voor natuurlijke vegetatie een verbetering van de classificatie door segmentatie verwacht.
Werkwijze
De gevolgde werkwijze behelst het toepassen van de probabilistische segmentatiemethode op hyperspectrale beelden van natuurlijke vegetatie. Aanvullend is een beknopt literatuur onderzoek uitgevoerd. Het operationaliseren en aanpassen van software vergt veel tijd. Daardoor ligt de nadruk van het afstudeeronderzoek op het uitbreiden van probabilistische segmentatie voor toepassing op hyperspectrale beelden van natuurlijke vegetatie en het programmeren hiervan.
Tijdens het onderzoek ontstond het idee voor een nieuwe methode voor fuzzy training voor maximum-likelihood-classificatie. Uiteindelijk is er voor k-nearest-neighbours-classificatie gekozen in plaats van een maximum-likelihood-classificatie. Daarom is de fuzzy trainingsmethode alleen beschreven en niet toegepast.
Data
Het gebruikte beeldmateriaal is ingewonnen met het HyMap-systeem (Hyperspectral Mapping System). Dit is een hyperspectrale scanner voor in een vliegtuig die 128 banden opneemt. Hiermee is de kwelder van Schiermonnikoog opgenomen. De ruimtelijke resolutie van de beelden is 3,5 meter.
Voor de training en validatie van de classificatie is gebruik gemaakt van 384 tijdens veldwerk ingewonnen veldopnamen. Deze veldopnamen zijn ongeveer half om half gesplitst in trainingssamples en validatiesamples. Tijdens het onderzoek zijn vier verschillende klassenindelingen voor de veldopnamen gebruikt. Het opstellen van deze indelingen is handmatig geschied, hierdoor zijn deze redelijk subjectief. Dit resulteert in klassen met een relatief grote spectrale overlap.
Fuzzy training voor maximum-likelihood-classificatie
De meeste bestaande technieken hebben pure pixels nodig voor de training. Dit maakt de training voor natuurlijke vegetatie lastig. Want door het voorkomen van veel mixed pixels is het moeilijk om voldoende pure trainingssamples te vinden. Het gebruik van bijna pure trainingssamples is suboptimaal. Hierbij wordt namelijk een deel van de geschatte spreiding van een klasse niet veroorzaakt door de natuurlijke variatie in het spectrum van die klasse, maar door de mate waarin aandelen van andere klassen aanwezig zijn. De oplossing voor een gebrek aan pure trainingssamples moet gezocht worden in het schatten van pure spectra uit mixed trainingssamples. F. Wang [1990] stelt een methode voor waarbij een gewogen gemiddelde en een gewogen empirische (co)variantie worden berekend, met de fractie van de betreffende klasse als gewicht. Deze procedure leidt echter niet tot zuivere schattingen voor de spectra van de pure klassen.
Met behulp van de vereffeningstheorie en kansmodelschatting is het wel mogelijk een fuzzy maximum-likelihood-training uit te voeren die uit mixed pixels spectra van pure klassen schat zonder systematische fout. Voordeel van fuzzy training is dat meer pixels in het beeld bruikbaar zijn voor training. Hierdoor is het mogelijk om heterogene gebieden te gebruiken voor training of om de trainingssamples op random plaatsen in te winnen. Voorwaarde voor het gebruik van deze methode voor fuzzy training is dat men beschikt over schattingen van de klassenaandelen van de mixed trainingspixels en dat de klassen in een pixel spectraal lineair vermengd zijn. Om de bruikbaarheid van fuzzy training voor maximum-likelihood-classificatie te beoordelen verdient het aanbeveling om de methode te testen op een beeld waarvoor tijdens veldwerk de klassenaandelen van fuzzy trainingssamples zijn vastgesteld.
Probabilistische segmentatie
Probabilistische segmentatie bestaat uit een integratie van beeldsegmentatie en -classificatie. De classificatie vindt plaats op grond van de formule van Bayes. De a priori kans op een klasse in deze formule wordt vaak voor alle klassen gelijkgehouden, om de classificatie niet te veel te sturen in de richting van de meest voorkomende klassen. Bij probabilistische segmentatie wordt hier juist wel gebruik van gemaakt. De methode schat deze kans lokaal uit het beeld met behulp van het resultaat van een statistische classificatiemethode. Door deze kans lokaal te schatten kan de classificatie verbetert worden. Het is bijvoorbeeld waarschijnlijker dat een geel pixel in een geel veld tarwe dan gras is, terwijl een zelfde geel pixel in een groen veld waarschijnlijker (verdroogd) gras dan tarwe is. Hiervoor is een opdeling van het beeld in segmenten nodig, waarbij de segmenten zo veel mogelijk samenvallen met terreinobjecten zodat er slechts één of enkele klassen per segment aanwezig zijn.
De gebruikte segmentatiemethode voegt op basis van de spectrale kenmerken van drie banden aangrenzende pixels samen tot segmenten. Pixels worden samengevoegd indien de Euclidische afstand in de featurespace tussen de pixels kleiner is dan een drempelwaarde en de (co)varianties van de gecreëerde segmenten niet groter worden dan een andere drempelwaarde. Een probleem is dat het onduidelijk is welke drempelwaarde de beste segmentatie oplevert. Bovendien is voor verschillende delen van het beeld een andere drempelwaarde het beste. De oplossing hiervoor is het maken van een segmentatiepiramide door te segmenteren met oplopende drempelwaarden. Vervolgens worden uit de verschillende niveaus van de piramide segmenten geselecteerd, op basis van de klassenaandelen in de segmenten. Hiervoor moeten voor de gehele piramide de klassenaandelen per segment geschat worden, waarvoor de methode voor het schatten van de a priori kansen op de klassen gebruikt wordt. Er worden segmenten geselecteerd met zo min mogelijk klassen. Als er meerdere kandidaten zijn worden zo groot mogelijke segmenten gekozen, omdat de schattingen van de a priori kansen voor grote segmenten nauwkeuriger zijn.
Conclusies
Voor de gebruikte beelden en bijbehorende veldgegevens geeft de k-nearest-neighbours-classificatie de best geschatte kansen als invoer voor de probabilistische segmentatie. Voor toepassing van probabilistische segmentatie op hyperspectrale beelden van natuurlijke vegetatie met een beperkt aantal trainingssamples zijn twee aanpassingen gedaan. Ten eerste is er gekozen voor een implementatie van de k-nearest-neighbours-classificatie die hyperspectrale data kan verwerken. Ten tweede is het segmentselectiecriterium zo aangepast dat de voorkeur niet langer alleen naar pure segmenten uit gaat, maar dat er gestreefd wordt naar segmenten met zo min mogelijk klassen.
Probabilistische segmentatie geeft een lichte verbetering van de overall-accuracy van de classificatie. Deze verbetering is afhankelijk van de klassenindeling. De grootste verbetering treedt op bij een indeling in 9 klassen (niveau 1), waarbij de overall-accuracy van 61,93% naar 67,43% stijgt. De indeling met de kleinste verbetering heeft 21 klassen (niveau 3). Hiervoor steeg de overall-accuracy van 40,83% naar 41,28%. Het is onduidelijk waarom de verbetering door probabilistische segmentatie slechts klein is. Dit kan aan de data liggen of aan de probabilistische segmentatiemethode. Het eerste kan veroorzaakt worden door een te grote spectrale overlap tussen de klassen, maar het kan ook liggen aan een te lage ruimtelijke resolutie van het beeld of het geringe aantal trainingssamples. Dat de segmentselectie van de probabilistische segmentatiemethode een te grote voorkeur heeft voor pure segmenten (ook als deze heel klein zijn) kan ook een oorzaak zijn.
Aanbevelingen
Op de eerste plaats zou onderzocht moeten worden wat de oorzaak is dat de verbetering door probabilistische segmentatie slechts klein is, en hoe het komt dat veel erg kleine segmenten geselecteerd worden. Door het toepassen van probabilistische segmentatie op andere data kan geverifieerd worden of de data het probleem zijn. Door gebruik te maken van een handmatig gedefinieerde segmentatie zou gecontroleerd kunnen worden of de segmentselectiemethode de oorzaak is.
Verder is het sterk aan te raden om een methode te ontwerpen waarmee een fuzzy classificatie gevalideerd kan worden.