AI & Machine LearningDeep Learning

Vision Transformer (ViT)

Der Vision Transformer (ViT) wendet die Transformer-Architektur auf die Bilderkennung an, indem Bildausschnitte als Tokens behandelt werden. Er hat in Benchmarks der Fernerkundung Ergebnisse auf dem neuesten Stand der Technik erzielt und bildet die Grundlage vieler Foundation-Modelle für die Erdbeobachtung.

Überblick

Der Vision TransformerTransformerThe Transformer is an attention-based neural network architecture that processes entire sequences in parallel, enabli... (ViT) überträgt die Transformer-Architektur, die ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurde, auf Aufgaben des maschinellen Sehens (Computer VisionComputer VisionComputer Vision is a field of artificial intelligence that enables machines to interpret and understand visual inform...). Anstatt Bilder durch Convolutional-Schichten zu verarbeiten, unterteilt ViT ein Bild in Ausschnitte fester Größe (Patches), bettet jeden Ausschnitt linear ein, fügt Positionskodierungen hinzu und verarbeitet die resultierende Sequenz durch Standard-Transformer-Encoder-Schichten. Self-Attention ermöglicht es jedem Bildausschnitt, auf jeden anderen Bildausschnitt zuzugreifen, wodurch das Modell globale räumliche Beziehungen erfassen kann, die Convolutional Networks nur durch tiefes Stapeln lokaler Operationen annähern können.

Auswirkungen auf Fernerkundung und Erdbeobachtung

ViT und seine Varianten sind rasch zu grundlegenden Bausteinen der Geo-KI geworden. Die Klassifikation von Fernerkundungsdaten profitiert von der Fähigkeit von ViT, weiträumigen räumlichen Kontext zu modellieren, etwa um zu erkennen, dass ein Bereich grüner Pixel in der Nähe von Wasser eher eine Uferzone (Riparian Zone) als eine Ackerfläche darstellt. Der Swin TransformerTransformerThe Transformer is an attention-based neural network architecture that processes entire sequences in parallel, enabli... führt hierarchische Feature-Maps und verschobene Fenster (Shifted Windows) für die effiziente Verarbeitung hochauflösender Satellitenbilder ein. BEiT- und MAE-Varianten nutzen die Vorhersage maskierter Bildausschnitte für selbstüberwachtes Vortraining auf unbeschrifteten Satellitendaten und schaffen dadurch leistungsstarke Foundation-Modelle. ViT-basierte Modelle haben neue Bestwerte bei Benchmarks für die Landbedeckungsklassifikation, die semantische Segmentierung und die Veränderungserkennung in Fernerkundungsbildern erzielt.

Praktische Überlegungen für den georäumlichen Einsatz

ViTs benötigen in der Regel große Trainingsdatensätze oder Transfer LearningTransfer LearningTransfer Learning is a machine learning technique where a model trained on one task is repurposed for a different but... von vortrainierten Modellen, um CNNs zu übertreffen, die über stärkere induktive Verzerrungen (Inductive Biases) für räumliche Daten verfügen. Sie sind rechenintensiver als vergleichbar große CNNs, insbesondere bei hochauflösenden Bildern. Hybride Architekturen, die die Extraktion von Convolutional-Features mit TransformerTransformerThe Transformer is an attention-based neural network architecture that processes entire sequences in parallel, enabli...-Attention-Schichten kombinieren, bieten häufig die beste Balance zwischen Leistung und Effizienz. Multi-Scale-ViT-Varianten, die Bilder auf mehreren Auflösungsstufen verarbeiten, bewältigen die unterschiedlichen Objektgrößen in Satellitenbildern effektiver als Ansätze mit nur einer Auflösungsstufe.

VorherigerViewshed Analysis

NächsterVisit Frequency

Bereit?

Sehen Sie Mapular
in Aktion.

Buchen Sie eine kostenlose 30-minütige Demo. Wir zeigen Ihnen genau, wie die Plattform für Ihren Anwendungsfall funktioniert. Kein generisches Foliendeck, keine Verpflichtung.

Kostenlose Demo vereinbaren

Vision Transformer (ViT)

Überblick

Auswirkungen auf Fernerkundung und Erdbeobachtung

Praktische Überlegungen für den georäumlichen Einsatz

Vision Transformer (ViT)

Überblick

Auswirkungen auf Fernerkundung und Erdbeobachtung

Praktische Überlegungen für den georäumlichen Einsatz

Sehen Sie Mapularin Aktion.

Vision Transformer (ViT)

Überblick

Auswirkungen auf Fernerkundung und Erdbeobachtung

Praktische Überlegungen für den georäumlichen Einsatz

Sehen Sie Mapularin Aktion.

Sehen Sie Mapular
in Aktion.

Sehen Sie Mapular
in Aktion.