AI & Machine LearningAlgorithms

K-Means-Clustering

K-Means-Clustering ist ein unüberwachter Lernalgorithmus, der Daten anhand von Merkmalsähnlichkeit in k unterschiedliche Gruppen aufteilt. In der Geodatenanalyse wird es für die unüberwachte Landbedeckungsklassifikation, die Kundensegmentierung nach Standort und die Entdeckung räumlicher Muster eingesetzt.

Überblick

K-Means-Clustering ist ein unüberwachter Machine-Learning-Algorithmus, der einen Datensatz in k vorab festgelegte Cluster aufteilt, indem er die Summe der quadrierten Abstände jedes Punkts zu seinem zugewiesenen Cluster-Zentroid innerhalb der Cluster minimiert. Der Algorithmus weist iterativ jeden Datenpunkt dem nächstgelegenen Zentroid zu und berechnet die Zentroide anschließend als Mittelwert aller Punkte in jedem Cluster neu, bis Konvergenz erreicht ist. Trotz seiner Einfachheit ist K-Means bemerkenswert effektiv und bleibt einer der am weitesten verbreiteten Clustering-Algorithmen über verschiedene Fachgebiete hinweg.

Geodaten-Anwendungen von K-Means

In der Fernerkundung führt K-Means eine unüberwachte Klassifikation von Satellitenbildern durch, indem Pixel mit ähnlicher spektraler Signatur zu Clustern gruppiert werden, die Landbedeckungstypen entsprechen. Dieser Ansatz, der bei Erweiterung um Aufteilungs- und Zusammenführungsschritte als ISODATA bezeichnet wird, ist wertvoll, wenn keine gelabelten Trainingsdaten verfügbar sind. Analysten für Standortintelligenz nutzen K-Means, um Kunden nach geografischen und verhaltensbezogenen Merkmalen zu segmentieren und dabei räumlich zusammenhängende Marktsegmente zu identifizieren. Stadtplaner clustern Stadtviertel anhand sozioökonomischer und infrastruktureller Indikatoren, um Gebiete mit ähnlichen Merkmalen zu identifizieren. K-Means gruppiert zudem POI-Daten (Points of InterestPoints of InterestPoints of interest (POI) are specific geographic locations that are useful or notable for a particular purpose, such ...), um Aktivitätszentren und räumliche Muster in Mobilitätsdaten zu entdecken.

Überlegungen und Einschränkungen

K-Means erfordert die vorherige Festlegung der Clusteranzahl k, was bei geografischen Datensätzen, in denen natürliche Gruppierungen regional variieren, nicht immer offensichtlich ist. Der Algorithmus geht von kugelförmigen, gleich großen Clustern aus und kann schlechte Ergebnisse liefern, wenn Cluster unregelmäßige Formen oder stark variierende Dichten aufweisen, was bei räumlichen Daten häufig vorkommt. Die Empfindlichkeit gegenüber der Initialisierung bedeutet, dass unterschiedliche zufällige Startpunkte zu unterschiedlichen Ergebnissen führen können, wobei Techniken wie K-Means++ die Initialisierung verbessern. Bei Geodaten erfordert die Einbeziehung räumlicher Koordinaten als Merkmale neben thematischen Attributen eine sorgfältige Skalierung der Merkmale, um räumliche und nichträumliche Dimensionen auszubalancieren.

VorherigerJupyter Notebooks (Geospatial)

NächsterKepler.gl

Bereit?

Sehen Sie Mapular
in Aktion.

Buchen Sie eine kostenlose 30-minütige Demo. Wir zeigen Ihnen genau, wie die Plattform für Ihren Anwendungsfall funktioniert. Kein generisches Foliendeck, keine Verpflichtung.

Kostenlose Demo vereinbaren

K-Means-Clustering

Überblick

Geodaten-Anwendungen von K-Means

Überlegungen und Einschränkungen

K-Means-Clustering

Überblick

Geodaten-Anwendungen von K-Means

Überlegungen und Einschränkungen

Sehen Sie Mapularin Aktion.

K-Means-Clustering

Überblick

Geodaten-Anwendungen von K-Means

Überlegungen und Einschränkungen

Sehen Sie Mapularin Aktion.

Sehen Sie Mapular
in Aktion.

Sehen Sie Mapular
in Aktion.