9341

Predictive Analytics: CART®

Für das Data-Mining in den Bereichen Predictive Analytics und Predictive Maintenance stehen in Minitab die CART-Technologien (CART®-Klassifikation und CART®-Regression) für alle Anwender zur Vefügung. CART ist ein Algorithmus, der zur Entscheidungsfindung anhand von Entscheidungsbäumen dient. Der Algorithmus wurde von führenden Statistikern der Stanford University (Jerome Friedman) und der University of California in Berkeley (Leo Breiman) entwickelt.

Zusätzlich zu CART stehen Anwendern über das optionale, kostenpflichtige Predictive-Analytics-Modul mit TreeNet® (Gradient Boosting) und Random Forests® zwei baumbasierte Predicitve-Analytics-Technologien zur Verfügung ( mehr Informationen zum kostenpflichtigen Predictive-Analytics-Zusatzmodul).

Was sind die Entscheidungsbäume bei CART?

CART ist ein Algorithmus für Entscheidungsbäume, mit dem ein Satz von Ja-oder-Nein-Regeln erstellt wird. Anhand dieser Regeln wird die Ergebnis- bzw. Antwortvariable auf der Grundlage der Prädiktor- oder Eingabeeinstellungen in Partitionen aufgeteilt. Das daraus resultierende Modell wird als Entscheidungsbaum dargestellt, der zeigt, wie die Ergebnis- bzw. Antwortvariable mit den Eingabeeinstellungen partitioniert wurde. Der CART-Algorithmus in Minitab ermittelt automatisch die optimale Anzahl von Endknoten (auch als Teilungen oder endgültige Gruppierungen bezeichnet). Dabei ist das Ziel, die Prognoseleistung des Modells zu maximieren. Die Ergebnisse der CART-Analyse werden numerisch und grafisch wiedergegeben, damit diese intuitiv und visuell interpretiert werden können.

CART®-Klassifikation

CART®-Klassifikation veranschaulicht wichtige Muster und Beziehungen zwischen einer kategorialen Antwortvariablen und wichtigen Prädiktoren innerhalb hochkomplizierter Daten, ohne parametrische Methoden zu verwenden.

Hauptmenü

Verwenden Sie CART®-Klassifikation, um einen Entscheidungsbaum für eine kategoriale Antwortvariable zu erstellen. Diese Variable kann sowohl binomial (bspw. i.O./n.i.O.) als auch multinomial (bspw. Noten- oder Farbskala) sein. Als Prädiktoren (Variable) kommen dabei sowohl stetige als auch kategoriale in Betracht.

Alle Menüs
Alle Menüs (Anklicken zum Vergrößern)

CART®-Klassifikation ist das Pendant zur Logistischen Regression. Im direkten Vergleich bietet dieser Algorithmus in seiner in Minitab erfolgten Umsetzung einen cleveren Umgang mit fehlenden Werten. Generell sind Entscheidungsbäume anschaulicher als die Ergebnisse der Logistischen Regression. Sie können auch direkt mit Wechselwirkungen und nichtlinearen Zusammenhängen umgehen, was bei der Logistischen Regression besonderer Betrachtung bedarf. Auch können sie gegenüber Fehlklassifikationen im Trainingsdatensatz ("Ausreißern") robuster sein. Seine enorme Stärke entfaltet dieser Data-Mining-Algorithmus im Umgang mit großen Datensätzen mit zahlreichen Variablen.
Im Ergebnis bietet CART®-Klassifikation die Möglichkeiten, wichtige Variablen zu identifizieren, Gruppen in den Daten mit wünschenswerten Merkmalen zu ermitteln und Werte der Antwortvariablen für neue Beobachtungen zu prognostizieren. Das Marketing kann beispielsweise CART®-Klassifikation verwenden, um Kundengruppen zu identifizieren, deren Kaufverhalten nach einer gezielten Werbebotschaft deutlich besser ist als per zufälliger Auswahl.

Alle Menüs
Alle Menüs (Anklicken zum Vergrößern)

CART®-Regression

CART®-Regression veranschaulicht wichtige Muster und Beziehungen zwischen einer stetigen Antwortvariablen und wichtigen Prädiktoren in höchst komplexen Daten, ohne dass verteilungsgebundene Methoden verwendet werden.

Hauptmenü

Verwenden Sie CART®-Regression, um einen Entscheidungsbaum für eine stetige Antwortvariable zu erstellen. Als Prädiktoren (Variable) kommen dabei sowohl stetige als auch kategoriale in Betracht.

Alle Menüs
Alle Menüs (Anklicken zum Vergrößern)

CART®-Regression ist das Pendant zum Allgemein Linearen Modell (ALM) (= ANOVA + Regression). Im direkten Vergleich bietet dieser Algorithmus in seiner in Minitab erfolgten Umsetzung einen cleveren Umgang mit fehlenden Werten. Generell können Entscheidungsbäume direkt mit Unstetigkeiten, Wechselwirkungen und nichtlinearen Zusammenhängen umgehen, was beim ALM besonderer Betrachtung bedarf. Auch können sie Ausreißern gegenüber robuster sein. Seine enorme Stärke entfaltet dieser Data-Mining-Algorithmus im Umgang mit großen Datensätzen mit zahlreichen Variablen. Im Ergebnis bietet CART®-Regression die Möglichkeiten, wichtige Variablen zu identifizieren, Gruppen in den Daten mit wünschenswerten Merkmalen zu ermitteln und Werte der Antwortvariablen für neue Beobachtungen zu prognostizieren. Ein Immobilienmakler kann aufgrund zahlreicher Vergleichsdaten ein Modell für den Wert von Wohnungen über ein Stadtgebiet erstellen, ohne gezwungen zu sein, die Ausgangsdaten (Wohnungspreise, Größen, Lage, ...) auf Unstetigkeiten prüfen zu müssen.

Alle Menüs
Alle Menüs (Anklicken zum Vergrößern)