4377

Minitab 21 - Regression mit einer binären Antwortvariablen

  • Erstellt am 23.9.2016
  • Überarbeitet am 4.5.2022
  • Software: Minitab 21, 20, 19, 18, 17

Wie kann ich in Minitab eine Regression durchführen, wenn ich eine binäre Antwortvariable habe?

Bilder

regression_binaere_antwort_01_darstellung_anpassungslinie

Darstellung der binären Anpassungslinie für ein Normit (Probit)-Modell mit einem stetigen Prädiktor. Die Anpassungskurve ist eine Kurve der aus dem Modell geschätzten Wahrscheinlichkeiten für das Antwortereignis (hier: Ja).

regression_binaere_antwort_02_Abweichungsresiduendiagramme

Abweichungsresiduendiagramme für die Spalte Anzahl der Ereignisse aus dem Beispiel in der Erläuterung dieses Artikels.

Erläuterung

Ein Werkzeug zur Regression mit einer kategorialen Antwortvariablen ist die logistische Regression. Für den Spezialfall, dass die Antwortvariable nur zwei Kategorien zulässt (zum Beispiel Ja/Nein), gibt es die sogenannte binäre logistische Regression. Das Verhältnis der Antwortvariablen zu den stetigen und/oder kategorialen Prädiktoren wird dabei mit Hilfe einer sogenannten Linkfunktion modelliert. Das Modell prognostiziert dann Wahrscheinlichkeiten dafür, dass die Antwortvariable das Antwortereignis annimmt (d.h. die Referenzstufe der Antwortvariablen).

Minitab bietet neben der ordinalen und der nominalen logistischen Regression auch die binäre logistische Regression an. Das binäre logistische Regressionsmodell wird mit einer der drei Linkfunktionen Logit, Normit (Probit) und Gompit (komplementärer Log-Log) angepasst. Dabei gibt es mehrere Möglichkeiten:

  • Statistik: Regression: Darstellung der binären Anpassungslinie für einen Prädiktor. Hier wird ein Diagramm mit einer Kurve der Anpassungslinie für die in Abhängigkeit des Prädiktors prognostizierten Wahrscheinlichkeiten des Antwortereignisses erstellt.
  • Statistik: Regression: Binäre logistische Regression für ein Modell mit mehreren Prädiktoren und Termen höherer Ordnung (zum Beispiel Wechselwirkungen). Hier können Sie zunächst mit dem Menüpunkt Binäres logistisches Modell anpassen das Regressionsmodell anpassen und haben anschließend weitere Möglichkeiten:
    • Prognostizieren der Ereigniswahrscheinlichkeiten
    • Anschließende graphische Analysen: Faktordiagramme, Konturdiagramm, Wirkungsflächendiagramm und Überlagertes Konturdiagramm
    • Zielgrößenoptimierung
  • Ab Minitab 19 auch über das Werkzeug Statistik: Versuchsplanung (DOE): Faktoriell: Binäre Antwort anpassen, wenn Sie vorher einen Faktoriellen Versuchsplan erstellt und die binären Daten dem Versuchsaufbau entsprechend erhoben haben. Zum Reproduzieren der Analyseergebnisse mit dem Werkzeug Binäres logistisches Modell anpassen siehe den Abschnitt Binäre Antwort in einem faktoriellen Versuchsplan analysieren im Artikel Versuchsplanung / Regression - Unterschiedliche Ergebnisse bei gleichen Daten.

Linkfunktionen

Die Linkfunktionen bilden das offene Intervall ]0,1[ auf den Wertebereich der Linearkombination der aus den Prädiktoren gebildeten Modelltermen ab. Die Regressionsgleichung entsteht aus der Anwendung der inversen Linkfunktion auf diese Linearkombination.

Beispiel

Die (stetigen) Prädiktoren sind in den Spalten x1 und x2 hinterlegt. Das Antwortereignis ist An, und das Gegenereignis ist Aus. In der Spalte Anzahl der Versuche ist für jede Kombination aus Werten der Prädiktoren die Anzahl der Versuche angegeben, die gemacht worden ist, und in der Spalte Anzahl der Ereignisse ist hinterlegt, wie oft die Antwortvariable jeweils das Antwortereignis An angenommen hat.

C1 C2 C3 C4
  x1 x2 Anzahl der Versuche Anzahl der Ereignisse
1 2,0 3,0 100 92
2 2,0 3,5 100 90
3 2,0 4,0 100 88
4 2,0 4,5 100 85
5 2,0 5,0 100 82
6 2,4 3,0 100 89
7 2,4 3,5 100 84
8 2,4 4,0 100 77
9 2,4 4,5 100 68
10 2,4 5,0 100 57
11 2,8 3,0 100 85
12 2,8 3,5 100 74
13 2,8 4,0 100 60
14 2,8 4,5 100 44
15 2,8 5,0 100 29
16 3,2 3,0 100 79
17 3,2 3,5 100 61
18 3,2 4,0 100 40
19 3,2 4,5 100 22
20 3,2 5,0 100 11
21 3,6 3,0 100 71
22 3,6 3,5 100 46
23 3,6 4,0 100 23
24 3,6 4,5 100 10
25 3,6 5,0 100 4
26 4,0 3,0 100 62
27 4,0 3,5 100 32
28 4,0 4,0 100 12
29 4,0 4,5 100 4
30 4,0 5,0 100 1

 

Das binäre logistische Modell wurde mit den Einstellungen

  • Antwort im Ereignis-/Versuchsformat
  • Ereignisbezeichnung: An
  • Anzahl der Ereignisse: 'Anzahl der Ereignisse'
  • Anzahl der Versuche: 'Anzahl der Versuche'
  • Stetige Prädiktoren: x1 x2
  • Modell: Terme im Modell: x1 x2 x1*x2
  • Optionen: Linkfunktion: Logit
  • Speichern: Anpassungen (Ereigniswahrscheinlichkeiten)

mit dem folgenden Ergebnis angepasst:

 

Binäre Logistische Regression: Anzahl der Ereignisse vs. x1; x2

Methode

Linkfunktion

Logit

Verwendete Zeilen

30

Informationen zur Antwortvariablen

Variable

Wert

Anzahl

Ereignisbezeichnung

Anzahl der Ereignisse

Ereignis

1582

An

 

Nicht-Ereignis

1418

 

Anzahl der Versuche

Gesamt

3000

 

Abweichungstabelle

Quelle

DF

Kor Abw

Kor MW

Chi-Quadrat

p-Wert

Regression

3

1271,17

423,723

1271,17

0,000

  x1

1

19,09

19,094

19,09

0,000

  x2

1

18,48

18,479

18,48

0,000

  x1*x2

1

76,27

76,267

76,27

0,000

Fehler

26

0,20

0,008

 

 

Gesamt

29

1271,37

 

 

 

Zusammenfassung des Modells

R-Qd der
Abweichung

R-Qd(kor)
der
Abweichung

AIC

99,98%

99,75%

2886,74

Koeffizienten

Term

Koef

SE Koef

VIF

Konstante

0,03

1,39

 

x1

1,981

0,455

37,55

x2

1,486

0,348

25,88

x1*x2

-0,993

0,117

40,18

Chancenverhältnisse für stetige Prädiktoren

 

Chancenverhältnis

95%-KI

x1

*

(*; *)

x2

*

(*; *)

Es werden keine Chancenverhältnisse für Prädiktoren berechnet, die in Wechselwirkungstermen
     enthalten sind, da diese Verhältnisse von den Werten der anderen Prädiktoren in den
     Wechselwirkungstermen abhängen.

Regressionsgleichung

p(An)

=

exp(Y')/(1 + exp(Y'))

Y'

=

0,03 + 1,981 x1 + 1,486 x2 - 0,993 x1*x2

Tests auf Güte der Anpassung

Test

DF

Chi-Quadrat

p-Wert

Abweichung

26

0,20

1,000

Pearson

26

0,20

1,000

Hosmer-Lemeshow

8

0,09

1,000

Anpassungen und Bewertung für ungewöhnliche Beobachtungen

Beob

Beobachtete
Wahrscheinlichkeit

Anpassung

Resid

Std.
Resid

 

26

0,6200

0,6215

-0,0318

-0,04

X

X  Ungewöhnliches X

Unter den Standardeinstellungen ist unter Grafiken die Option Residuendiagramme: Vier-in-Eins gesetzt, sodass auch eine Ausgabegrafik Abweichungsresiduendiagramme für Anzahl der Ereignisse mit ausgegeben wurde, die in vier separaten Feldern ein Histogramm der Residuen, ein Wahrscheinlichkeitsnetz (Normal) für Residuen, ein Diagramm Residuen vs. Anpassungen und ein Diagramm Residuen vs. Reihenfolge enthält (siehe im Bereich Bilder zu diesem Artikel). Die Ereigniswahrscheinlichkeiten wurden in einer neuen Spalte ANPASS gespeichert.

C1 C2 C3 C4 C5
  x1 x2 Anzahl der Versuche Anzahl der Ereignisse ANPASS
1 2,0 3,0 100 92 0,923485
2 2,0 3,5 100 90 0,903889
3 2,0 4,0 100 88 0,879926
4 2,0 4,5 100 85 0,850974
5 2,0 5,0 100 82 0,816497
6 2,4 3,0 100 89 0,890099
7 2,4 3,5 100 84 0,838047
8 2,4 4,0 100 77 0,767773
9 2,4 4,5 100 68 0,678697
10 2,4 5,0 100 57 0,574394
11 2,8 3,0 100 85 0,844598
12 2,8 3,5 100 74 0,740071
13 2,8 4,0 100 60 0,598646
14 2,8 4,5 100 44 0,438641
15 2,8 5,0 100 29 0,290452
16 3,2 3,0 100 79 0,784812
17 3,2 3,5 100 61 0,610379
18 3,2 4,0 100 40 0,402244
19 3,2 4,5 100 22 0,224236
20 3,2 5,0 100 11 0,110447
21 3,6 3,0 100 71 0,709925
22 3,6 3,5 100 46 0,462936
23 3,6 4,0 100 23 0,232888
24 3,6 4,5 100 10 0,096597
25 3,6 5,0 100 4 0,036293
26 4,0 3,0 100 62 0,621544
27 4,0 3,5 100 32 0,321702
28 4,0 4,0 100 12 0,120466
29 4,0 4,5 100 4 0,038049
30 4,0 5,0 100 1 0,011294

 

Weitere Informationen zur binären logistischen Regression finden Sie in der Online-Hilfe von Minitab zur binären logistischen Regression.

Siehe auch

Ordinale logistische Regression
Nominale logistische Regression

Question?

Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein., wenn Sie eine Frage zu diesem Artikel haben.