-
Notifications
You must be signed in to change notification settings - Fork 0
/
presentation.tex
260 lines (219 loc) · 8.04 KB
/
presentation.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
\documentclass[aspectratio=169]{beamer}
\usetheme{metropolis}
%\usepackage{pgfpages}
%\setbeameroption{show notes}
%\setbeameroption{show notes on second screen=right}
\usepackage[english]{babel}
\usepackage[utf8]{inputenc}
\usepackage{amsmath, amssymb, amsthm, amsfonts}
\usepackage{multimedia}
\usepackage{graphics}
\usepackage{hyperref}
\usepackage{caption}
\usepackage{subcaption}
\title{Generelle Statistiske Metoder}
\author{Erik Rybakken}
\begin{document}
\frame{\titlepage}
\begin{frame}
\frametitle{Framingham Datasett}
\begin{itemize}
\item Studie av 4434 pasienter, med fokus på hjerteproblemer.
\pause
\item Hver pasient ble undersøkt tre ganger, med 6 års mellomrom.
\end{itemize}
\pause
To mulige problemstillinger:
\begin{enumerate}
\item Hvilke prediktorer påvirker blodtrykket?
\pause
\item Kan vi forutsi hvor lenge en pasient har igjen å leve basert på dataene som ble gjort i første sjekk?
\end{enumerate}
\pause
Detaljer om analysen:
\begin{enumerate}
\item Kun pasientene fra den første sjekken ble brukt i analysen
\pause
\item Paientene med minst én ukjent verdi ble fjernet fra analysen
\pause
\item Dette ble i alt 3885 pasienter
\end{enumerate}
\end{frame}
\begin{frame}
\frametitle{Lineær regresjon}
Vi antar en lineær modell:
\begin{equation}
Y = X \beta + \epsilon
\end{equation}
\pause
der
\begin{itemize}
\item \(Y\) er responsen
\item \(X\) er prediktorene
\item \(\beta\) er en vektor med koeffisienter
\item \(\epsilon\) er en normalfordelt variabel med forventningsverdi 0
\end{itemize}
\pause
I vårt tilfelle er \(Y\) blodtrykket, mens \(X\) består av prediktorene kjønn (mann/kvinne), alder,
antall sigaretter røyket per dag, BMI, glukosenivå, utdanningsnivå og kolesterolnivå.
\end{frame}
\begin{frame}
\frametitle{Minstre kvadraters metode}
Vi har en \(n\times p\)-matrise \(\textbf{X}\) bestående av n observasjoner av p prediktorer, og en \(n\times 1\)-matrise \(\textbf{Y}\) bestående av de korresponderene responsvariablene. Vi vil fra nå av anta at de observerte prediktorene og responsene er normalisert til å ha gjennomsnitt 0 og varians 1.
\pause
Minstre kvadraters metode estimerer koeffisientene \(\beta\) ved å minimere RSS (residual sum of squares):
\begin{equation}
(\textbf{Y} - \textbf{X}\beta)^T (\textbf{Y} - \textbf{X}\beta)
\end{equation}
\end{frame}
\begin{frame}
\frametitle{Tre modifiseringer av minste kvadraters metode}
\begin{itemize}
\item Beste delmengde-utvalg velger ut en delmengde av prediktorene og utfører minstre kvadrater på denne.
\pause
\item Lasso-regresjon krymper absoluttverdien til koeffisientene \(\beta\).
\pause
\item Prinsipalkomponent-regresjon projiserer først prediktorene til et lavere-dimensjonalt underrom og utfører deretter minstre kvadrater.
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Beste delmengde-utvalg}
Gitt en delmengde \(S \subset \{1,\dots,p\}\) kan vi danne matrisen \(\textbf{X}_S = (\textbf{X}_{i_1}|\textbf{X}_{i_2}|\dots |\textbf{X}_{i_k})_{i_* \in S}\).
Vi kan så utføre minst kvadrater på \(\textbf{X}_S\).
\pause
For en gitt \(0 \leq k \leq p\) utfører vi minste kvadrater på den \(\textbf{X}_S\) med \(|S| = k\) som gir lavest RSS.
\end{frame}
\begin{frame}
\frametitle{Beste delmengde-utvalg}
\begin{center}
\includegraphics[height=0.8\textheight]{best_subset.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Lasso-regresjon}
Lasso-regresjon finner koeffisientene \(\beta\) som minimerer uttrykket
\begin{equation}
(\textbf{Y} - \textbf{X}\beta)(\textbf{Y} - \textbf{X}\beta)^T + \lambda \sum_{i=1}^p |\beta_i|
\end{equation}
der \(\lambda\) er en parameter som bestemmer hvor mye koeffisientene skal krympes.
\pause
Dette er ekvivalent med å minimere uttrykket
\begin{equation}
(\textbf{Y} - \textbf{X}\beta)^T (\textbf{Y} - \textbf{X}\beta)
\end{equation}
der vi krever at \(\sum_{i=1}^p |\beta_i| \leq t\).
\end{frame}
\begin{frame}
\frametitle{Lasso-regresjon}
\begin{center}
\includegraphics[height=0.8\textheight]{lasso.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Prinsipalkomponent-regresjon}
Matrisen \(\textbf{X}^T \textbf{X}\) kan dekomponeres (egenverdi-dekomposisjon):
\begin{equation}
\textbf{X}^T\textbf{X} = \textbf{VD}^2\textbf{V}^T
\end{equation}
der \(\textbf{V}\) er matrisen med egenvektorene til \(\textbf{X}^T\textbf{X}\) som kolonnevektorer og \(\textbf{D}^2\) er diagonalmatrisa med de korresponderende egenverdiene \(d_1^2 \geq d_2^2 \geq \dots \geq d_p^2\) som diagonalelementer.
\pause
Vi danner matrisa \(\textbf{Z} = \textbf{X}\textbf{V}\). Kolonnene i denne matrisa kalles \emph{prinsipalkomponentene} til \textbf{X}.
\end{frame}
\begin{frame}
\frametitle{Prinsipalkomponent-regresjon}
Prinsipalkomponent-regresjon utføres ved at man velger de \(k\) første prinsipalkomponentene til \(X\), dvs. de første \(k\) kolonnene til \(Z\) og gjør minste kvadrater på denne matrisa.
\end{frame}
\begin{frame}
\frametitle{Prinsipalkomponent-regresjon}
\begin{center}
\includegraphics[height=0.8\textheight]{pcr.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Parametervalg}
Aller først delte jeg datasettet i to deler: Ett treningssett med 3108 (\(80\%\)) pasienter og et valideringssett med 777 (\(20\%\)) pasienter.
\pause
For å bestemme parameterene til de tre metodene, brukte jeg kryss-validering.
\pause
\begin{itemize}
\pause
\item Treningssettet ble delt inn i 10 grupper.
\pause
\item Hver modell og valg av parameter ble trent på 9 grupper og testet på den siste.
\pause
\item Dette ble gjentatt for hver gruppe.
\pause
\item Vi estimerte prediksjonserroren og standard-erroren til denne estimatoren.
\pause
\item Jeg bestemte parameteren ved å bruke \emph{én standard-error}-regelen.
\end{itemize}
\end{frame}
\begin{frame}
\frametitle{Beste delmengde-utvalg}
\begin{center}
\includegraphics[height=0.8\textheight]{best_subset_CV.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Lasso-regresjon}
\begin{center}
\includegraphics[height=0.8\textheight]{lasso_CV.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Prinsipalkomponent-regresjon}
\begin{center}
\includegraphics[height=0.8\textheight]{pcr_CV.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Resultater}
\begin{tabular}{ l r r r r}
Prediktor & Minste kvadrater & Beste delmengde & Lasso & PCR \\
\hline
Kjønn & 0.070 & & & 0.008 \\
Alder & 0.317 & 0.356 & 0.271 & 0.214 \\
Sigaretter per dag & 0.002 & & & -0.080 \\
BMI & 0.259 & 0.275 & 0.196 & 0.171 \\
Diabetiker & 0.010 & & & 0.040 \\
Glukose-nivå & 0.059 & & & 0.047 \\
Utdanningsnivå & -0.034 & & & -0.148 \\
Kolesterol-nivå & 0.099 & & 0.043 & 0.176 \\
\hline
Test Error & 0.723 & 0.720 & 0.733 & 0.776 \\
Std Error & 0.039 & 0.039 & 0.040 & 0.041 \\
\end{tabular}
\end{frame}
\begin{frame}
\frametitle{Utvidelse av metodene}
Jeg dannet nye prediktorer ved å ta alle mulige produkter av de originale: \[X_1 \cdot X_1, X_1 \cdot X_2, \dots.\]
\pause
Disse prediktorene ble brukt til å danne en ny matrise \(\textbf{X}\) bestående av både de originale og de nye prediktorene, tilsammen 44 prediktorer.
\pause
Jeg utførte så Lasso-regresjon og PCR på denne nye matrisen.
\end{frame}
\begin{frame}
\frametitle{Lasso-regresjon (del 2)}
\begin{center}
\includegraphics[height=0.8\textheight]{lasso_CV2.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Prinsipalkomponent-regresjon (del 2)}
\begin{center}
\includegraphics[height=0.8\textheight]{pcr_CV2.png}
\end{center}
\end{frame}
\begin{frame}
\frametitle{Resultater}
\begin{center}
\begin{tabular}{ l r r}
& Lasso & PCR \\
\hline
Test Error & 0.716 & 0.773 \\
Std Error & 0.039 & 0.039
\end{tabular}
\end{center}
Vi ser at test-erroren fra lasso-regresjonen ble forbedret fra 0.733 til 0.716.
\end{frame}
\end{document}