Top 31 로지스틱 회귀 분석 R The 186 Latest Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 로지스틱 회귀 분석 r on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://toplist.logostyle.vn team, along with other related topics such as: 로지스틱 회귀 분석 r 로지스틱 회귀분석 r 코드, 다중 로지스틱 회귀분석 r 예제, 로지스틱 회귀분석 r제곱, 로지스틱 회귀분석 r 해석, r 다중 로지스틱 회귀분석, r 로지스틱 회귀분석 시각화, 다항 로지스틱 회귀분석 r, R logistic regression


로지스틱 회귀분석 R에서 따라하기 1부 – 깜신의 통계 왕초보 탈출 36탄
로지스틱 회귀분석 R에서 따라하기 1부 – 깜신의 통계 왕초보 탈출 36탄


[R] Logistic regression (로지스틱 회귀분석)

  • Article author: bioinformaticsandme.tistory.com
  • Reviews from users: 47064 ⭐ Ratings
  • Top rated: 3.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [R] Logistic regression (로지스틱 회귀분석) 일반화선형모형은 R의 내장함수인 glm()함수를 사용. : 로지스틱 회귀분석에서는 glm()함수에 ‘family=binomial’ 인수를 지정해야함. …
  • Most searched keywords: Whether you are looking for [R] Logistic regression (로지스틱 회귀분석) 일반화선형모형은 R의 내장함수인 glm()함수를 사용. : 로지스틱 회귀분석에서는 glm()함수에 ‘family=binomial’ 인수를 지정해야함. Training is everything.
  • Table of Contents:
[R] Logistic regression (로지스틱 회귀분석)
[R] Logistic regression (로지스틱 회귀분석)

Read More

5. 로지스틱 회귀분석(R Code) – Must Learning with R

  • Article author: wikidocs.net
  • Reviews from users: 30391 ⭐ Ratings
  • Top rated: 3.8 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 5. 로지스틱 회귀분석(R Code) – Must Learning with R 2. 모형의 성능 평가 · 극단적인 결과지만, 분석을 잘못 돌린 경우 이러한 분석결과가 나올 때가 종종 있습니다. 이 분석 결과에 따르면 Accuracy는 98%로 매우 높습니다. …
  • Most searched keywords: Whether you are looking for 5. 로지스틱 회귀분석(R Code) – Must Learning with R 2. 모형의 성능 평가 · 극단적인 결과지만, 분석을 잘못 돌린 경우 이러한 분석결과가 나올 때가 종종 있습니다. 이 분석 결과에 따르면 Accuracy는 98%로 매우 높습니다. 온라인 책을 제작 공유하는 플랫폼 서비스
  • Table of Contents:
5. 로지스틱 회귀분석(R Code) - Must Learning with R
5. 로지스틱 회귀분석(R Code) – Must Learning with R

Read More

RPubs – 로지스틱 회귀분석

  • Article author: rpubs.com
  • Reviews from users: 9966 ⭐ Ratings
  • Top rated: 4.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about RPubs – 로지스틱 회귀분석 R에서 로지스틱 회귀분석은 glm() 함수를 활용합니다. glm(formula, data, family = “binomial”) ㅇ formula : 반응변수 ~ 설명변수1+ 설명변수2+ … …
  • Most searched keywords: Whether you are looking for RPubs – 로지스틱 회귀분석 R에서 로지스틱 회귀분석은 glm() 함수를 활용합니다. glm(formula, data, family = “binomial”) ㅇ formula : 반응변수 ~ 설명변수1+ 설명변수2+ …
  • Table of Contents:
RPubs - 로지스틱 회귀분석
RPubs – 로지스틱 회귀분석

Read More

7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋 : 네이버 블로그

  • Article author: m.blog.naver.com
  • Reviews from users: 1091 ⭐ Ratings
  • Top rated: 3.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋 : 네이버 블로그 로지스틱 회귀(Logistic Regression)의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 … …
  • Most searched keywords: Whether you are looking for 7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋 : 네이버 블로그 로지스틱 회귀(Logistic Regression)의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 …
  • Table of Contents:

카테고리 이동

아이리스님의블로그

이 블로그 
R 프로그래밍
 카테고리 글

카테고리

이 블로그 
R 프로그래밍
 카테고리 글

7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋 : 네이버 블로그
7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋 : 네이버 블로그

Read More

로지스틱회귀분석 (R)

  • Article author: every-day-life.tistory.com
  • Reviews from users: 45786 ⭐ Ratings
  • Top rated: 3.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 로지스틱회귀분석 (R) 로지스틱 회귀는 확률이 무조건 0과 1 사이에 분포한다고 가정한 후 진행한다. 따라서 확률이 낮을 때는 0에 가까워야 하며, 높을 때는 1에 가까워야 한다 … …
  • Most searched keywords: Whether you are looking for 로지스틱회귀분석 (R) 로지스틱 회귀는 확률이 무조건 0과 1 사이에 분포한다고 가정한 후 진행한다. 따라서 확률이 낮을 때는 0에 가까워야 하며, 높을 때는 1에 가까워야 한다 … 살좀빼자 님의 블로그입니다.
  • Table of Contents:
로지스틱회귀분석 (R)
로지스틱회귀분석 (R)

Read More

R로 데이터 분석하기 – 모델링 (2) : 로지스틱 회귀분석 – Eunkyung’s github Blog

  • Article author: ek-koh.github.io
  • Reviews from users: 29652 ⭐ Ratings
  • Top rated: 4.5 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about R로 데이터 분석하기 – 모델링 (2) : 로지스틱 회귀분석 – Eunkyung’s github Blog R에서 로지스틱 회귀분석을 수행하는 방법에 대해 정리한 글입니다. …
  • Most searched keywords: Whether you are looking for R로 데이터 분석하기 – 모델링 (2) : 로지스틱 회귀분석 – Eunkyung’s github Blog R에서 로지스틱 회귀분석을 수행하는 방법에 대해 정리한 글입니다. R에서 로지스틱 회귀분석을 수행하는 방법에 대해 정리한 글입니다.
  • Table of Contents:

Skip links

1 로지스틱 회귀분석

스태킹(Stacking) 앙상블

불균형 데이터로 머신러닝 수행하기 – 언더 샘플링(Undersampling) 오버 샘플링(Oversampling)

R로 데이터 분석하기 – 모델링 (3) 랜덤포레스트(Random Forest)

See also  Top 42 간편 복리 계산기 Trust The Answer

R로 데이터 분석하기 – 모델링 (1) 회귀분석

R로 데이터 분석하기 - 모델링 (2) : 로지스틱 회귀분석 - Eunkyung’s github Blog
R로 데이터 분석하기 – 모델링 (2) : 로지스틱 회귀분석 – Eunkyung’s github Blog

Read More

[R] R을 이용한 로지스틱회귀분석

  • Article author: dncjf0223.tistory.com
  • Reviews from users: 5144 ⭐ Ratings
  • Top rated: 4.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [R] R을 이용한 로지스틱회귀분석 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨 -> 일종의 분류 기법 … 변수 추가 기준과 검증, R^2 변화량, F 검증, -2Ln 변화량 검증. …
  • Most searched keywords: Whether you are looking for [R] R을 이용한 로지스틱회귀분석 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨 -> 일종의 분류 기법 … 변수 추가 기준과 검증, R^2 변화량, F 검증, -2Ln 변화량 검증. 26살! 계획과 실행을 좋아합니다:)
    소프트웨어 전공생
  • Table of Contents:
[R] R을 이용한 로지스틱회귀분석
[R] R을 이용한 로지스틱회귀분석

Read More

[ADP] R로 하는 로지스틱 회귀분석

  • Article author: todayisbetterthanyesterday.tistory.com
  • Reviews from users: 27911 ⭐ Ratings
  • Top rated: 3.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about [ADP] R로 하는 로지스틱 회귀분석 [ADP] R로 하는 로지스틱 회귀분석 … 로지스틱 회귀모형은 설명변수의 값이 주어질 때, 특정 종속변수 집단에 속할 확률을 추정하여 특정 임계값을 … …
  • Most searched keywords: Whether you are looking for [ADP] R로 하는 로지스틱 회귀분석 [ADP] R로 하는 로지스틱 회귀분석 … 로지스틱 회귀모형은 설명변수의 값이 주어질 때, 특정 종속변수 집단에 속할 확률을 추정하여 특정 임계값을 … ML/DL 을 공부하고, ADP를 취득하기 위한 학부생의 공부노트입니다.
  • Table of Contents:
[ADP] R로 하는 로지스틱 회귀분석
[ADP] R로 하는 로지스틱 회귀분석

Read More

R – 로지스틱 회귀분석(Logistic Regression)

  • Article author: 3months.tistory.com
  • Reviews from users: 26498 ⭐ Ratings
  • Top rated: 3.4 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about R – 로지스틱 회귀분석(Logistic Regression) R – 로지스틱 회귀분석 데이터 탐색 GRE, GPA, RANK이 입학(admission)에 어떤 영향을 주는지 로지스틱 회귀분석을 통해 분석한다. library(aod) … …
  • Most searched keywords: Whether you are looking for R – 로지스틱 회귀분석(Logistic Regression) R – 로지스틱 회귀분석 데이터 탐색 GRE, GPA, RANK이 입학(admission)에 어떤 영향을 주는지 로지스틱 회귀분석을 통해 분석한다. library(aod) … interested in data analytics and ML modeling
  • Table of Contents:
R - 로지스틱 회귀분석(Logistic Regression)
R – 로지스틱 회귀분석(Logistic Regression)

Read More

R 로지스틱회귀분석 – 제타위키

  • Article author: zetawiki.com
  • Reviews from users: 17497 ⭐ Ratings
  • Top rated: 4.6 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about R 로지스틱회귀분석 – 제타위키 R 로지스틱회귀분석 · 1 개요 · 2 독립변수 1개. 2.1 예시: 공부시간과 합격확률; 2.2 예시: iris 자료 · 3 독립변수 2개 이상. 3.1 예시: mtcars; 3.2 예시: … …
  • Most searched keywords: Whether you are looking for R 로지스틱회귀분석 – 제타위키 R 로지스틱회귀분석 · 1 개요 · 2 독립변수 1개. 2.1 예시: 공부시간과 합격확률; 2.2 예시: iris 자료 · 3 독립변수 2개 이상. 3.1 예시: mtcars; 3.2 예시: …
  • Table of Contents:

목차

1 개요[ ]

2 독립변수 1개[ ]

3 독립변수 2개 이상[ ]

4 같이 보기[ ]

R 로지스틱회귀분석 - 제타위키
R 로지스틱회귀분석 – 제타위키

Read More


See more articles in the same category here: Top 510 tips update new.

[R] Logistic regression (로지스틱 회귀분석)

MeDiscovery

[R] Logistic regression (로지스틱 회귀분석) Start

BioinformaticsAndMe

Logistic regression (로지스틱 회귀분석)

: 로지스턱 회귀분석은 종속변수(반응변수)가 범주형 데이터인 경우에 사용되는 회귀 분석법

: 종속변수 y는 ‘성공(1) 및 실패(0)’의 두 가지 값(이항변수)을 갖음

*환자사망여부/전염병발병여부/교통사고발생여부 등

: 로지스티 회귀분석은 지도 학습으로 분류되며, 특정 결과의 분류 및 예측을 위해 사용됨

일반화선형모형 (Generalized linear model)

: 일반화선형모형은 정규분포를 따르지 않는 종속변수의 선형 모형 확장으로, 로지스틱회귀 또는 포아송회귀에 사용됨

: 일반화선형모형은 R의 내장함수인 glm()함수를 사용

: 로지스틱 회귀분석에서는 glm()함수에 ‘family=binomial’ 인수를 지정해야함

1. 실습 대장암 데이터 로딩

# survival 패키지의 1858명 colon 데이터 install.packages(“survival”) library(survival) str(colon) ‘data.frame’: 1858 obs. of 16 variables: $ id : num 1 1 2 2 3 3 4 4 5 5 … $ study : num 1 1 1 1 1 1 1 1 1 1 … $ rx : Factor w/ 3 levels “Obs”,”Lev”,”Lev+5FU”: 3 3 3 3 1 1 3 3 1 1 … $ sex : num 1 1 1 1 0 0 0 0 1 1 … $ age : num 43 43 63 63 71 71 66 66 69 69 … $ obstruct: num 0 0 0 0 0 0 1 1 0 0 … $ perfor : num 0 0 0 0 0 0 0 0 0 0 … $ adhere : num 0 0 0 0 1 1 0 0 0 0 … $ nodes : num 5 5 1 1 7 7 6 6 22 22 … $ status : num 1 1 0 0 1 1 1 1 1 1 … $ differ : num 2 2 2 2 2 2 2 2 2 2 … $ extent : num 3 3 3 3 2 2 3 3 3 3 … $ surg : num 0 0 0 0 0 0 1 1 1 1 … $ node4 : num 1 1 0 0 1 1 1 1 1 1 … $ time : num 1521 968 3087 3087 963 … $ etype : num 2 1 2 1 2 1 2 1 2 1 …

2. 로지스틱 회귀분석 수행

■반응변수 – status(대장암 재발 또는 사망인 경우 1)

■예측변수

– obstruct : 종양에 의한 장의 폐쇄 (obstruction)

– perfor : 장의 천공 (perforation)

– adhere : 인접장기와의 유착 (adherence)

– nodes : 암세포가 확인된 림프절 수

– differ : 암세포의 조직학적 분화 정도 (1=well, 2=moderate, 3=poor)

– extent : 암세포가 침습한 깊이 (1=submucosa, 2=muscle, 3=serosa, 4=인접장기)

– surg : 수술 후 등록까지의 시간 (0=short, 1=long)

# 로지스틱 회귀분석에서 ‘family=binomial’로 지정 colon1<-na.omit(colon) result<-glm(status ~ sex+age+obstruct+perfor+adhere+nodes+differ+extent+surg, family=binomial, data=colon1) summary(result) Call: glm(formula = status ~ rx + sex + age + obstruct + perfor + adhere + nodes + differ + extent + surg, family = binomial, data = colon1) Deviance Residuals: Min 1Q Median 3Q Max -2.575 -1.046 -0.584 1.119 2.070 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.430926 0.478301 -5.082 3.73e-07 *** rxLev -0.069553 0.122490 -0.568 0.570156 rxLev+5FU -0.585606 0.124579 -4.701 2.59e-06 *** sex -0.086161 0.101614 -0.848 0.396481 age 0.001896 0.004322 0.439 0.660933 obstruct 0.219995 0.128234 1.716 0.086240 . perfor 0.085831 0.298339 0.288 0.773578 adhere 0.373527 0.147164 2.538 0.011144 * nodes 0.185245 0.018873 9.815 < 2e-16 *** differ 0.031839 0.100757 0.316 0.752003 extent 0.563617 0.116837 4.824 1.41e-06 *** surg 0.388068 0.113840 3.409 0.000652 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2461.7 on 1775 degrees of freedom Residual deviance: 2240.4 on 1764 degrees of freedom AIC: 2264.4 Number of Fisher Scoring iterations: 4 3. 유의한 변수 선택 : backward elimination방법으로 stepwise logistic regression 수행 *backward elimination 참고 - https://bioinformaticsandme.tistory.com/290 # 유의하지 않은 변수를 누락하고 로지스틱 회귀모형을 새롭게 정의 reduced.model=step(result, direction = "backward") summary(reduced.model) Call: glm(formula = status ~ rx + obstruct + adhere + nodes + extent + surg, family = binomial, data = colon1) Deviance Residuals: Min 1Q Median 3Q Max -2.5583 -1.0490 -0.5884 1.1213 2.0393 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.30406 0.35138 -6.557 5.49e-11 *** rxLev -0.07214 0.12221 -0.590 0.554978 rxLev+5FU -0.57807 0.12428 -4.651 3.30e-06 *** obstruct 0.22148 0.12700 1.744 0.081179 . adhere 0.38929 0.14498 2.685 0.007251 ** nodes 0.18556 0.01850 10.030 < 2e-16 *** extent 0.56510 0.11643 4.854 1.21e-06 *** surg 0.38989 0.11371 3.429 0.000606 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2461.7 on 1775 degrees of freedom Residual deviance: 2241.5 on 1768 degrees of freedom AIC: 2257.5 Number of Fisher Scoring iterations: 4 4. 예측 인자들의 Odds ratio 구하기 : 예측 변수들의 오즈비 계산 # 오즈비 출력 함수 정의 ORtable=function(x,digits=2){ suppressMessages(a<-confint(x)) result=data.frame(exp(coef(x)),exp(a)) result=round(result,digits) result=cbind(result,round(summary(x)$coefficient[,4],3)) colnames(result)=c("OR","2.5%","97.5%","p") result } ORtable(reduced.model) OR 2.5% 97.5% p (Intercept) 0.10 0.05 0.20 0.000 rxLev 0.93 0.73 1.18 0.555 rxLev+5FU 0.56 0.44 0.72 0.000 obstruct 1.25 0.97 1.60 0.081 adhere 1.48 1.11 1.96 0.007 nodes 1.20 1.16 1.25 0.000 extent 1.76 1.41 2.22 0.000 surg 1.48 1.18 1.85 0.001 # Odds ratio 시각화 install.packages(“moonBook”) library(moonBook) odds_ratio = ORtable(reduced.model) odds_ratio = odds_ratio[2:nrow(odds_ratio),] HRplot(odds_ratio, type=2, show.CI=TRUE, cex=2) #Reference 1) https://www.tech-quantum.com/classification-logistic-regression/ 2) https://rstudio-pubs-static.s3.amazonaws.com/41074_62aa52bdc9ff48a2ba3fb0f468e19118.html 3) http://www.dodomira.com/2016/02/12/logistic-regression-in-r/ 4) https://link.springer.com/chapter/10.1007/978-1-4842-4470-8_20 [R] Logistic regression (로지스틱 회귀분석) End BioinformaticsAndMe

5. 로지스틱 회귀분석(R Code)

5. 로지스틱 회귀분석(R Code)

로지스틱 회귀분석도 결국은 회귀분석이기에 돌리는 방법은 비슷하지만 일반적인 회귀분석보다는 좀 까다롭습니다. 데이터는 역시 인사관리 데이터(HR)를 이용하여 진행하겠습니다.

직원들의 이직 여부를 판단하는 분류 모형을 만들어 통계적으로 검정하고자 합니다. $$ H_0:이직에\;영향을\;미치는 변수들의\;기울기는\;0이다.\ $$ $$ H_1:not\;H_0 $$

1. 로지스틱 회귀분석 진행

Logistic = glm(left ~ satisfaction_level + salary + time_spend_company, data = HR, family = binomial())

로지스틱 회귀분석은 일반화 선형 모형이기 때문에 glm() 명령어로 진행합니다.

family = binomial()은 일반화 선형 모형에서는 다양한 분포의 종속 변수에 적용하기 때문에, 종속 변수가 어떤 분포를 따르고 있는지 옵션을 주는 것입니다. left는 이직 여부를 나타내는 이항 변수이므로 이항 분포를 따르고 있습니다. 그러므로 binomial()을 설정해줍니다. ​

> summary(Logistic) Call: glm(formula = left ~ satisfaction_level + salary + time_spend_company, family = binomial(), data = HR) Deviance Residuals: Min 1Q Median 3Q Max -1.8628 -0.6774 -0.4666 -0.1781 2.7644 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.48069 0.07532 6.382 1.75e-10 *** satisfaction_level -3.72386 0.08852 -42.069 < 2e-16 *** salarymedium -0.53427 0.04436 -12.044 < 2e-16 *** salaryhigh -1.98592 0.12461 -15.938 < 2e-16 *** time_spend_company 0.21159 0.01418 14.922 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 16465 on 14998 degrees of freedom Residual deviance: 13597 on 14994 degrees of freedom AIC: 13607 Number of Fisher Scoring iterations: 5 결과표 해석은 회귀분석에서 했던 것과 같습니다. 또한 Deviance, AIC 값은 다음 장에서 설명하도록 하겠습니다. 여기서 주목해야 되는 점은 Dummy variable(가변수)로 변환되어 모형에 투입 된 salary 변수의 기울기 해석입니다. Dummy variable은 범주형 변수가 회귀 모형에 투입될 때 분석에 맞게 변환 된 변수입니다. 성별(Male, Female)변수를 회귀모형에 투입하기 위해 Dummy variable로 변환시켜 보겠습니다. 성별 D_1(Dummy variable) Male 0 (reference) Female 1 더미 변수 변환은 먼저 하나의 수준을 기준점(reference)으로 정하는 것부터 시작합니다. 여기 예시에서는 Male을 기준점으로 해서 Male일 때는 D_1이 0을 가지고 Female에 해당될 때는 1을 가지도록 변환했습니다. 이 변수를 모형에 투입하면 다음처럼 해석합니다. $$ \hat{y_i}=b_0+b_1D_1 $$ Male 일 경우 : $\hat{y_i}=b_0$ Female일 경우 : $\hat{y_i}=b_0+b_1$ ​ Female일 경우 Male일 때보다 $\hat{y_i}$가 $b_1$만큼 증가한다는 의미를 가지고 있습니다. 이렇게 기준점을 기반으로 해석을 진행합니다. 다음으로는 salary 변수처럼 3가지 수준을 가지고 있을 때는 어떻게 진행하는지 보도록 하겠습니다. salary salarymedium salaryhigh low 0 0 (reference) medium 1 0 high 0 1 R에서는 기본적으로 Factor 변수가 모형에 들어오면 자동으로 Dummy variable로 변환해서 결과값을 출력합니다. 기준점은 첫 번째로 인식된 수준입니다. 기준을 바꿔주고 싶다면 factor 지정을 해주시면 됩니다. HR$salary = factor(HR$salary ,levels = c('low','medium','high')) 분석 전에 위와 같은 명령어를 통해 salary 변수의 level 순서를 'low', 'medium', 'high'순으로 지정 해줌으로써 low가 자동으로 기준점이 된 것입니다. 분석 결과 R에서 제시된 로지스틱 회귀식을 정리하면 다음과 같습니다. $$ log(\frac{\hat{\pi}x}{1-\hat{\pi}x})=0.48-3.72Satisfaction\;level +0.53salarymedium - 1.98salaryhigh+0.22time\;spend\;company $$ ​ Dummy variable로 변환이 된 salary변수부터 해석해 보겠습니다. ​ $$ low:log\left(\frac{\hat{\pi}x}{1-\hat{\pi}x}\right)=0.48+0.22time\;spend\;company\ \; $$ $$ medium:log\left(\frac{\hat{\pi}x}{1-\hat{\pi}x}\right)=0.48-3.72Satisfaction\;level-0.53\+0.22time\;spend\;company\ \; \ \; \ $$ $$ high:log\left(\frac{\hat{\pi}x}{1-\hat{\pi}x}\right)=0.48-3.72Satisfaction\;-1.98\+0.22time\;spend\;company $$ ​ 기준점인 low일 때는 medium & high에 해당되는 회귀 계수는 모두 0이 됩니다. medium일 때는 salarymedium의 회귀 계수인 $-0.53$이 남아 있어, logit값이 -0.53만큼 낮아집니다. high 집단에 속할 때는 low 집단에 비해 이직을 할 logit값이 $-1.98$만큼 감소합니다. 나머지 satisfaction_level은 증가할수록 이직할 logit은 내려가게 되고, time_spend_company는 증가할수록 이직할 logit은 증가하는 것을 의미합니다. 각 변수의 계수에 지수변환을 해주면 해당 변수의 변화에 따른 오즈비 역시 구할 수 있습니다. ​ 2. 모형의 성능 평가 회귀분석에서는 $R^2$를 통해 모형의 성능을 평가하지만, 일반적으로 로지스틱 회귀분석에서는 다른 방법을 사용하게 됩니다. 그 방법은 분류 모형이 실제로 얼마나 맞췄는가를 평가하는 것입니다. 그러기 위해서는 만들어진 로지스틱 회귀 모형에 데이터를 집어 넣어, 확률을 추정하고 그에 따른 분류를 해야합니다. Log_odds = predict(Logistic, newdata = HR) Probability = predict(Logistic, newdata = HR, type = 'response') predict()는 만들어진 모형에 데이터를 넣어 추정값을 계산하는 방식입니다. type 옵션이 없으면 predict을 통해 $log(\frac{\hat{\pi}_x}{1-\hat{\pi}_x}$)이 계산이 됩니다. type = 'response' 옵션을 주면 predict을 통해 $\hat{\pi}_x$가 계산이 됩니다. 즉, 우리가 관심이 있는 값은 직원들이 이직을 할 확률 $\hat{\pi}_x$이기에 옵션을 준 값으로 계산을 해야합니다. ​ 그 다음으로는 계산된 $\hat{\pi}_x$를 가지고 이직 여부를 판단해야 됩니다. 예를 들어 이직 할 확률이 0.5보다 큰 경우에는 이직으로 판단, 나머지는 이직을 하지 않는 집단으로 분류 합니다. 여기서 확률을 구분 짓는 값을 cut-off value라고 합니다. PREDICTED_C = ifelse(Probability > 0.5 , 1 , 0) PREDICTED_C = as.factor(PREDICTED_C)

다음 처럼 ifelse()문을 이용하여 cut-off value에 따라 분류를 진행해줍니다. 그 다음으로는 실제 값과 모델에 의한 분류 결과를 비교해야합니다.

# install.packages(c(“caret”,”e1071″)) library(caret) confusionMatrix(HR$left,PREDICTED_C)

실제값과 모델에 의한 분류값을 비교하는 테이블을 Confusion Matrix라고 합니다.

실제 값(Positive) 실제 값(Negative) 모형 예측값(Positive) True Positve(TP) False Positive(FP) 모형 예측값(Negative) False Negative(FN) True Negative(TN)

True Positive & True Negative 는 모형 예측값이 실제 값을 맞춘 경우에 해당됩니다.

는 모형 예측값이 실제 값을 맞춘 경우에 해당됩니다. False Negative & False Positive 는 모형 예측값이 실제 값을 맞추지 못한 경우에 해당됩니다.

는 모형 예측값이 실제 값을 맞추지 못한 경우에 해당됩니다. Accuracy : $\frac{TP+TN}{TP+FP+FN+TN}$ : 전체 정확도를 의미합니다.

Sensitivity(민감도) : $\frac{TP}{TP+FN}$ :실제 Positive 중에서 모형이 Positive를 맞추었는가에 대한 지표입니다.

Specificity(특이도) : $\frac{FP}{FP+TN}$ : 실제 Negative 중에서 모형이 Negative를 맞추었는가에 대한 지표입니다.

전체 정확도만 보는 것이 아니고 민감도 및 특이도를 보는 이유는 다음과 같습니다.

실제 값(Positive) 실제 값(Negative) 모형 예측값(Positive) 1000 10 모형 예측값(Negative) 2 1

극단적인 결과지만, 분석을 잘못 돌린 경우 이러한 분석결과가 나올 때가 종종 있습니다. 이 분석 결과에 따르면 Accuracy는 98%로 매우 높습니다. 하지만 Specificiy는 0.1도 되지 않습니다. 이러한 분석 모형은 크게 의미가 없습니다. 모형이 데이터를 Neagtive로 분류하지 못하기 때문입니다. ​

각 산업군마다 중요한 부분이 다릅니다. 예를 들어 병원에서 환자의 질병을 판단하는 분류 모형을 만들어 해당 모형의 정확도를 계산하는 경우에, False Positive : 실제로 Negative인데 Positive로 오분류한 경우 (병이 없는데 병이 있다고 분류) False Negative : 실제로 Positive인데 Negative로 오분류한 경우 (병이 있는데 병이 없다고 분류) 질병을 발견 못하는 실수는 돌이킬 수가 없기에, 병원에서는 False Negative가 False Positive가 더 중요한 값일 수 있습니다. ​

> confusionMatrix(HR$left,PREDICTED_C) Confusion Matrix and Statistics Reference Prediction 0 1 0 10614 814 1 2301 1270 Accuracy : 0.7923 95% CI : (0.7857, 0.7988) No Information Rate : 0.8611 P-Value [Acc > NIR] : 1 Kappa : 0.3319 Mcnemar`s Test P-Value : <2e-16 Sensitivity : 0.8218 Specificity : 0.6094 Pos Pred Value : 0.9288 Neg Pred Value : 0.3556 Prevalence : 0.8611 Detection Rate : 0.7076 Detection Prevalence : 0.7619 Balanced Accuracy : 0.7156 Positive Class : 0 Confusion Matrix의 결과를 통해 Accuracy, Sensitivity, Specificity의 값을 확인할 수가 있습니다. 여기서 하나 주의할 점은, 위에서 cut-off value를 0.5로 하여 분류했다는 것입니다. 이 cut-off value가 중요한 이유는 그 값에 따라 분류가 천차만별이기 때문입니다. 그렇기에 모든 cut-off value를 고려하여 결과값의 변화를 살펴봐야하는데, 그 방법을 ROC curve라고 합니다. ​ Roc Curve library(pROC) ROC = roc(HR$left,Probability) plot.roc(ROC, col="royalblue", print.auc=TRUE, max.auc.polygon=TRUE, print.thres=TRUE, print.thres.pch=19, print.thres.col = "red", auc.polygon=TRUE, auc.polygon.col="#D1F2EB") Roc Curve의 y축은 Sensitivity이며, x 축은 Specificity입니다. X축이 1 ~ 0 순서로 그려져 있는 것을 주의하시기 바랍니다. Roc Curve는 cut off value의 값에 따라 Sensitivity와 Specificity의 변화량을 나타낸 그래프입니다. AUC는 Area under curve의미로, 곡선에 해당되는 면적을 나타냅니다. AUC값이 높을수록 바람직한 모형이라고 할 수 있습니다. 가장 좋은 결과값을 나타내는 cut off value 값 및 sensitivity, specificity 역시 추가할 수 있습니다. 이렇게 로지스틱 회귀분석의 이론 및 실습방법을 다루었습니다. 분류모형은 이런 로지스틱 기법이 기본 아이디어이긴 하지만, 정확한 분석을 위해서는 Train / Test SET을 통한 타당성 검증, 좋은 변수 선택법 및 기계학습 알고리즘과의 비교 분석 등이 함께 되어야 합니다. 다음 장에서부터는 해당 내용을 다루도록 하겠습니다.

7.14.3 R에서 로지스틱 회귀분석(Logistic Regresssion) Example (2) : mtcars 데이터셋

1. 들어가기

로지스틱 회귀(Logistic Regression) 의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것입니다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사할 수 있지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (classification) 기법이라 할 수 있습니다.1) 흔히 로지스틱 회귀는 종속변수가 이항형 문제(즉, 유효한 범주의 개수가 두개인 경우)를 지칭할 때 사용되지만 이외에, 두 개 이상의 범주를 가지는 문제가 대상인 경우엔 다항 로지스틱 회귀 (multinomial logistic regression) 복수의 범주이면서 순서가 존재하면 서수 로지스틱 회귀 (ordinal logistic regression)등 다항형 종속변수에도 로지스틱 회귀분석을 적용할 수 있습니다.

이번 포스팅은 R에서 로지스틱 회귀분석을 mtcars 데이터에 적용하는 방법에 대해 알아보도록 하겠습니다.

2. 로지스틱 회귀분석의 용도

로지스틱 회귀분석은 분류 모델링에 사용되는 기법으로 새로운 데이터에 대해 “분류를 예측”하거나” 예측변수 프로파일링”을 할 수 있습니다. 즉, 다음과 같은 응용분야에서 사용할 수 있습니다.

· 고객을 재구매 고객과 처음 구매한 고객으로 분류(분류)

· 남자 최고 경영진과 여자 최고 경영진을 구별하는 요인 찾기(프로파일링)

3. 로지스틱 회귀분석 전개

로지스틱 회귀분석이 일반적인 회귀분석과 가장 크게 차이나는 부분은 종속변수를 단순히 Y로 두는 대신에 로짓함수를 이용합니다. 로짓함수를 이용하는 이유는 p(0 ~ 1)를 단순하게 종속변수로 두어 선형회귀모형을 만들면 다음과 같은 식이 만들어집니다.

So you have finished reading the 로지스틱 회귀 분석 r topic article, if you find this article useful, please share it. Thank you very much. See more: 로지스틱 회귀분석 r 코드, 다중 로지스틱 회귀분석 r 예제, 로지스틱 회귀분석 r제곱, 로지스틱 회귀분석 r 해석, r 다중 로지스틱 회귀분석, r 로지스틱 회귀분석 시각화, 다항 로지스틱 회귀분석 r, R logistic regression

Leave a Comment