데이터 분석 목적: 현상을 파악하고 이면을 찾음
데이터 분석 절차 :
문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서
정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용
데이터 종류:
1. 특성에 따른 분류
1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음)
1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 )
2. 변수 개수에 의한 분류
2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용
2.2 다변량 (Multivariable Data): 변수 개수가 두 개 이상 → Matrix or Data.Frame 이용
- 이변량(Bivariable Data): 변수 개수가 두 개 ex) '키'가 크면 '몸무게'도 많이 나간다
1.1 - 2.2 범주형 다변량
1.2 - 2.2 연속형 다변량 (시계열, 주가 그래프 등)
산점도(Scatter Plot):
두 변수로 구성된 자료의 분포를 알아보는 그래프 관측값들의 분포를 통해 두 변수 사이의 관계를 파악
plot(wt~mpg, data = mtcars, main = "산점도 차트 제목", xlab = "x축 속성", ylab = "y축 속성"
, col = "색깔 지정", pch = "0부터 25까지 입력하여 점의 모양 지정")
다변량 산점도(대칭 관계):
pairs(mtcars, main = "산점도 차트 제목")
선형관계와 상관계수 r (-1 <= r <= 1): 절대값이 0.5 이상일 때, 값이 더 높을수록 상관관계가 더 높다고 할 수 있다.
상관계수(Correlation Coefficient): 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)
cor(x)
회귀식 y = xw + b [종속 변수 = 독립변수(x) X weight(w) + bias(b)]
lm() 회귀식 구하는 함수
abline() 최적의 예측선 출력
여러 그래프 한 번에 출력하기
par(mfrow= c(2,3)) : 2행 3열로 한 화면에 최대 총 6개의 그래프 출력
par(mfcol= c(2,3)) : 2열 3행으로 한 화면에 최대 총 6개 그래프 출력
상관분석 순서
1. 상관분석 대상 변수 선정
2. 산점도 작성
3. 회귀도 도출: lm()
- 회귀식: 두 변수의 선형관계를 가장 잘 나타낼 수 있는 선의 식 y = xw + b
4. 회귀선을 산점도에 표시: abline() - 최적의 예측선 출력
- 회귀선: 관측값들의 추세를 가장 잘 나타낼 수 있는 선
5. 상관계수 계산: cor()
6. 상관분석 결과 해석
'빅데이터 > R' 카테고리의 다른 글
[R] 데이터 전처리 - 결측치 처리 (제거 및 대체) (0) | 2019.12.08 |
---|---|
[R] 데이터 전처리 - 데이터 셋 보기 (0) | 2019.12.04 |
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트 (0) | 2019.12.02 |
[R] 데이터 시각화 - 도구 분류 (0) | 2019.12.02 |
[R] 데이터 분석 절차와 데이터 종류 | 단일 변수(일변량) 자료 탐색 (0) | 2019.12.02 |