[R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색

데이터 분석 목적: 현상을 파악하고 이면을 찾음

데이터 분석 절차 :

문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서

정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용

데이터 종류:

1. 특성에 따른 분류

1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음)

1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 )

2. 변수 개수에 의한 분류

2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용

2.2 다변량 (Multivariable Data): 변수 개수가 두 개 이상 → Matrix or Data.Frame 이용

- 이변량(Bivariable Data): 변수 개수가 두 개 ex) '키'가 크면 '몸무게'도 많이 나간다

1.1 - 2.2 범주형 다변량

1.2 - 2.2 연속형 다변량 (시계열, 주가 그래프 등)

산점도(Scatter Plot):

두 변수로 구성된 자료의 분포를 알아보는 그래프 관측값들의 분포를 통해 두 변수 사이의 관계를 파악

plot(wt~mpg, data = mtcars, main = "산점도 차트 제목", xlab = "x축 속성", ylab = "y축 속성"

, col = "색깔 지정", pch = "0부터 25까지 입력하여 점의 모양 지정")

다변량 산점도(대칭 관계):

pairs(mtcars, main = "산점도 차트 제목")

선형관계와 상관계수 r (-1 <= r <= 1): 절대값이 0.5 이상일 때, 값이 더 높을수록 상관관계가 더 높다고 할 수 있다.

상관계수(Correlation Coefficient): 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)

cor(x)

회귀식 y = xw + b [종속 변수 = 독립변수(x) X weight(w) + bias(b)]

lm() 회귀식 구하는 함수

abline() 최적의 예측선 출력

여러 그래프 한 번에 출력하기

par(mfrow= c(2,3)) : 2행 3열로 한 화면에 최대 총 6개의 그래프 출력

par(mfcol= c(2,3)) : 2열 3행으로 한 화면에 최대 총 6개 그래프 출력

상관분석 순서

1. 상관분석 대상 변수 선정

2. 산점도 작성

3. 회귀도 도출: lm()

- 회귀식: 두 변수의 선형관계를 가장 잘 나타낼 수 있는 선의 식 y = xw + b

4. 회귀선을 산점도에 표시: abline() - 최적의 예측선 출력

- 회귀선: 관측값들의 추세를 가장 잘 나타낼 수 있는 선

5. 상관계수 계산: cor()

6. 상관분석 결과 해석

[R] 데이터 전처리 - 결측치 처리 (제거 및 대체) (0)	2019.12.08
[R] 데이터 전처리 - 데이터 셋 보기 (0)	2019.12.04
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트 (0)	2019.12.02
[R] 데이터 시각화 - 도구 분류 (0)	2019.12.02
[R] 데이터 분석 절차와 데이터 종류 \| 단일 변수(일변량) 자료 탐색 (0)	2019.12.02

티스토리툴바