데이터 분석 목적: 현상을 파악하고 이면을 찾음
데이터 분석 절차 :
문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서
정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용
데이터 종류:
1. 특성에 따른 분류
1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음)
1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 )
2. 변수 개수에 의한 분류
2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용
2.2 다변량 (Multivariable Data): 변수 개수가 두 개 이상 → Matrix or Data.Frame 이용
- 이변량(Bivariable Data): 변수 개수가 두 개 ex) '키'가 크면 '몸무게'도 많이 나간다
1.1 - 2.1 단일변수(일변량) 범주형 자료 탐색 - 주요 함수
함수 예시 | 설명 |
table(x) | x의 도수분포표 |
table(x) / length(x) | x의 도수분포표의 백분율(확률) |
a = table(x); barplot(a, main = "막대 차트 제목") |
x의 도수분포표의 막대 차트 |
pie(a, main = "원형 차트 제목") | x의 도수분포표의 원형 차트 |
1.2 - 2.1 단일변수(일변량) 연속형 자료 탐색 - 주요 함수
함수 예시 | 설명 |
mean(x, trim = 20) | 상위 20% 및 하위 20% 제거 후 평균 |
median(x) | 중앙값 |
quantile(x, probs=c(0.05, 0.1, 0.9, 0.95)) |
사분위수 출력: 2사분위(50%)가 중앙값 0%가 최소값, 100%가 최대값 probs 인수로 백분위 지정 가능 |
var(x) | 분산(Variance) |
sd(x) | 표준편차(Standard Deviation) = 분산의 제곱근 |
range(x) | 값의 범위(최소값과 최대값) |
diff(x) | 최대값과 최소값의 차이 |
hist() 함수: Histogram 히스토그램 시각화
측정값의 범위(구간)를 그래프의 x축에 놓고, 범위에 속하는 측정값의 출현 빈도수를 y축으로 나타낸 그래프 형태를 히스토그램(histogram)이라고 한다. 여기서 도수의 값을 선으로 연결하면 곡선이 얻어지는데, 이것을 분포곡선이라 한다.
연속형이기 때문에 그래프가 space 없이 붙어있다(막대 차트와 다른 부분).
히스토그램 | 설명 |
hist (데이터셋$열, main = "Histogram 제목", |
border: 테두리색 지정 col: 막대 색 지정 las: 축 서식 글자 방향(0, 1, 2, 3) breaks: 막대 수 |
boxplot() 함수: 상자그래프; 상자그림
상자 그래프는 요약정보를 시각화하는 데 효과적이다. 특히 데이터의 분포 정도와 이상치 발견을 목적으로 하는 경우 유용하게 사용된다.
boxplot() 함수 [내장 데이터셋 cars 이용] | 설명 |
boxplot(cars[, 2], main ="자동차 제동거리") | 상자그래프 출력 |
boxplot.stats(cars[, 2]) | 아래 4개 정보 모두 출력! |
boxplot.stats(cars[, 2])$stats | 정상범위 사분위수 |
boxplot.stats(cars[, 2])$n | 관측치 개수 |
boxplot.stats(cars[, 2])$conf | 중앙값 신뢰구간 |
boxplot.stats(cars[, 2])$out | 이상치(특이값) 목록 |
par() 함수: 가상화면 분할 및 해제
함수 예시 | 설명 |
par(mfrow = c(2,3)) | 가상화면(차트 출력화면)을 2 X 3으로 분할 |
par(mfrow = c(1,1)) | 가상화면 분할 해제 |
'빅데이터 > R' 카테고리의 다른 글
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트 (0) | 2019.12.02 |
---|---|
[R] 데이터 시각화 - 도구 분류 (0) | 2019.12.02 |
[R] 로컬 파일 가져오기 (csv 파일 읽기 & 쓰기, 엑셀 xlsx 파일 읽기) (0) | 2019.12.01 |
[R] DataFrame 데이터프레임 자료구조 (0) | 2019.12.01 |
[R] Matrix 매트릭스 자료 구조 (0) | 2019.12.01 |