young
is this it
young
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • 웹_프론트엔드 (1)
      • 로드맵 챌린지 (73)
      • Svelte (2)
      • React (6)
      • JavaScript (8)
      • TypeScript (2)
      • HTML+CSS (5)
    • 웹_백엔드 (0)
      • Django (0)
    • 빅데이터 (33)
      • R (30)
      • Python (2)
    • 기타 (11)
      • git (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • bem
  • 버전관리
  • 암호화
  • 인증
  • form
  • 보안취약점
  • 대칭키
  • vcs
  • ggplot
  • css네이밍
  • owasp
  • Regex
  • 웹보안
  • ssl
  • 태스크러너
  • 구글맵api
  • rstudio지도정보
  • 공개키
  • ggmap()
  • css후처리기

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
young

is this it

빅데이터/R

[R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색

2019. 12. 3. 17:49
반응형

데이터 분석 목적: 현상을 파악하고 이면을 찾음

 

데이터 분석 절차 :

문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서

 

정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용

 

데이터 종류:

1. 특성에 따른 분류

1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음)

1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 )

 

2. 변수 개수에 의한 분류

2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용

2.2 다변량 (Multivariable Data): 변수 개수가 두 개 이상 → Matrix or Data.Frame 이용

 - 이변량(Bivariable Data): 변수 개수가 두 개 ex) '키'가 크면 '몸무게'도 많이 나간다

 

 

1.1 - 2.2 범주형 다변량

 

1.2 - 2.2 연속형 다변량 (시계열, 주가 그래프 등)

 

 

산점도(Scatter Plot):

두 변수로 구성된 자료의 분포를 알아보는 그래프 관측값들의 분포를 통해 두 변수 사이의 관계를 파악

plot(wt~mpg, data = mtcars, main = "산점도 차트 제목", xlab = "x축 속성", ylab = "y축 속성"

, col = "색깔 지정", pch = "0부터 25까지 입력하여 점의 모양 지정") 

 

다변량 산점도(대칭 관계):

pairs(mtcars, main = "산점도 차트 제목")

 

선형관계와 상관계수 r (-1 <= r <= 1): 절대값이 0.5 이상일 때, 값이 더 높을수록 상관관계가 더 높다고 할 수 있다.

 

상관계수(Correlation Coefficient): 두 변량 X, Y 사이의 상관관계의 정도를 나타내는 수치(계수)

cor(x)

 

회귀식 y = xw + b [종속 변수 = 독립변수(x) X weight(w) + bias(b)]

lm() 회귀식 구하는 함수

abline() 최적의 예측선 출력

 

여러 그래프 한 번에 출력하기

par(mfrow= c(2,3)) : 2행 3열로 한 화면에 최대 총 6개의 그래프 출력

par(mfcol= c(2,3)) :  2열 3행으로 한 화면에 최대 총 6개 그래프 출력

 

상관분석 순서

1. 상관분석 대상 변수 선정

2. 산점도 작성

3. 회귀도 도출: lm()

 - 회귀식: 두 변수의 선형관계를 가장 잘 나타낼 수 있는 선의 식 y = xw + b

4. 회귀선을 산점도에 표시: abline() - 최적의 예측선 출력

 - 회귀선: 관측값들의 추세를 가장 잘 나타낼 수 있는 선

5. 상관계수 계산: cor()

6. 상관분석 결과 해석

반응형

'빅데이터 > R' 카테고리의 다른 글

[R] 데이터 전처리 - 결측치 처리 (제거 및 대체)  (0) 2019.12.08
[R] 데이터 전처리 - 데이터 셋 보기  (0) 2019.12.04
[R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트  (0) 2019.12.02
[R] 데이터 시각화 - 도구 분류  (0) 2019.12.02
[R] 데이터 분석 절차와 데이터 종류 | 단일 변수(일변량) 자료 탐색  (0) 2019.12.02
    '빅데이터/R' 카테고리의 다른 글
    • [R] 데이터 전처리 - 결측치 처리 (제거 및 대체)
    • [R] 데이터 전처리 - 데이터 셋 보기
    • [R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트
    • [R] 데이터 시각화 - 도구 분류
    young
    young

    티스토리툴바