전체 글

전체 글

    [R] 데이터 조작 - dplyr 패키지 활용하기

    dplyr 패키지는 데이터프레임 형태를 보이는 정형화된 데이터를 처리하는데 적합한 패키지이다. C++ 언어로 개발되어 R 프로그래밍 언어로 개발된 plyr 패키지에 비해 처리속도가 개선되었다. #dplyr 패키지 설치하기 install.packages("dplyr") library("dplyr") dplyr 패키지의 주요 함수 기능 tbl_df(dataframe) 데이터 셋에서 콘솔 창의 크기만큼 데이터 셋을 추출 filter(dataframe, 조건1, 조건2) 데이터 셋에서 조건에 맞는 데이터 셋 추출 select(dataframe, 칼럼1, 칼럼2, ...) 데이터 셋을 대상으로 칼럼을 선택 mutate(dataframe, 칼럼명1 = 수식1, 칼럼명2 = 수식2, ...) 데이터 셋에 새로운 칼럼..

    [R] 데이터 전처리 - 코딩 변경

    코딩변경이란 최초 코딩 내용을 용도에 맞게 변경하는 작업을 말한다. 이러한 코딩 변경은 데이터의 가독성, 척도 변경, 역코딩 등의 목적으로 수행한다. 1. 가독성을 위한 코딩 변경 일반적으로 데이터는 디지털화하기 위해서 숫자로 코딩한다. 예를 들면 거주지 관련 칼럼에서 서울은 1, 인천은 2로 코딩한다. 이러한 코딩 결과를 대상으로 기술 통계 분석을 하게 되면 1과 2의 숫자를 실제 거주지명으로 표현해야 한다. 2. 척도 변경을 위한 코딩 변경 나이 변수를 '청년층', '중년층', '장년층' 등, 연속형 변수를 범주형 변수로 코딩해야 할 때. 3. 역코딩을 위한 코딩 변경 만족도 평가를 위해서 설문지 문항을 5점 척도인 ①매우만족, ②만족, ③보통, ④불만족, ⑤매우불만족 형태로 작성된 경우 순서대로 코..

    [R] 데이터 전처리 - 극단치 처리

    극단치 처리 표본 중 다른 대상들과 확연히 구분되는 통계적 관측치를 의미한다. 변수의 분포에서 비정상적으로 분포를 벗어난 값을 극단치(outlier)라고 한다. 예를 들면 나이의 분포를 나타낸 변수에서 -2 또는 300과 같은 비정상적인 수치가 보인다면 이는 극단치에 해당한다. 1. 범주형 변수의 극단치 처리 변수

    [R] 데이터 전처리 - 결측치 처리 (제거 및 대체)

    결측치 처리 분석자가 데이터를 코딩하는 과정에서 실수로 입력하지 않았거나, 응답자가 고의로 응답을 회피한 경우 결측치(Missing Values, R에서는 NA로 표시)가 발생한다. 이 경우 결측치 항목의 최대 자리수만큼 숫자 9를 채워 부호화하거나 하이픈(-)으로 해당 항목을 채워 넣는다. 결측치를 처리하는 방법에는 결측치를 제거하는 방법도 있지만, 결측치를 0이나 평균값으로 대체하는 방법도 고려해 볼 수 있다. 1. 결측치 확인 summary() 함수를 이용하여 특정 변수의 결측치를 확인할 수 있으며, 결측치가 포함된 데이터를 대상으로 합계를 구하는 sum() 함수를 실행하면 'NA'가 출력된다. - 결측치 자료 조합 확인용 시각화 도구 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15..

    [R] 데이터 전처리 - 데이터 셋 보기

    데이터 전처리 Data Pre-processing : 원시 자료에 대하여 데이터 정제/가공을 수행하여 분석에 적합한 형태로 만드는 과정 데이터 정제: - 결측치(Missing Value)와 이상치(Outlier)에 대한 처리 1) Rational Approach 2) Listwise Deletion 3) Pairwise Deletion 4) 단순 대입법 5) 다중 대입법 이상치(Outlier)에 대한 처리: 1. 논리적으로 성립되지 않는 값 2. 상식적으로 용인되지 않는 값 - 상자그림 시각화 도구 데이터 가공: 정렬, 추가, 필터링, 집계, 병합 1. 데이터 셋 보기 데이터 분포 현황을 통해서 데이터의 유형과 결측치(NA) 그리고 극단치(Outlier) 등의 데이터를 발견할 수 있다. 주로 결측치는 응..

    [R] 데이터 분석 절차와 데이터 종류 | 다중 변수(다변량) 자료 탐색

    데이터 분석 목적: 현상을 파악하고 이면을 찾음 데이터 분석 절차 : 문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서 정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용 데이터 종류: 1. 특성에 따른 분류 1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음) 1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 ) 2. 변수 개수에 의한 분류 2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용 2.2 다변량 (..

    [R] 데이터 시각화 - 이산변수 막대 차트 & 원형 차트

    이산변수(Discrete Quantitative Data)는 정수 단위로 나누어 측정할 수 있는 변수를 의미한다. 이러한 변수들은 막대 차트, 점 차트, 원 차트 등을 이용하여 시각화하면 효과적이다. 막대 차트 시각화 - 세로 1 2 3 4 5 barplot(vector, ylim=c(0,600), col=rainbow(8), xlab = "x축 속성", ylab = "y축 속성", main = "그래프 제목") ylim: y축 값 범위 col = rainbow(8): 8가지 무지개 색상 main: 차트 제목 막대 차트 시각화 - 가로 1 2 3 4 5 barplot(vector, ylim=c(0,600), horiz=T, col=rainbow(8), xlab = "x축 속성", ylab = "y축 속성..

    [R] 데이터 시각화 - 도구 분류

    데이터 분석의 도입부에서 전체적인 데이터의 구조를 살펴보기 위해서 시각화 도구를 사용한다. 기본 시각화 도구는 이산변수와 연속 변수에 따라서 이용될 수 있는 도구가 달라지는데, 이산변수는 막대, 점, 원형 차트를 주로 이용하고, 연속변수는 상자박스, 히스토그램, 산점도 등을 이용한다. 칼럼 특성의 시각화 도구 분류 칼럼 특성 시각화 도구 설명 칼럼 수 숫자형 범주형 1 1 hist, plot ,barplot 숫자형 칼럼 1개 1 1 pie, barplot 범주형 칼럼 1개 2 2 plot, abline, boxplot 숫자형 칼럼 2개 3 3 scatterplot3d 숫자형 칼럼 3개 n n n pairs n개의 칼럼 hist: 히스토그램 plot: 산점도 barplot: 막대 차트 pie: 원형 차트 ..

    [R] 데이터 분석 절차와 데이터 종류 | 단일 변수(일변량) 자료 탐색

    데이터 분석 목적: 현상을 파악하고 이면을 찾음 데이터 분석 절차 : 문제 정의→ 데이터 수집→ 정제/전처리→ 탐색(탐색적 데이터 분석)→ 분석(Data Model 구축) [전 과정 반복]→ 보고서 정제/전처리, 탐색, 모델 구축 과정에서 R과 Python 사용 데이터 종류: 1. 특성에 따른 분류 1.1 범주형 (Categorical Data): 산술 연산이 불가능 → 도수분포표 table() 함수 이용 (남/녀, 혈액형 등 값의 범위가 있음) 1.2 연속형(수치형, Numerical Data): 수치로 측정되기 때문에 산술 연산 가능 (시험 성적, 몸무게, 키 등 ) 2. 변수 개수에 의한 분류 2.1 일변량 (Unvariable Data): 변수 개수가 한 개 → Vector 사용 2.2 다변량 (..

    [R] 로컬 파일 가져오기 (csv 파일 읽기 & 쓰기, 엑셀 xlsx 파일 읽기)

    1. read.table() 함수 테이블(칼럼이 모여서 레코드 구성) 형태로 작성되어 있으며, 칼럼이 공백, 탭, 콜론(:), 세미콜론(;), 콤마(,) 등으로 구분된 자료 파일을 불러올 수 이는 함수. 만약 구분자가 공백이거나 탭이면 sep 속성을 생략할 수 있다. 또한, 칼럼명이 있는 경우 header 속성을 'header=TRUE'로 지정한다. 1 read.table(file="경로명/파일명", sep="칼럼구분자", header="T|F") cs 탐색기를 통해서 불러올 파일을 선택하기: file.choose() 함수 read.table(file.choose=(), header="TRUE") #파일 열기 대화상자 결측치를 처리하여 파일 불러오기: na.string="특정문자열" read.table(..