빅데이터
[R] 비정형 데이터 처리 - 워드클라우드(wordcloud) 패키지 사용 예시 [텍스트 마이닝]
일반적으로 비정형 데이터 처리는 SNS(Social Network Service)에서 제공하는 텍스트 자료나 기존에 준비된 디지털 자료를 대상으로 미리 만들어 놓은 사전과 비교화여 단어의 빈도를 분석하는 텍스트 마이닝 방식을 주로 이용한다. 따라서 한글 단어를 처리할 수 있는 우수한 사전 기능이 무엇보다도 요구된다. 특히 비정형 데이터 처리를 위해서는 사전에 없는 단어를 추가하거나 불용어를 처리하는 별도의 함수를 정의해 놓을 필요가 있다. 데이터 마이닝(Data Mining): 의사 결정을 위해서 DB(정형화 data)로 부터 규칙과 패턴을 발견하는 기법 텍스트 마이닝(Text Mining): text data(자연어, 비정형 data)로 부터 규칙과 패턴을 발견하는 기법 워드 클라우드(Word Clou..
[R] 고급시각화 분석 - ggmap 패키지, 구글맵 지도 정보 이용하기
지도 공간 기법으로 시각화하는 ggmap 패키지는 Google Maps, Stamen Maps, 네이버 맵, 등의 다양한 온라인 소스로부터 가져온 정적인 지도 위에 특별한 데이터나 모형을 시각화하는 함수들을 제공한다. ggmap 패키지의 주요 함수 함수 기능 비고 geocode() 거리주소 또는 장소 이름을 이용하여 이용 지도 정보(위도, 경도) 획득 Geolocation API 지원 get_googlemap() 구글 지도 서비스(Google Static Maps) API에 접근하여 정적 지도 다운로드 지원과 지도에 marker 등을 삽입하고 자신이 원하는 줌 레벨과 center를 지정하여 지도 정보 생성 Google Static Maps API 지원 get_map() 지도 서비스 관련 서버(Google..
[R] symbols() 함수 사용 예시
1 2 3 4 5 6 7 8 9 10 11 12 13 14 # 산점도에 bubble 추가 (bubble chart) - 산점도인데 데이터 크기만큼 버블이 찍힘 symbols(st$Illiteracy, st$Murder, # 원의 x,y 좌표 circles = st$Population, # 원의 반지름 inches = 0.5, # 원크기 조절값 fg = 'white', # 원 테두리 색 bg = 'navy', # 원 바탕색 lwd = 1.5, # 원 테두리선 두께 xlab = 'rate of Illiteracy', ylab = 'crime(murder) rate', main = 'Illiteracy and Crime') text (st$Illiteracy, st$Murder, #텍스트 출력 x,y 좌표 r..
[R] treemap() 함수 사용 예시
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 install.packages('treemap') library(treemap) treemap(GNI2014, index = c('continent', 'iso3'), # 계층 구조 vSize = 'population', # 타일 크기 vColor= 'GNI', # 타일 컬러 type = 'value', # 타일컬러링방법 bg.labels = 'yellow', # 레이블배경색 title = "World's GNI") # 제목 st
[R] 고급 시각화 분석 - ggplot() 함수 사용 예시
세로 막대 차트 1 2 3 4 ggplot(df, aes(x = month, y=rain)) + # aes 함수는 ggplot() 안에 써도, 또는 geom_bar()안에 써도 상관 없음 geom_bar(stat = "identity", #데이터셋 안에 포함되지 않은 변수를 쓸때는 stat = “bin”을 입력 width = 0.7, fill = "steelblue") Colored by Color Scripter 가로 막대 차트 1 2 3 4 5 6 7 8 9 10 ggplot(df, aes(x = month, y = rain)) + geom_bar(stat = "identity", width = 0.7, fill = "steelblue") + ggtitle ("월별 강수량") + # 차트 제목 the..
[R] 데이터 조작 - dplyr 패키지 활용하기
dplyr 패키지는 데이터프레임 형태를 보이는 정형화된 데이터를 처리하는데 적합한 패키지이다. C++ 언어로 개발되어 R 프로그래밍 언어로 개발된 plyr 패키지에 비해 처리속도가 개선되었다. #dplyr 패키지 설치하기 install.packages("dplyr") library("dplyr") dplyr 패키지의 주요 함수 기능 tbl_df(dataframe) 데이터 셋에서 콘솔 창의 크기만큼 데이터 셋을 추출 filter(dataframe, 조건1, 조건2) 데이터 셋에서 조건에 맞는 데이터 셋 추출 select(dataframe, 칼럼1, 칼럼2, ...) 데이터 셋을 대상으로 칼럼을 선택 mutate(dataframe, 칼럼명1 = 수식1, 칼럼명2 = 수식2, ...) 데이터 셋에 새로운 칼럼..
[R] 데이터 전처리 - 코딩 변경
코딩변경이란 최초 코딩 내용을 용도에 맞게 변경하는 작업을 말한다. 이러한 코딩 변경은 데이터의 가독성, 척도 변경, 역코딩 등의 목적으로 수행한다. 1. 가독성을 위한 코딩 변경 일반적으로 데이터는 디지털화하기 위해서 숫자로 코딩한다. 예를 들면 거주지 관련 칼럼에서 서울은 1, 인천은 2로 코딩한다. 이러한 코딩 결과를 대상으로 기술 통계 분석을 하게 되면 1과 2의 숫자를 실제 거주지명으로 표현해야 한다. 2. 척도 변경을 위한 코딩 변경 나이 변수를 '청년층', '중년층', '장년층' 등, 연속형 변수를 범주형 변수로 코딩해야 할 때. 3. 역코딩을 위한 코딩 변경 만족도 평가를 위해서 설문지 문항을 5점 척도인 ①매우만족, ②만족, ③보통, ④불만족, ⑤매우불만족 형태로 작성된 경우 순서대로 코..
[R] 데이터 전처리 - 결측치 처리 (제거 및 대체)
결측치 처리 분석자가 데이터를 코딩하는 과정에서 실수로 입력하지 않았거나, 응답자가 고의로 응답을 회피한 경우 결측치(Missing Values, R에서는 NA로 표시)가 발생한다. 이 경우 결측치 항목의 최대 자리수만큼 숫자 9를 채워 부호화하거나 하이픈(-)으로 해당 항목을 채워 넣는다. 결측치를 처리하는 방법에는 결측치를 제거하는 방법도 있지만, 결측치를 0이나 평균값으로 대체하는 방법도 고려해 볼 수 있다. 1. 결측치 확인 summary() 함수를 이용하여 특정 변수의 결측치를 확인할 수 있으며, 결측치가 포함된 데이터를 대상으로 합계를 구하는 sum() 함수를 실행하면 'NA'가 출력된다. - 결측치 자료 조합 확인용 시각화 도구 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15..
[R] 데이터 전처리 - 데이터 셋 보기
데이터 전처리 Data Pre-processing : 원시 자료에 대하여 데이터 정제/가공을 수행하여 분석에 적합한 형태로 만드는 과정 데이터 정제: - 결측치(Missing Value)와 이상치(Outlier)에 대한 처리 1) Rational Approach 2) Listwise Deletion 3) Pairwise Deletion 4) 단순 대입법 5) 다중 대입법 이상치(Outlier)에 대한 처리: 1. 논리적으로 성립되지 않는 값 2. 상식적으로 용인되지 않는 값 - 상자그림 시각화 도구 데이터 가공: 정렬, 추가, 필터링, 집계, 병합 1. 데이터 셋 보기 데이터 분포 현황을 통해서 데이터의 유형과 결측치(NA) 그리고 극단치(Outlier) 등의 데이터를 발견할 수 있다. 주로 결측치는 응..