young
is this it
young
전체 방문자
오늘
어제
  • 분류 전체보기 (143)
    • 웹_프론트엔드 (1)
      • 로드맵 챌린지 (73)
      • Svelte (2)
      • React (6)
      • JavaScript (8)
      • TypeScript (2)
      • HTML+CSS (5)
    • 웹_백엔드 (0)
      • Django (0)
    • 빅데이터 (33)
      • R (30)
      • Python (2)
    • 기타 (11)
      • git (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 암호화
  • form
  • 공개키
  • 대칭키
  • css후처리기
  • 웹보안
  • rstudio지도정보
  • owasp
  • bem
  • ggplot
  • ggmap()
  • 구글맵api
  • 보안취약점
  • vcs
  • Regex
  • ssl
  • css네이밍
  • 버전관리
  • 인증
  • 태스크러너

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
young

is this it

빅데이터

4차 산업혁명의 빅데이터와 데이터 과학

2019. 11. 26. 16:58
반응형

1차 산업혁명: 증기 이용

2차 산업혁명: 전기 이용

3차 산업혁명: 인터넷(World Wide Web) 이용

-          인터넷 1.0 시대: 단순 검색 수준

-          인터넷 2.0 시대: 참여가 가능(쌍방향)

-          인터넷 3.0시대: 사용자에 의한 contents 생성

미래 4차 산업혁명:

-          IoT (사물 인터넷)

-          Big Data: 사물 인터넷으로부터 무수히 더 많은 데이터가 발생 – 숨겨진 이면을 분석

-          AI (Artificial Intelligence) & Machine Learning

-          Blockchain

 

빅데이터 Big Data:

-          정의: 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터. 빅데이터의 크기는 단일 데이터 집합의 크기가 수십 테라 바이트에서 수 페타바이트에 이르며, 그 크기가 끊임 없이 변화하는 것이 특징.

-          분석 기술: 아파치 하둡, 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석

데이터 마이닝

-          정의: 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것을 말하며 KDD(Knowledge-discovery in databases, 데이터베이스 속의 지식 발견)라고도 일컫는다.

-          개요: 통계학에서 패턴인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학 쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP(Online Analytic Processing, 온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.

-          단점: 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우, 잘못된 모형을 구축하는 오류를 범할 수 있다. 

-          적용 분야: 분류 Classification, 군집화 Clustering, 연관성 Association, 연속성 Sequencing, 예측 Forecasting

데이터 과학 Data Science Process

-          정의: 컴퓨터 도구를 효율적으로 이용하고, 적절한 통계학 방법을 사용하여 실제적인 문제에 답을 내리는 활동

-          데이터 과학 프로세스 (계속 순환):

1.       문제 정의 Problem Defintion

2.       데이터 정의 Data Definition

3.       실험 계획 Design of Experiment/표본화 Sampling

4.       데이터 취득 Data Acquisition

5.       데이터 가공 Data Processing, Data Wrangling

6.       탐색적 분석화 데이터 시각화 Exploratory Data Analysis, Data Visualization

7.       모형화 Modeling

8.       분석 결과 정리 Reporting

-          데이터 과학자가 갖춰야 할 능력: 1) 실제적인 문제를 통계적으로 표현하고, 2) 컴퓨터 도구를 사용하여 시각화와 데이터 가공과 모형화를 한 후에, 3) 그를 이용하여 실제적인 언어로 의미 있는 결과를 만들어 내는 능력의 조합

통계 능력 Statistics + 실무 지식 Domain Knowledge + 컴퓨터 도구 활용 능력 Hacking Ability (* https://goo.gl/YTkr7z )

반응형
    young
    young

    티스토리툴바