본문 바로가기

Study/정보처리기사 실기

[정보처리기사 실기] 데이터 입출력 구현 _ 데이터베이스 트렌드

데이터웨어하우스 (DW : Dataware House)

- 기간 데이터시스템에서 추출되어 새롭게 생성한 데이터베이스

- 주제지향적, 통합적, 시계열적, 비갱신 특징 갖는 다차원 데이터 집합체 (큐브)

- OLAP 작업 통해 가공, 조직 의사결정 시스템 지원 가능

 

OLAP (On-Line Analytical Processing)

데이터웨어하우스의 다차원 데이터 분석작업으로 다음과 같은 기본 연산 제공

  • Slicing : 다차원 데이터 항목들을 다양한 각도에서 조회, 비교하는 연산
  • Dicing : 2개 이상 차원에서 특정 값들 선택해 부분 큐브 생성하는 연산
  • Drill-down : 요약된 형태 데이터로부터 구체적 내용 상세 데이터로 접근하는 연산
  • Roll-up : 구체적인 내용 상세 데이터로부터 요약된 형태 데이터로 접근하는 연산
  • Pivot : 보고서 행, 열, 페이지 차원을 바꿔 볼 수 있는 회전 기능 연산

빅 데이터 (Big Data)

기존 관리 방식으로는 처리하기 어려운 대용량의 정형, 비정형, 반정형 데이터의 집합체

데이터 형태 활용 처리 난이도
정형 데이터 관계데이터베이스 스키마 구조에 맞는 형식화된 데이터
반정형 데이터 XML, HTML, 파일과 같은 형식으로 저장된 데이터
비정형 데이터 언어분석 가능한 신문기사, SNS 등 텍스트 이미지, 동영상 데이터

 

빅 데이터 3요소 (3V)

  • 규모  (Volume) : 데이터 크기
  • 속도 (Velocity) : 빠른 데이터 처리 및 분석
  • 다양성 (Variety) : 다양한 종류 데이터


빅 데이터 처리기술

종류 내용
Hadoop 대용량 데이터를 분산 처리할 수 있는 자바 기반 오픈 소스 프레임워크로 HDFS 및 MapReduce로 구성
R 대용량 데이터 통계 분석 및 데이터 마이닝 위한 프로그래밍 언어
NoSQL - 비관계형 DB로 테이블 스키마 고정되지 않고, 테이블 간 조인 연산 지원 안함
- 분산 가능성에 중점 두고 일관성과 유효성 보장하지 않음
Sqoop Hadoop과 관계 데이터베이스 간 데이터 변환 수행 도구

맵리듀스 (MapReduce)

- Google에 의해 고안된 기술로, 대용량 데이터 처리 위한 병렬 처리 기법 제공

- 임의 순서로 정렬된 데이터 분산 처리하고 이를 다시 합치는 과정 거침

- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델


데이터 마이닝 (Data Mining)

- 대규모로 저장된 데이터 안에서 통계적 규칙이나 패턴 분석해 가치 있는 정보 추출하는 과정

- KDD (Knowledge Discovery in Database, 지식 발견) 이라고도 함

- 대량의 데이터를 분석해 데이터에 내재된 변수 사이 상호관계를 규명하여 일정한 패턴 찾아내는 기술

 

 

주요 기법

이름 내용
연관 규칙
(Association)
데이터들 간 종속관계를 찾는 기법, 장바구니 분석이라 함
ex) (노트, 볼펜), (넥타이, 셔츠)
순차 패턴
(Sequence)
연관 규칙에 시간이라는 개념 포함한 분석 기법
ex) 컴퓨터 구매 → 가까운 시간 내 → 프린터 구입
분류 규칙
(Classification)
데이터 특성을 분류 모혀오하 시켜 새로운 결과 예측하는 기법
ex) 신용평가 등급
군집화
(Clustering)
데이터를 유사한 성질 집단으로 각각 구분하는 기법
ex) 지역별, 나이별, 직급별 구분
분결정 트리
(Decision Tree)
목표 변수에 영향 줄 수 있는 입력 변수들을 이용해 최적 분류 위한 의사결정 규칙 생성하고 트리 구조로
표현하는 기법

ex) 데이터 값 비교 통한 참 / 거짓 결정