Chapter 2. 빅데이터의 탐색
크로스 테이블 : 행과 열이 교차하는 부분에 숫자 데이터가 들어간다.
트랜잭션 테이블 : 행 방향으로만 데이터가 증가한다. (* 트랜잭션 테이블에서 크로스 테이블로의 변환 과정을 크로스 집계라고 한다.)
* 데이터 마트의 크기에 따라 시스템 구성이 결정된다.
RDB는 원래 지연이 적고, 동시 접속 수가 많아도 성능 악화가 되지 않는다. 다만, 메모리가 부족하면 성능 저하가 된다.
많은 양의 데이터 처리를 위해 열 지향 스토리지가 필요하다. 따라서 MPP DB를 활용한다.
행 지향 데이터베이스
1. 매일 발생하는 대량의 트랜잭션을 지연 없이 처리하기 위해 데이터 추가를 효율적으로 할 수 있게 한다.
2. 데이터 검색 고속화를 위한 인덱스를 생성하지만, 데이터 분석 시에는 거의 도움이 되지 않는다.
열 지향 데이터베이스
1. 데이터를 미리 컬럼 단위로 정리하여 필요한 컬럼만을 로드함으로써 디스크 I/O를 줄인다.
2. 데이터 압축의 효율이 우수하다.
MPP DB : 고속화를 위해 CPU와 디스크 모두 균형있게 늘려야 한다. 하드웨어 수준에서 데이터 집계에 최적화된 DB이다.
집계 시스템 종류 | 스토리지의 종류 | 최적의 레코드 수 |
RDB | 행 지향 | ~ 수천 만 정도 |
MPP DB | 열 지향(HW 일체형) | 수억 ~ |
대화형 쿼리 엔진 | 열 지향(분산 스토리지에 보관) | 수억 ~ |
데이터베이스에 사용되는 주요 기술
OLAP : 데이터 집계를 효율적으로 하는 접근 방법 중 하나로, 다차원 모델의 데이터 구조를 MDX 등 쿼리 언어로 집계한다.
OLAP 큐브 : 데이터 분석을 위해 만들어진 다차원 데이터이다. (* 이를 크로스 집계하는 구조가 OLAP)
데이터 마트를 만들 때, 팩트 테이블 중심으로 여러 디멘전 테이블을 결합하여 스타 스키마를 생성한다.(단순/성능상의 이유로 사용)
MPP DB 같은 열 지향 스토리지를 갖는 시스템 보급에 따라 처음부터 모든 컬럼을 팩트 테이블에 포함하여 비정규화 테이블이리고 부른다.
'Data > IT' 카테고리의 다른 글
[Python/백준] 11720번 문자열 (0) | 2023.10.22 |
---|---|
[Python/백준] 1181번 단어정렬 (0) | 2023.10.22 |
빅데이터를 지탱하는 기술 #Chapter 3 간략정리 (0) | 2023.02.10 |
빅데이터를 지탱하는 기술 #Chapter 1 간략 정리 (0) | 2023.02.03 |
[Computer Structure] Cache Access Example (0) | 2020.06.24 |