빅데이터를 지탱하는 기술1 빅데이터를 지탱하는 기술 #Chapter 3 간략정리 Chapter 3. 빅데이터의 분산 처리 구조화 데이터 : 스키마가 명확하게 정의된 데이터 비구조화 데이터 : 스키마가 존재하지 않는 데이터 - 이를 분산 스토리지 등에 저장하고, 분산 시스템에서 처리하는 것이 데이터 레이크의 개념이다. - 데이터를 가공하는 과정에서 스키마를 정의하고, 구조화된 데이터로 변환함으로써 분석 가능하다. 스키마리스 데이터 : 기본 서식인 존재하나 스키마 정의가 되지 않은 데이터로, 컬럼 수나 데이터형이 명확하지 않다. 분산 스토리지에 수집된 스키마리스 데이터 등은 SQL 집계가 불가하다. 따라서, 구조화 데이터로 변환하는 과정이 필요하다. - 구조화 데이터는 압축률을 높이기 위해 열 지향 스토리지로 저장한다. 열 지향 스토리지 1. Apache ORC : 구조화 데이터를 위한.. 2023. 2. 10. 이전 1 다음