Chapter 1. 빅데이터의 기초 지식
빅데이터 기술
1. Hadoop : 다수의 컴퓨터에서 대량 데이터 처치를 위한 시스템으로, 확장성이 뛰어나다. (*SQL+Hadoop = Hive)
2. NoSQL : 전통적인 RDB의 제약을 제거하는 것을 목표로 한 DB의 총칭으로, 애플리케이션에서 온라인으로 접속한다.
- 빅데이터 기술은 기존의 데이터 웨어하우스와는 달리 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다.
데이터 파이프라인 : 차례대로 전달해나가는 데이터로 구성된 시스템을 의미한다.
데이터 수집에는 총 2가지의 종류가 있는데,
1. 벌크형 : 이미 어딘가에 존재하는 데이터를 정리해 추출하는 것으로, 정기적인 데이터 수집에 사용한다.
2. 스트리밍형 : 차례대로 생성되는 데이터를 끊임없이 보내는 것으로, 주로 모바일 애플리케이션, 임베디드 장비 등에서 데이터 수집하는 데에 사용한다.
분산 스토리지는 1. 객체 스토리지 2. NoSQL 데이터베이스가 있다.
워크플로 관리 : 전체 데이터 파이프라인의 동작 관리
데이터 웨어하우스 : 대량의 데이터를 장기 보존하는 것에 최적화되어 있으며, 과부하를 방지하기 위해 필요한 데이터만을 추출하여 데이터 마트를 구축한다.
> 데이터 소스 : 업무 시스템을 위한 RDB나 로그 등을 저장하는 파일 서버
> 로우 데이터를 추출하고 가공 후 데이터 웨어하우스에 저장하기까지의 흐름을 ETL 프로세스라고 한다.
애드 혹 분석(ad hoc analysis) : 일회성 데이터 분석으로, SQL 쿼리를 직접 작성 후 실행하거나 스프레드시트에서 그래프 만들기 등의 분석이 이에 해당한다.
빅데이터 도구를 선택할 때엔,
1. 저장할 수 있는 데이터 용량에 제한이 없을 것
2. 데이터를 효율적으로 추출할 수단이 있을 것
데이터 파이프라인의 큰 흐름은 변하지 않기 때문에 위 2가지를 파악해서 선택한다.
데이터 수집 목적은 검색, 가공, 시각화 3가지가 있다.
확증적 데이터 분석 : 가설을 세우고 검증하는 분석으로, 통계학적 모델링을 따른다.
탐색적 데이터 분석 : 데이터를 보며 의미를 파악하는 분석으로, 데이터 시각화를 통해 데이터를 파악한다.
'Data > IT' 카테고리의 다른 글
[Python/백준] 11720번 문자열 (0) | 2023.10.22 |
---|---|
[Python/백준] 1181번 단어정렬 (0) | 2023.10.22 |
빅데이터를 지탱하는 기술 #Chapter 3 간략정리 (0) | 2023.02.10 |
빅데이터를 지탱하는 기술 #Chapter 2 간략 정리 (0) | 2023.02.05 |
[Computer Structure] Cache Access Example (0) | 2020.06.24 |