반응형
1. Hadoop
- 정의 : 여러 대의 컴퓨터 클러스터(연결되어 하나의 시스템 처럼 동작하는 집합)에서 대규모 데이터 세트를 분산 처리 할 수 있게 해주는 프레임 워크 / 파일을 블록단위로 저장, 마스터 - 슬레이브 구조
- 장점 : 멀티 노드로 부하를 분산시켜 처리 / 장비 추가 시 성능이 선형적으로 증가 / 저렴한 장비로 처리 가능
- 분산 코디네이터 : Zookeeper
- 중앙 집중식 서비스 / 알맞은 분산 처리 및 분산 환경을 구성하는 서버 설정을 통합적으로 관리
- 분산 리소스 관리
- YARN : 작업 스케줄링 및 클러스터 리소스 관리 위한 프레임워크 맵리듀스, 하이브, 임팔라, 스파크 등 다양한 APPLICATION이 안에서 작업 실행
- Mesos : 클라우드 환경에 대한 리소스 관리
- 데이터 저장
- HBASE : 분산 데이터베이스 / 구글 빅테이블이 원조
- HDFS : 분산 파일 데이터 저장 / 자바로 작성된 확장
- Kudu : 컬럼 기반 스토리지 : 데이터에 대한 빠른 분석 위해 설계
- 데이터 수집
- Chukwa : 분산 환경 생성되는 데이터 안정적으로 HDFS 에 저장하는 플랫폼 / 대규모 분산 시스템 모니터링 시스템
- Flume : 많은 양 데이터 수집, 집계 및 이동위한 분산형 서비스
- Kafka : 데이터 스트림 실시간 관리, 대용량 이벤트 처리 위해 개발
- 데이터 처리
- Mahout : 분석 기계학습에 필요한 알고리즘 구축
- Spark : 대규모 데이터 처리 위한 빠른 속도 실행시켜주는 엔진 / 파이썬, R 등에서 대화형으로 사용 / 메모리를 사용해 맵리듀스보다 빠르다
- HIVE : 하둡 기반 데이터 솔루션 / SQL과 유사한 HIVEQL 언어 제공하여 쉽게 데이터 분석 할 수 있게 도와줌
- MapReduce : 대용량 데이터를 분산처리하기위한 프로그램 / 정렬된 데이터를 분산처리(키 , 밸류 쌍으로 구분)하여 Map 하고 이를 다시 합치는 Reduce (지표 생성)과정을 거친다
2. Container (도커 / 쿠버네티스)
- 빅데이터에서 컨테이너(운영체제 커널을 공유하는 경량의 가상화 환경)와 하둡을 접목시키는 기술 증가
3. Elastic Search 기반 데이터 수집
- Logstash : 동적 데이터 수집 파이프라인
- ElasticSearch : 분산형 RESTFul 검색 및 분석 엔진
- kibana : 엘라스틱서치 데이터 시각화
4. EC2 / RDS / Elastic Beanstalk / S3
- EC2 : 사용자가 아마존 머신 이미지로 부팅하여 인스턴스라고 불리는 가상 머신을 원 원하는 소프트웨어를 포함하여 구성하게 해줌 / 스케일링이 가능한 애플리케이션 배치 장려
- RDS : 분산 관계형 데이터베이스/ 관계형 DB의 스토리지, 연산 자원들을 스케일링 하는 것은 하나의 API 호출로 수행 / EC2와 함께 사용하여 DB 설정, 운영, 백업 기능 편하게 사용하는 DB 전용서버
- S3 : 저장 서비스 / 하나의 AWS 리전 내 물리적 가용영역에 자동으로 분산 저장
- Elastic Beanstalk : EC2 + RDS 등 AWS 리소스 조합하여 완성된 어플리케이션 플랫폼 / PaaS
5. 의료 빅데이터 필요성 : DB 성능 확보하여 대용량 데이터를 기반으로 다양한 정보 분석 업무를 수행하여 의료 가치 있는 데이터 생성에 목적 / 시스템 성능 확보, 비정규화 및 테이블 병합 , 요약 테이블 적용, QL 튜닝 , 지속적인 성능 개선 활동 필요
6. NoSQL
- NOT ONLY SQL
- RDBMS + 다른 특성 부가적으로 지원
- 기존의 관계형 데이터베이스보다 더 융통성 있는 데이터 모델 사용하고 데이터의 저장 및 검색 위한 특화된 매커니즘 제공
- 특징
- 테이블 조인 기능 없음
- 비SQL 인터페이스 통한 데이터 액세스
- 여러 대의 DB 서버를 묶어 (클러스터링) 하나의 DB 구성
- ACID 미보장
- 스키마, 속성 동적 정의
- 중단 없는 서비스, 자동 복구 기능 지원
- 오픈소스
- 확장성 가용성 높은 성능
- 종류
- WIDE COLUMMAR STORE : 구글 Big Table Paper 에서 유래 / Key Value => Column Family 데이터 모델 사용
- HBASE / Cassandra/ ScyllaDB
- DOCUMENT DB : JSON, XML 같은 Collection 데이터 모델 구조 채택
- Mongodb
8. 머신러닝 R
- 머신러닝의 데이터 관리에 빅데이터를 사용할 수 있다.
- 대규모 데이터를 이용하기 위한 모델링을 컴퓨터가 알아서 하는 것이 머신러닝
R : 통계 처리 및 시각화 하는데 사용
9. 하둡 vs RDBMS
- 데이터 타입 : 하둡(정형, 반정형, 비정형) / RDBMS (정형)
- 스키마 : 하둡(데이터 읽을 때 스키마 적용) / RDBMS(데이터 적재할 때 스키마 적용)
- 좋은 사용법 : 하둡(대용량 데이터 처리) / RDBMS(복잡한 ACID 트랜잭션에 적용)
- 속도 : 하둡(쓸 때 빠름) / RDBMS(읽을 때 빠름)
10. 빅데이터 4V?
속도 / 양 / 다양성 / 진실성(정확도 높아짐) / 가치
반응형
'Job Interview & etc > Database' 카테고리의 다른 글
[기타]기타 프로젝트 지식 (0) | 2020.01.06 |
---|---|
데이터베이스 보안 솔루션 직무 면접 질문 (Telnet , SSH란?) (0) | 2020.01.02 |
데이터베이스 직무 면접 질문(기본 지식) (2) | 2020.01.02 |