반응형

1. Hadoop 

  • 정의 : 여러 대의 컴퓨터 클러스터(연결되어 하나의 시스템 처럼 동작하는 집합)에서 대규모 데이터 세트를 분산 처리 할 수 있게 해주는 프레임 워크 / 파일을 블록단위로 저장, 마스터 - 슬레이브 구조 
  • 장점 : 멀티 노드로 부하를 분산시켜 처리 / 장비 추가 시 성능이 선형적으로 증가 / 저렴한 장비로 처리 가능 
  • 분산 코디네이터 : Zookeeper
    • 중앙 집중식 서비스 / 알맞은 분산 처리 및 분산 환경을 구성하는 서버 설정을 통합적으로 관리 
  • 분산 리소스 관리
    • YARN : 작업 스케줄링 및 클러스터 리소스 관리 위한 프레임워크 맵리듀스, 하이브, 임팔라, 스파크 등 다양한 APPLICATION이 안에서 작업 실행
    • Mesos : 클라우드 환경에 대한 리소스 관리
  • 데이터 저장 
    • HBASE : 분산 데이터베이스 / 구글 빅테이블이 원조 
    • HDFS : 분산 파일 데이터 저장 / 자바로 작성된 확장 
    • Kudu : 컬럼 기반 스토리지 : 데이터에 대한 빠른 분석 위해 설계 
  • 데이터 수집 
    • Chukwa : 분산 환경 생성되는 데이터 안정적으로 HDFS 에 저장하는 플랫폼 / 대규모 분산 시스템 모니터링 시스템
    • Flume : 많은 양 데이터 수집, 집계 및 이동위한 분산형 서비스 
    • Kafka : 데이터 스트림 실시간 관리, 대용량 이벤트 처리 위해 개발
  • 데이터 처리
    • Mahout : 분석 기계학습에 필요한 알고리즘 구축
    • Spark  : 대규모 데이터 처리 위한 빠른 속도 실행시켜주는 엔진 / 파이썬, R 등에서 대화형으로 사용  / 메모리를 사용해 맵리듀스보다 빠르다 
    • HIVE : 하둡 기반 데이터 솔루션 / SQL과 유사한 HIVEQL 언어 제공하여 쉽게 데이터 분석 할 수 있게 도와줌
    • MapReduce : 대용량 데이터를 분산처리하기위한 프로그램 / 정렬된 데이터를 분산처리(키 , 밸류 쌍으로 구분)하여 Map 하고 이를 다시 합치는 Reduce (지표 생성)과정을 거친다 

 

2. Container (도커 / 쿠버네티스)

- 빅데이터에서 컨테이너(운영체제 커널을 공유하는 경량의 가상화 환경)와 하둡을 접목시키는 기술 증가 

 

 

3. Elastic Search 기반 데이터 수집  

  • Logstash : 동적 데이터 수집 파이프라인
  • ElasticSearch : 분산형 RESTFul 검색 및 분석 엔진
  • kibana  : 엘라스틱서치 데이터 시각화

 

4. EC2 / RDS / Elastic Beanstalk / S3

  • EC2 : 사용자가 아마존 머신 이미지로 부팅하여 인스턴스라고 불리는 가상 머신을 원 원하는 소프트웨어를 포함하여 구성하게 해줌 / 스케일링이 가능한 애플리케이션 배치 장려
  • RDS : 분산 관계형 데이터베이스/ 관계형 DB의 스토리지, 연산 자원들을 스케일링 하는 것은 하나의 API 호출로 수행 / EC2와 함께 사용하여 DB 설정, 운영, 백업 기능 편하게 사용하는 DB 전용서버
  • S3 : 저장 서비스 / 하나의 AWS 리전 내 물리적 가용영역에 자동으로 분산 저장 
  • Elastic Beanstalk : EC2 + RDS 등 AWS 리소스 조합하여 완성된 어플리케이션 플랫폼  / PaaS

5. 의료 빅데이터 필요성 : DB 성능 확보하여 대용량 데이터를 기반으로 다양한 정보 분석 업무를 수행하여 의료 가치 있는 데이터 생성에 목적 / 시스템 성능 확보, 비정규화 및 테이블 병합 , 요약 테이블 적용, QL 튜닝 , 지속적인 성능 개선 활동 필요 

 

6. NoSQL 

- NOT ONLY SQL 

- RDBMS + 다른 특성 부가적으로 지원

- 기존의 관계형 데이터베이스보다 더 융통성 있는 데이터 모델 사용하고 데이터의 저장 및 검색 위한 특화된 매커니즘 제공 

- 특징

  • 테이블 조인 기능 없음
  • 비SQL 인터페이스 통한 데이터 액세스
  • 여러 대의 DB 서버를 묶어 (클러스터링) 하나의 DB 구성
  • ACID 미보장
  • 스키마, 속성 동적 정의
  • 중단 없는 서비스, 자동 복구 기능 지원
  • 오픈소스
  • 확장성 가용성 높은 성능 

- 종류 

  • WIDE COLUMMAR STORE : 구글 Big Table Paper 에서 유래 / Key Value => Column Family 데이터 모델 사용 
    • HBASE / Cassandra/ ScyllaDB
  • DOCUMENT DB : JSON, XML 같은 Collection 데이터 모델 구조 채택 
    • Mongodb

8. 머신러닝 R

- 머신러닝의 데이터 관리에 빅데이터를 사용할 수 있다.

- 대규모 데이터를 이용하기 위한 모델링을 컴퓨터가 알아서 하는 것이 머신러닝 

R  : 통계 처리 및 시각화 하는데 사용

 

9. 하둡 vs RDBMS 

  • 데이터 타입 : 하둡(정형, 반정형, 비정형) / RDBMS (정형)
  • 스키마 : 하둡(데이터 읽을 때 스키마 적용) / RDBMS(데이터 적재할 때 스키마 적용)
  • 좋은 사용법 : 하둡(대용량 데이터 처리) / RDBMS(복잡한 ACID 트랜잭션에 적용)
  • 속도 : 하둡(쓸 때 빠름) / RDBMS(읽을 때 빠름)

10. 빅데이터 4V?

속도 / 양 / 다양성 / 진실성(정확도 높아짐) / 가치

반응형

+ Recent posts