본문 바로가기

하둡 기초2

Lecture 92 - Hadoop(2) 기초, Yarn 서버 추가법 빅데이터 개념 : 3V 1. Volume(볼륨) : 데이터 크기(헥터바이트 이상의 크기가 나올때, 한개의 서버에 저장하지 못할때) 2. Velocity : 데이터 가공속도 (데이터 생성 속도) 3. Variety : 데이터의 다양성(데이터 내부에 생성되는 데이터의 종류가 다양함) +2가지를 추가한다. complexity value(데이터에 대한 가치성 - 비쥬얼라이제이션(시각화)) => 정규적인 형태의 데이터베이스에서는 처리 불가 => scale-out 형태의 병렬 처리구조(클러스터링) 형태의 데이터 처리구조가 나음(HDFS) => hadoop => 대용량(빅) 데이터를 분산(병렬) 처리할 수 있는 자바 기반의 오픈 소스 프레임워크(서버) => google - GFS, Map/Reduce 논문이 나옴 =.. 2019. 8. 12.
Lecture 91 - Hadoop(1) 하둡 개념 및 기초 Hadoop : 복수의 서버를 묶어서 하나의 가상 서버로 사용할 수 있도록 하는 것. ■ 분산 파일 시스템과의 강한 연계를 통해, 높은 스루풋(Throughput) 처리를 실현하는 분산 처리 소프트웨어 : Hadoop은 크게 두 가지 구성 요소로 이루어져 있다. 하나는 분산 파일 시스템으로, 대용량 데이터를 복수의 서버에 저장하는 구조다. 복수의 서버를 조합해서 사용자에게 하나의 큰 파일 시스템을 제공한다. 다른 하나는 병렬 분산 처리를 실현하는 프레임워크다. 이것은 하나의 큰 처리(잡, job)를 복수의 단위(태스크, task)로 분할해서 실행하는 구조다. 이 분산 파일 시스템과 병렬 분산 처리 프레임워크가 공고히 연계되며, 높은 스루풋의 데이터 처리를 실현한다. 기술적인 관점에서 Hadoop을 한마디.. 2019. 8. 7.