본문 바로가기

Apache2

[Apache] Hadoop (2) - 하둡 에코시스템 (Hadoop-Ecosystem) Hadoop Eco-System (하둡 에코시스템) 하둡의 코어 프로젝트는 HDFS와 MapReduce지만 그 외에도 다양한 서브 프로젝트들이 많습니다. 하둡 에코시스템은 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이라고 볼 수 있습니다. 아래 그림들은 하둡 에코시스템을 나타낸 것 입니다. 하둡의 코어 프로젝트 : HDFS(분산 데이터 저장), MapReduce(분산 처리) 하둡의 서브 프로젝트 : 워크플로우 관리, 데이터 마이닝, 분석, 수집, 직렬화 등 구성 요소 (하둡의 서브 프로젝트) 1. 분산 코디네이터 Zookeeper 분산 환경에서 서버들간에 상호 조정이 필요한 다양한 서비스를 제공하는 시스템입니다. 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리하게.. 2021. 9. 13.
[Apache] Hadoop (1) - 하둡(Hadoop) 이란? Hadoop 이란? Apache Hadoop 소프트웨어는 간단한 프로그래밍 모델을 사용하여 컴퓨터의 클러스터에서 대규모 데이터 세트를 분산 저장 및 처리할 수 있는 오픈소스 프레임워크입니다. Hadoop은 단일 컴퓨터에서 시작해 수천 대의 클러스터된 컴퓨터로까지 수직 확장할 수 있도록 설계되었으며 각 머신은 로컬 계산 기능과 스토리지를 제공합니다. 일반적으로 하둡 분산처리시스템(HDFS)과 맵리듀스(MapReduce) 프레임워크로 시작되었으나, 여러 데이터 저장, 실행 엔진, 프로그래밍 및 데이터 처리 같은 하둡 생태계 전반을 포함하는 의미로 확장, 발전되고 있습니다. Apache Hadoop의 개요 더보기 기본 Hadoop 프레임워크는 다음과 같은 4개의 모듈로 구성되며 이러한 모듈이 함께 작동하여 H.. 2021. 9. 13.