Hadoop YARN 짧은 설명

Bigdata 2013. 6. 26. 10:50

얀(Yarn)을 짧게 소개하자면, 얀은 하둡0.23.0 버전부터 맵리듀스의 차세대 기술로 새로 개발되어 하둡2.0-alpha로 승계되어진 프로젝트입니다. 물론 기존 맵리듀스의 단점을 해소하고 하둡 사용자의 니즈를 마추고자 개발됬죠.

 일단 가장 큰 변화로는 얀 자체로 맵리듀스를 구동할 수 있고, 추가로 다른 분산처리 프레임워크 (Giraph, Storm, HBase 등)을 사용자의 인터페이스 개발만으로 구동 가능하게됐습니다. 참고로 얀에서 작동하는 맵리듀스를 MRv2라고 부릅니다.

기술적으로는 기존 맵리듀스의 마스터인 잡트래커가 리소스관리, 잡 스캐줄링, 잡 모니터링을 하는데 비해 얀의 마스터인 ResourceManager(RM)은 두개의 서비스로 분리되고 (클러스터 리소스를 관리하는 SchedulerApplicationMaster(AM)를 관리하는 ApplicationsManager(AsM)), AM은 하나의 노드에 RM에 의해 가동되어 잡의 라이프사이클과 모니터링을 담당합니다. 이 모델은 기존 5000개 정도의 노드 제한이 있는 잡트래커 방식에 비해 발전된 확장성을 가지고 각 애플리케이션 별 독립성도 부여합니다.

참고자료:

http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/
http://blog.cloudera.com/blog/2012/02/mapreduce-2-0-in-hadoop-0-23/

얀이 상승세를 탈 시기가 되었습니다. 일단 하둡0.23 2011년말 출시된지도 꽤 됐고, 이제 곧 하둡 2.1 베타버전이 출시됩니다. 또한 최근 야후에서 yarn-storm 오픈소스를 공개해 얀의 배치성 작업과 스톰의 실시간성 작업을 같은 클러스터에 구성할 수 있게 되어 화두가 되고 있습니다.

http://developer.yahoo.com/blogs/ydn/storm-yarn-released-open-source-143745133.html

전망되는 얀의 최고 상승세는 물론 얀의 정식버전이 출시될때입니다. 아직 하둡2.0이 알파 버전이라 운영클러스터 적용을 꺼려하고 있는데 베타버전을 거쳐 정식버전이 출시되면 큰 인기를 얻을 전망입니다. 

 하둡과 맵리듀스도 배우기 바쁜 이 시점에서 아직 사용자층에서 얀에 큰 관심은 없지만 금년 말부터 빅데이타 트랜드가 될것으로 보이고 하둡2.0에서 채택한만큼 피해갈 수 없는 기술로 보입니다.


설정

트랙백

댓글