[Linux] 클러스터(Cluster), 로드밸런싱

[Linux] 클러스터(Cluster), 로드밸런싱

2022. 10. 19. 10:12ㆍ교육(Linux)/클러스터(Cluster), 로드밸런싱

클러스터(Cluster) : 컴퓨터 데이터 통신분야에서 단말 제어 장치와 그에 접속된 복수 단말의 총칭

- 서버 분야에서의 클러스터는 여러 대의 컴퓨터를 연결하여 하나의 컴퓨터를 사용하는 것처럼 구성된 시스템을 의미함.

- 클러스터의 구성 요소들은 일반적으로 고속의 근거리 통신망으로 연결된다

- 서버로 사용되는 노드에는 각각의 운영 체제가 실행된다.

- 컴퓨터 클러스터는 저렴한 마이크로프로세서와 고속의 네트워크, 그리고 고성능 분산 컴퓨팅용 소프트웨어들의

조합 결과로 태어났다.

- 일반적으로 단일 컴퓨터보다 더 뛰어난 성능과 안정성을 제공하며, 비슷한 성능과 안정성을 제공하는 단일 컴퓨터보다 비용면에서 훨씬 더 효율적이다.

클러스터링

컴퓨팅 파워를 증가시키기 위한 다양한 방법이 있다. 그중 고성능 단일 컴퓨터를 이용한 계산은 이미 그 한계가 있음이 증명된 상태이며 이의 대안으로 다수의 프로세서(CPU)가 하나의 문제를 협동적으로 계산하는 병렬 컴퓨팅이 등장하게 되었다.

다수의 프로레서가 하나의 메모리를 공유는 SMP(symmetric multiprocessing) 머신, 다수의 프로세서가 각각 독립된 메모리를 가지고 있는 MPP(massively parallel processing) 머신, 다수의프로레서의 지역 메모리를 계층적으로 공유하는 NUMA(non-uniform memory access) 등이 여기에 속한다.
그러나 기존 몇몇 벤더에 의해 제공되던 병렬컴퓨터 혹은 슈퍼컴퓨터들은 매우 고가이기 때문에 쉽게 접할수가 없었다.
한편 최근 마이크로프로세서들은 뛰어난 성능을 보여주고 있으며 고속네트워크 또한 널리 보급되었다. 이로 인해 단일
컴퓨터들을 네트워크로 연결함으로써 새로운 개념의 병렬컴퓨터를 만드는 것이 가능하게 되었다. 또한 리눅스라는 공개된 OS는 강력한 네트워크 성능을 제공하며 소스공개로 인한 자유로운 튜닝이 가능하기 때문에 이들을 위한 OS로 널리 사용되고 있다.
이러한 개념의 병렬컴퓨터를 통칭하여 '클러스터'라고 부른다.

★클러스터의 필요성★
1) 워크스테이션에 비해 월등한 컴퓨팅 파워를 제공할수 있으며 대규모 데이터 처리가 가능함.
2) 범용 하드웨어를 사용함으로 인해 상용 병렬컴퓨터에 비해 가격대 성능비가 매우 뛰어남.
3) 노드의 증설에 따라 성능향상이 자유로우며 퇴출된 컴퓨터들을 이용하여 고성능 병렬컴퓨터를 제작할 수 있다.
4) 자체 제작이 가능하다. 따라서 문제발생시 자체 해결이 용이하다.

- 리눅스 클러스터는 사용 목적에 따라 크게 3가지로 구분

① 고계산용 클러스터(HPC: High Performance Computing Cluster)

고성능의 계산 능력을 제공하기 위한 슈퍼컴퓨터 구성에 주로 사용

② 부하분산 클러스터(LVS: Linux Virtual Server Cluster)

HA와 함께 구성하여 웹 서버를 비롯한 서버 분야에서 주로 사용

③ 고가용성 클러스터(HA: High Availability Cluster)

LVS와 함께 구성하여 웹 서버를 비롯한 서버 분야에서 주로 사용

(1) 고계산용 클러스터(HPC: High Performance Computing Cluster)

- 고성능의 계산 능력을 제공하기 위한 목적으로 제작

- 주로 과학계산용으로 활용되고, 슈퍼컴퓨터가 HPC 클러스터로 구성되어 제작됨.

- 다른 말로 베어울프(Beowulf) 클러스터 라고 불림.

- 1994년 NASA 산하연구소인 CESDIS(Center of Excellence in Space Data and Information Sciences) 에서 슈퍼컴퓨터인 Cray의 임대 기간 종료에 대비하기 위해 병렬처리용 슈퍼컴퓨터의 개발을 시작하는 프로젝트에서 탄생함.
- 프로젝트 이름을 베어울프라 하여 개발을 시작하였고, 그 결과물로 채널본딩(Channel Bonding)한 16노드(Node) 병렬 컴퓨터 를 만들어냄.
- 이 병렬 컴퓨터는 슈퍼 컴퓨터와 비교하여 결코 성능이 뒤지지 않는다는 것을 보여 주었고, 이후 이러한 머신들을 베어울프류 컴퓨터 라 부르게 됨.
- 최근에 CPU, Motherboard, Disk 등 하드웨어의 성능 개선, 저렴한 가격과 개발도구인 GNU C Compiler, 관련 프로그램 툴, PVM(Parallel Virtual Machine) 및 MPI(Message Passing Interface) 같은 메시지 패싱 라이브러리들이 등장하면서 더욱 더 높은 성능을 내고 있음.

[Switch/Hub]
│
      ┌────┬──┴───┬─────┐
   node1 node2 node3 node4
      └────┴──────┴─────┘

[하나의 작업을 4개의 노드를 이동하여 수행]

(2) 부하분산 클러스터(LVS: Linux Virtual Server Cluster)

- 보통 LVS(Linux Virtual Server)라고 부름.

- 대규모의 서비스를 제공하기 위한 목적으로 사용되는 클러스터 기법

- 이용자가 많은 웹 서비스 등에 활용가치가 높음.

- 보통 여러 대의 리얼 서버(Real Server)에 부하를 분산해 주는 로드 밸런서(Load Balancer)를 두고 운영하는 방법

[User] ─────> [Load Balancer]
│
         ┌───────┬───┴────┬────────┐
         ↓ ↓ ↓ ↓
        Real Real Real Real
       Server Server Server Server

(3) 고가용성 클러스터(HA: High Availability Cluster)

- 지속적인 서비스 제공을 목적으로 하는 클러스터

- 부하분산 클러스터(LVS)와 연동하여 많이 사용됨.

- 부하분산 클러스터에서 로드 밸런서에 오류가 발생하여 동작을 하지 않는다면 리얼 서버가 정상적인 작동을 하더라도 서비스를 제공하지 못하게 됨.

- 이러한 문제점을 해결하기 위해 하나의 Primary Node가 부하분산의 처리를 수행하고, 다른 하나의 Backup Node(또는 Secondary Node)가 Pimary Node의 상태를 체크하고 있다가 이상이 발생하면 서비스를 이어 받도록 구성하는 방법

[User]
│ └────────────────────────┐
│ │
↓ 이상 유무 체크 ↓
[ Primary ] ───────────────────> [ Backup ]
[ Node ] ───────────────────> [ Node ]
Primary Node 이상시
서비스를 이어 받음

로드밸런싱

▷로드밸런싱이란? : 서버가 처리해야 할 업무 혹은 요청(Load)을 여러 대의 서버로 나누어 (Balancing) 처리하는 것을 의미함. 한 대의 서버로 부하가 집중되지 않도록 트래픽을 관리해 각각의 서버가 최적의 퍼포먼스를 보일 수 있도록 하는 것이 목적이다.

부하 분산을 위해서 가상(vitural) IP를 통해 여러 서버에 접속하도록 분배하는 기능을 말한다.

로드밸런싱 서비스는 그에 적합한 하드웨어와 소프트웨어에 의해 제공된다. 이 기술은 보통 내부 네트워크를 이용한 병렬처리에 사용된다.

로드 밸런싱 알고리즘

▶ 라운드로빈

서버에 들어온 요청을 순서대로 돌아가며 배정하는 방식
서버와의 연결이 오래 지속되지 않는 경우 적합함.

▶ 가중 라운드로빈 방식

각 서버에 가중치를 매기고 가중치가 높은 서버에 요청을 우선적으로 배정하는 방식
서버의 트래픽 처리 능력이 다른 경우 사용한다.

▶ 최소 연결 방식

요청이 들어온 시점에 가장 적은 연결 상태를 보이는 서버에 트래픽을 배정하는 방식.
서버에 분배된 트래픽들이 일정하지 않은 경우에 적합함.

▶ IP 해시 방식

클라이언트의 IP주소를 특정 서버로 매핑하여 요청을 처리하는 방식
사용자가 항상 동일한 서버로 연결된다.

▶장단점

※장점

- 고가의 서버로 확장하지 않고 저렴한 비용에 다수의 서버로 증설하여 경제적으로 비용 절감을 할 수 있다. 대량의 트래픽으로 1대의 서버로 집중적인 부하율이 높아지면 L4 스위치가 이름 감지하여 합리적으로 로드밸런싱 처리 할 수 있다.

- 1대의 서버 장애가 발생하여도 서비스 중단없이 다른 서버로 적절히 자동으로 분배하여 서비스가 계속 운용 가능하게 할 수 있다. 추후 사용량이 많아 서버 확장으로 서비스의 확장성과 가용성을 보장하는 데 도움이 된다.

※단점

- 클라이언트의 연결 정보를 저장하는 세션이 로드밸런싱을 통해 하나의 서버 장비에 저장이 되는 경우, 추후 다른 서보로 접속하게 되면, 해당 클라이언트의 세션이 유지되지 않는다는 것이다.

- 서버에 액세스할 때마다 다른 세션을 사용한다면 특정 사용자의 정보를 일관성 있게 유지할 수 없게 된다.

서비스의 규모가 커지고, 이용자 수가 늘어나게 되면 기존의 서버만으로는 원활한 서비스 동작이 불가능하게 되고, 이에 대처할 수 있는 방법은 크게 두 가지로 나뉜다.

● 기존의 서버 성능을 확장하는 Scale-up 방식

● 기존의 서버와 동일하거나 낮은 성능의 서버를 증설하는 Scale-out 방식성

로드 밸런싱 기법

로드 밸런싱 기법은 여러 가지가 있다. 서버의 능력을 고려하여 분배해야 하기 때문에 서버의 상황에 맞춰 적절한 방법을 선택해야 한다.

라운드로빈 방식(Round Robin Method) : 서버에 들어온 요청을 순서대로 돌아가며 배정하는 방식이다. 클라이언트의 요청을 순서대로 분배하기 때문에 여러 대의 서버가 동일한 스펙을 갖고 있고, 서버와의 연결(세션)이 오래 지속되지 않는 경우에 활용하기 적합하다.
가중 라운드로빈 방식(Weighted Round Robin Method) : 각각의 서버마다 가중치를 매기고 가중치가 높은 서버에 클라이언트 요청을 우선적으로 배분한다. 주로 서버의 트래픽 처리 능력이 상이한 경우 사용되는 부하 분산 방식이다. 예를 들어 A라는 서버가 5라는 가중치를 갖고 B라는 서버가 2라는 가중치를 갖는다면, 로드 밸런서는 라운드로빈 방식으로 A 서버에 5개 B 서버에 2개의 요청을 전달한다.
IP 해시 방식(IP Hash Method) : 클라이언트의 IP 주소를 특정 서버로 매핑하여 요청을 처리하는 방식이다. 사용자의 IP를 해싱해(Hashing, 임의의 길이를 지닌 데이터를 고정된 길이의 데이터로 매핑하는 것, 또는 그러한 함수) 로드를 분배하기 때문에 사용자가 항상 동일한 서버로 연결되는 것을 보장한다.
최소 연결 방식(Least Connection Method) : 요청이 들어온 시점에 가장 적은 연결상태를 보이는 서버에 우선적으로 트래픽을 배분한다. 자주 세션이 길어지거나, 서버에 분배된 트래픽들이 일정하지 않은 경우에 적합한 방식이다.
최소 응답 시간 방식(Least Response Time Method) : 서버의 현재 연결 상태와 응답 시간(Response Time, 서버에 요청을 보내고 최초 응답을 받을 때까지 소요되는 시간)을 모두 고려하여 트래픽을 배분한다. 가장 적은 연결 상태와 가장 짧은 응답 시간을 보이는 서버에 우선적으로 로드를 배분하는 방식이다.

리눅스를 이용한 클러스터링 구축법

https://blog.pages.kr/108

리눅스를 이용한 클러스터링 구축법

Cluster Overview [ 목 차 ] 1. 클러스터 2. 클러스터의 필요성 3. 클러스터의 종류 3-1. 고계산용 클러스터 (HPC) 3-2. 부하분산 클러스터 (LVS) 3-3. 고가용성 클러스터 (HA) 3-4. 그외의 클러스터..

blog.pages.kr

WSHIt

WSHIt

태그

최근글

댓글

공지사항

아카이브

리눅스를 이용한 클러스터링 구축법

티스토리툴바