제온 스케일러블 프로세서의 반도체 설계는 ‘아름답다!’
새 제온 스케일러블 프로세서의 핵심은 뭐니뭐니해도 ‘확장성’에 있다. 더 많은 코어, 더 많은 프로세서, 그리고 더 나아가 아주 많은 서버의 노드를 연결하는 것을 핵심으로 했다. 한마디로 사실상 제온 스케일러블 프로세서의 반도체 설계는 ‘아름답다’는 표현이 아깝지 않다.
제온 스케일러블 프로세서의 두 번째 핵심은 ‘버스’에 있다. 바로 효율을 높이기 위한 것이다. 버스는 영어로도 ‘Bus’다. 컴퓨터의 각 요소들이 데이터를 주고받는 길을 말한다. 그 구조가 사람들이 버스를 타고 움직이는 것 같아서인지 버스라는 이름이 붙는다. 버스는 사실 컴퓨터를 설계하는 데에 있어 큰 골칫거리 중 하나다. 프로세서의 처리 능력이 아무리 좋아도 데이터가 오가는 속도가 늦거나 멈칫거리며 제때 원하는 정보가 안 들어온다면 제 성능을 기대할 수가 없다.
결론부터 이야기하자면 제온 스케일러블 프로세서의 성능 향상에 적지 않은 영향을 끼치는 것이 바로 버스에 있다. ‘PCI 익스프레스 3.0’은 기존 32개 채널에서 48개널로 늘어났고, 메모리 역시 2채널에서 3채널로 늘어났다. 프로세서가 처리할, 또 처리한 데이터가 오가는 데에 한결 숨통이 트인 셈이다.
버스 이야기를 조금 더 해보자. 버스는 하드디스크와 더불어 컴퓨터의 오랜 숙제였다. 그래서 PC 업계는 꾸준히 버스의 성능을 개선했다. 우리에게 가장 익숙한 버스는 외장 기기를 연결하는 것인데 초기 PC는 ISA 버스를 썼다. 하지만 그래픽카드의 성능이 높아지고, 입출력 장치의 속도가 중요해지면서 속도를 높인 PCI 버스가 일반화됐고, PCI는 다시 그래픽 전용 AGP를 거쳐, 지금의 PCI익스프레스로 진화해 왔다. 몇 배씩 속도가 높아져도 늘 버스 속도는 목이 마르게 마련이다.
더구나 요즘들어 고성능 그래픽카드를 비롯해, 머신러닝용 GPU가 PCI 익스프레스 슬롯을 통해 연결되면서 다시 고성능 버스의 중요성이 높아지고 있다. 또한 병목 현상의 주범으로 꼽히던 하드디스크가 SSD로 바뀌면서 아예 PCI 익스프레스에 직접 붙는 NVMe 방식 플래시 메모리도 대중화되고 있다. PCI를 비롯한 버스 속도는 여전히 더 빠른, 그리고 더 넓은 대역폭이 필요하다.
제온 스케일러블 프로세서의 PCI 익스프레스 3.0은 기존 16레인(lane) 두 개를 묶어 32레인으로 작동하던 것에 한 채널을 더해 16레인x3채널로 총 48레인이 됐다. 프로세서당 16배속 PCI 익스프레스 3.0을 이용하는 GPU를 1개 더 연결할 수 있고, NVMe 기반 SSD를 4개 더 연결할 수 있게 된다. 단적으로 GPU 기반의 머신러닝을 구현하기에 유리하고, 고속의 플래시 저장장치를 더 많이 이용할 수 있게 된다. 조금 다른 이야기지만 새 제온 프로세서는 NVMe 스토리지 여러개를 직접 RAID로 묶어주는 콘트롤러도 품었다. 입출력에 여유가 있어서 가능한 일이다.
메모리의 개선도 중요하다. 모든 프로세서는 메모리 성능에 직접적으로 영향을 받게 마련이다. ‘프로세서 - 캐시 메모리 - 메모리 - 저장장치’ 순의 데이터 로딩은 폰 노이만식 컴퓨터의 가장 일반적인 구성이고, 이는 수퍼컴퓨터나 서버, 게임기, 심지어 스마트폰까지 크게 벗어나지 않는다. 하지만 데이터가 한 단계를 거칠 때마다 많은 손실이 생기게 마련이다. 빠른 저장 장치일수록 값이 비싸질 수 밖에 없기 때문에 각 요소의 속도를 높이는 것 역시 중요한 기술 이슈다.
제온 스케일러블 프로세서는 메모리가 3채널로 빨라졌다. 여전히 프로세서 소켓당 꽂을 수 있는 메모리는 6개다. 하지만 기존 2채널씩 3조였던 것이 3채널 2조로 바뀌었다. 전체 용량의 변화는 없지만 2채널이 두 개를 묶고, 3채널이 3개를 묶는 것을 따져보면 똑같은 메모리를 쓴다고 해도 이론적인 메모리 전송 속도가 50% 빨라진다. 전체적인 시스템 속도가 빨라지는 것은 당연한 일이다.
조금 다른 이야기지만 제온 스케일러블 프로세서의 버스를 보면서 흥미로운 것 중 하나는 양과 효율의 대결이다. 비슷한 시기에 발표된 AMD의 에픽 프로세서에는 소켓당 128개 PCI 레인이 붙는다. 3배 가까이 많은 PCI 기기를 쓸 수 있다. 하지만 이는 AMD 프로세서 코어를 덩어리로 묶은 CCX마다 PCI 익스프레스 32레인이 붙고, CCX가 4개 묶이기 때문에 전체 128개 레인을 갖게 되는 것이다. 숫자로는 많지만 CCX 사이의 연결은 제온 프로세서의 메시 아키텍처와 UPI에 비해 효율성이 떨어진다. 소켓당 꽂을 수 있는 GPU 수를 늘리는 것과 숫자를 줄이고 효율을 높이는 것 중 어떤 것이 실제 현장에서 더 나은 성능을 낼 지는 지켜봐야 할 일이다.
※ 필자소개
최호섭. PC사랑을 시작으로 최근 블로터까지 IT 분야만 팠다. 차에서 보내는 시간이 아까워서 들여다보기 시작한 노트북과 팜 파일럿 PDA는 순간이 아니라 인생을 바꿔 놓았다. 기술 하나에 일희일비하지 않고 역사와 흐름을 읽고자 한다. 세상은 늘 배울 게 많고, 기술은 거짓말하지 않는다고 생각한다.
댓글