본문 바로가기

Hardware3

[HW] GPU 구조 / CUDA 시스템에서 host(CPU)에서 devie(GPU)로 커널 호출 시, thread들이 SIMT 형태로 병렬 처리되는 과정 /Nvidia GPU Architecture Roadmap GPU Structure SP(Scalar Processor) 정수 계산을 위한 ALU(Int), 실수 계산을 위한 FPU(FP), 데이터를 로드/스토어 하기 위한 LSU(move,cmp)으로 이루어진다. NVIDIA의 경우, SP를 CUDA core라고 부른다. SM (Streaming Multiprocessor) 명령어 처리 단위, 명령어에 대한 Fetch/Decode를 처리한다. 위 GPU에서는 SP 8개가 모여서 SM을 이룬다. SM은 SP를 제어하고 명령어 캐시와 데이터 캐시를 가지고 있다. GPU의 각 세대마다 SM, SP의 개수가 차이난다. SM은 CUDA에서 warp 단위의 실행을 담당한다. CUDA 시스템에서 host(CPU)에서 devie(GPU)로 커널 호출 시, thread들이 SI.. 2022. 1. 27.
[HW] CPU, GPU, TPU 비교 CPU (Central Processing Unit) 컴퓨터의 정중앙에서 모든 데이터를 처리하는 장치이다. ALU가 한 개이다. CPU 에는 제어장치(CU)가 존재하는 대신, ALU 가 1개 뿐이다. 따라서, 단순 사칙연산 속도는 GPU 에 비해 안 좋으나, 복잡한 연산에는 용이하다. GPU (Graphics Processing Unit) GPU는 컴퓨터 그래픽을 처리하는 장치로, 그래픽 카드를 구성하는 가장 중요한 요소이다. 3D 그래픽의 각종 광원 효과 및 질감 표현기법 등이 발전하면서 이를 CPU 혼자 처리하기에 버거워져 보조하기 위해 개발되었다. 하지만, 현재는 딥 러닝 영역에서 컴퓨팅 워크로드를 가속화하기 위해, 보다 광범위하게 활용되고 있다. ALU가 약 2500개이다. ALU 의 개수가 CP.. 2021. 9. 7.
[HW] 딥러닝에 GPU를 사용하는 이유 / CPU와 GPU의 차이 딥러닝은 왜 GPU 인가? AI 모델에서는 프로세서 병렬 연산 속도가 얼마나 빠르냐를 기준으로 성능을 구분한다. GPU(Graphics Processing Unit)는 말 그대로 비디오 즉, 픽셀로 이루어진 영상을 처리하는 용도로 탄생했다. 이 때문에 CPU에 비해 반복적이고 비슷한, 대량의 연산을 수행하며 이를 병렬적으로 나누어 작업하기 때문에 CPU에 비해 속도가 대단히 빠르다. 어플리케이션의 연산집약적인 부분을 GPU로 넘기고 나머지 코드만을 CPU에서 처리하는 GPU 가속 컴퓨팅은 특히 딥러닝 영역에서 강력한 성능을 제공한다. 사용자 입장에서는 연산 속도가 놀라울 정도가 빨라졌음을 느낄 수 있다. CPU와 GPU의 구조 산술논리연산장치 (ALU) 는 산술연산을 진행하는 장치이다. CPU 보다 GP.. 2021. 9. 5.