개발/대학원생의 좌충우돌 GPU 클러스터 구축기
010. [대학원생의 좌충우돌 GPU 클러스터 구축기] 2. GPU 클러스터 만들기(Kubernetes)!
이전 글에서 만든 GPU 모니터링으로 수동분배가 쉬워지긴 했지만, 늘어나는 서버, 사용자를 하나씩 할당하는건 너무나.. 빡센일이었다.. 그래서 GPU를 자동으로 할당하고 사용할 수 있는 방법이 없을까 고민하고 검색하다가 GPU 클러스터를 만들기로 했다! 처음 찾아본것은 기존 HPC(Hight Performance Computing)에서 많이 사용하던 SLURM 이었는데 서버 별로 모든 환경을 동일하게 해주어야 하는 문제점이 하나 있었다. 하지만 사람마다 사용해야하는 파이썬 버전, 패키지 버전이 다를 경우가 흔해서 파이썬 가상환경이나 도커를 많이 사용하고있는데 이것도 하나씩 세팅을 해주어야하니 불편할 수 밖에 없다고 판단했다. 다음으로 찾아본것은 조금더 최근에 나오고 많이 사용되고 있는 Kubernetes..
007. [대학원생의 좌충우돌 GPU 클러스터 구축기] 1. 놀고있는 GPU 찾아내기!!
석사 입학후 나는 인프라 관리자를 맡게 되었다. 그전에도 관련일을 하긴했지만 전담으로 하진 않았으나 이제 엄연히 "관리자"라는 직책(?)을 부여받았다. 앞선 글에서도 이야기했지만 당시에는 모든 서버 할당을 관리자가 수동으로 했다. GPU 사용 요청이 들어오면 어느GPU가 사용되는지 어느 GPU가 놀고있는지 모니터링하고있다가 비어있는 GPU에 할당해주면 된다! 연구실에서 이런 일만 했다면 참 좋았겠지만! 석사과정 학생이었기에 수업도 들어야하고 논문도 써야하고 프로젝트도 해야해서 항상 시간이 부족했다. 또 관리하는 서버가 한두개 였다면 nvidia-smi(gpu 사용량 모니터링 명령어)를 서버에 들어가서 한두번 치면 되겠지만 5대를 넘어가니 매번들어가서 치는일이 정말 귀찮고 오래걸렸다. 그래서! 나는 왜 서..
006. [대학원생의 좌충우돌 GPU 클러스터 구축기] 0. 맨땅에 헤딩하기
2020년부터 석사를 시작해서 이제 3기에 접어들었지만 연구실생활은 4학년인 2019년 부터 시작했다. 새로 부임하신 교수님연구실에 들어갔었고 정말 아무것도 없는 무에서부터 시작했다. 처음엔 시행착오도 많이 격고 정말 힘들었지만 덕분에 클라우드, 인프라, 딥러닝연구 모두 재미있게 할 수 있었다. 오늘부터 우리연구실의 인프라 발전과정을 적어보려고한다. 2018년 여름방학. 정말 아무것도 없는 허허벌판, 화성을 탐사하듯 그때 연구실은 정말 아.무.것.도 없었다. 교수님 한 분만 믿고 들어간 연구실이라 아직 연구실 방 배정도 못받았었다. 그래서 건물에 남는 스터디공간인 이노갤러리 책상하나를 작은 연구실처럼 사용했는데 다행히 얼마 지나지 않아 학과 공동연구실에 자리를 얻을 수 있었다. 이노갤러리는 공간이 넓긴했..