System Engineering

System Engineering/Terraform

Terragrunt 기초 정리

1. GolssaryTerragruntTerraform으로 작성된 IaC를 Orchcstation하기 위한 Tool.UnitTerragrunt로 관리되는 단일 인프라 인스턴스로 hcl파일이 여기에 해당보통 하나의 VPC, DB, Server 등을 상징Root hcl과 Child hcl로 구분되며, K8s 기준 hcl hierarchy는 다음과 같다.root.hcl(base.bcl)Cluster 전체에 대한 kubernetes.hclnamespace에 대한 hclCR 등 의존성이 필요한 모듈에 대한 hclStackUnit의 집합으로 종종 하나의 region, business unit, app environment를 상징Module여러 리소스를 포함하는 .tf파일의 집합으로 Stack 내 하위 디렉터리로 ..

System Engineering/Network

InfiniBand에 대한 이해 (1) - 구조와 헤더

1. InfiniBand(IB) 란? AI 등을 서비스하는 HPC(High Performance Computing) 환경에서 Model이나 Checkpoint 등 TB 단위의 대용량 데이터 RDMA(Remote Dynamic Memory Access)를 위한 저지연 통신 표준입니다. RDMA란?일반적인 패킷 인입은 ring buffer > DMA > CPU > Kernel buffer > Userspace로 전달되며, 이 과정에서 IRQ로 CPU context change가 발생하여 memcpy()가 이루어집니다.RDMA의 경우 패킷이 CPU로 인입되지 않고 NIC 또는 HCA에서 offload처리되어 memory에 직접 쓰여집니다. (Zero copy)송신측의 HCA는 수신측의 가상 메모리 페이지와 물..

System Engineering/Kubernetes

Kubelet MCE Memory Error - EDAC

운용중인 시스템에 'Handling MCE Memory Error'라는 문구와 함께 여러 에러가 발생했습니다. 결론적으로 하드웨어 문제는 아니었지만 찾아본 내용을 정리한 내용입니다. * MCE = Machine Check Error EDAC(Error Detection and Corredtion)EDAC는 CPU Cache, Memory, GPU, PCI bus 등과 같은 하드웨어의 에러를 감지하고 가능하다면 이를 수정하기 위한 커널 모듈입니다.아래는 커널 문서를 정리한 내용입니다. /Documentation/driver-api/edac.rst/Documentation/admin-guide/ras.rstCPU가 Memory Controller(이하 MC)로 데이터를 쓸 때, MC는 실시간으로 Hammin..

System Engineering/Linux

iSCSI Error Handling

1. SCSI(Small Computer System Interface)SCSI란?1980년대에 HDD, 자기테이프 등의 주변장치를 위한 I/O 표준으로 Read, Write, Inquiry 등명령어 집합입니다.직렬 인터페이스인 SAS(Serial Attached SCSI)는 SCSI를 사용합니다. SCSI는 명령어를 전송하는 주체인 Initiator와 LUN(Logical Unit)을 제공하는 Target이 클라이언트 서버 구조로 구성됩니다. 두 주체는 명령어를 요청하고 응답을 받습니다.Logical unitSCSI에서 논리적인 스토리지 단위를 식별하는 번호로 하나의 물리 디스크를 의미합니다.Device Service/TaskRead, Write, Inquiry 등의 I/O 요청과 Abort, Rese..

Hopulence
'System Engineering' 카테고리의 글 목록