운용중인 시스템에 'Handling MCE Memory Error'라는 문구와 함께 여러 에러가 발생했습니다. 결론적으로 하드웨어 문제는 아니었지만 찾아본 내용을 정리한 내용입니다. * MCE = Machine Check Error EDAC(Error Detection and Corredtion)EDAC는 CPU Cache, Memory, GPU, PCI bus 등과 같은 하드웨어의 에러를 감지하고 가능하다면 이를 수정하기 위한 커널 모듈입니다.아래는 커널 문서를 정리한 내용입니다. /Documentation/driver-api/edac.rst/Documentation/admin-guide/ras.rstCPU가 Memory Controller(이하 MC)로 데이터를 쓸 때, MC는 실시간으로 Hammin..
Openstack 인프라에 VM으로 K8s를 1.23버전으로 새로 배포하는 도중, Cinder와 연결되는 CSI plugin과 openstack-cloud-contoller-manager가 아래와 같은 이유로 Error가 발생하였습니다. # kubectl get pod -A NAMESPACE NAME READY STATUS RESTARTS AGE …. kube-system openstack-cloud-controller-manager-8zd7x 0/1 Error 1 (11s ago) 14s kube-system openstack-cloud-controller-manager-hg28f 0/1 Error 1 (11s ago) 14s kube-system openstack-cloud-controller-man..
1. 개요 Kubernetes에서는 kube-node-lease를 통해 Host(Worker)의 단순한 Health Check만 할 수 있으며, 아래처럼 다양한 문제를 감지할 수 없습니다. CPU, Memory, Disk 등의 하드웨어 문제 Kernel과 File System의 문제 Docker 또는 Container Runtime 문제 2. Node Problem Detector Problem Deamon : Node-Problem-Detector의 서브 데몬으로 아래 4가지 타입이 있으며, 타겟에 따라 로그나 데몬을 감시하고 설정된 predefined rule의 정의에 따라 kube-apiserver로 보고하여 Remedy System(Draino)에서 node cordon과 같은 조치를 시도하거나 ..
쿠버네티스는 기본적으로 계정관리 기능을 제공하지 않으며, Certificate 인증을 통해 K8s Cluster REST API 통신을 합니다. 1. PKI(Public Key Infrastructure) 구조 PKI는 공개키(*.crt)와 비밀키(*.key)가 하나의 Pair로써, 데이터가 하나의 키로 암호화되면 쌍이 되는 다른 키로 복호화가 가능한 비대칭키 방식과 하나의 키로 암호화와 복호화가 모두 가능한 대칭키 방식을 모두 사용합니다. PKI 구조에서 키교환이 이루어지는 방식은 아래 그림과 같습니다. 모든 Browser에는 COMODO나 Symanetc과 같은 인증된 보안업체들이 발급한 Root 인증서(CA)의 공개키를 가지고 있으며, 서비스 호스팅 등을 위한 Server는 CA로의 CSR을 통해 ..