안녕하세요! GKE 노드 접근 불가해서 클러스터를 점검하다 보니 일부 노드에서 다음과 같은 경고 메시지가 뜬 것을 발견했습니다.
# kubectl get events --field-selector reason=ReadOnlyLocalSSDDetected -o wide
LAST SEEN TYPE REASON OBJECT SUBOBJECT SOURCE MESSAGE FIRST SEEN COUNT NAME
65s Warning ReadOnlyLocalSSDDetected node/gke-gke-prod-default-pool-7d8bb171-18fr device-fs-monitor, gke-gke-prod-default-pool-7d8bb171-18fr 2d1h 591 gke-gke-prod-default-pool-7d8bb171-18fr.184705eee46860dd
3m17s Warning ReadOnlyLocalSSDDetected node/gke-gke-prod-default-pool-7d8bb171-jlnj device-fs-monitor, gke-gke-prod-default-pool-7d8bb171-jlnj 2d1h 591 gke-gke-prod-default-pool-7d8bb171-jlnj.184705d021a81a4d
3m30s Warning ReadOnlyLocalSSDDetected node/gke-gke-prod-default-pool-7d8bb171-zhh7 device-fs-monitor, gke-gke-prod-default-pool-7d8bb171-zhh7 2d1h 590 gke-gke-prod-default-pool-7d8bb171-zhh7.18470612d8393973
3m48s Warning ReadOnlyLocalSSDDetected node/gke-gke-prod-fmcbackendzip-pool-c9039ff2-shzk device-fs-monitor, gke-gke-prod-fmcbackendzip-pool-c9039ff2-shzk 5d2h 1473 gke-gke-prod-fmcbackendzip-pool-c9039ff2-shzk.18461522078766af
출력된 결과를 보면 Read Only Local SSD Detected 경고가 계속 발생하고 있더라고요.
디바이스가 read-only 상태로 전환된 것처럼 보여요. 문제는, 이 노드들에 접근 자체가 안 됩니다..
GCP Cloud Shell을 이용해 접속을 시도했는데도 실패했고 오류 메시지가 이렇게 뜹니다.
Error occurred: Pod creation timed outfailed to open a node shell: failed to create node pod
이상한 건 같은 환경 내에 비슷한 접속 불가 이슈가 있는 다른 노드도 있는데, 그 노드는 SSD read-only 경고가 뜨지 않았습니다.
IAM 권한 문제인가 싶어서 확인도 해봤는데, 권한 쪽 문제는 아닌 것 같고요…!
혹시 저처럼 이런 이슈 겪으신 분 계신가요? ㅠㅠ 노드를 리사이클하면 해결되는 문제일까요..
아니면 로컬 SSD를 다시 붙이는 다른 방법이 있을지 궁금합니다.
감사합니다.