Saat memantau Cluster Ceph melalui dashboard, ditemukan peringatan berikut:
health: HEALTH_ERR 1 scrub errors / Possible data damage: 1 pg inconsistent
Issue #
Ketika menjalankan perintah ceph -s menampilkan output seperti berikut:
cluster:
id: 0260f99a-117e-4c7e-8fbe-86c483bcd7e9
health: HEALTH_ERR
1 scrub errors
Possible data damage: 1 pg inconsistent
services:
mon: 3 daemons, quorum mon01,mon02,mon03 (age 10w)
mgr: mon01(active, since 7w), standbys: mon02, mon03
mds: cephfs:1 {0=mds01=up:active} 2 up:standby
osd: 285 osds: 285 up (since 43h), 285 in (since 2w)
rgw: 3 daemons active (cephrgw01, cephrgw02, cephrgw03)
data:
pools: 8 pools, 4328 pgs
objects: 294.96M objects, 463 TiB
usage: 694 TiB used, 1.3 PiB / 2.0 PiB avail
pgs: 4320 active+clean
7 active+clean+scrubbing+deep
1 active+clean+scrubbing+deep+inconsistent
io:
client: 3.8 MiB/s rd, 188 MiB/s wr, 11 op/s rd, 732 op/s wr
Dari output di atas terlihat terdapat 1 Placement Group (PG) dalam kondisi inconsistent, yang berpotensi menyebabkan kerusakan data.
Solution #
Untuk mengidentifikasi PG yang bermasalah, jalankan perintah berikut:
ceph health detail
Output yang diperoleh:
HEALTH_ERR 1 scrub errors; Possible data damage: 1 pg inconsistent
OSD_SCRUB_ERRORS 1 scrub errors
PG_DAMAGED Possible data damage: 1 pg inconsistent
pg 5.6f1 is active+clean+scrubbing+deep+inconsistent, acting [7,141,208,199,70,37,182,131,120,259]
Dari hasil tersebut diketahui bahwa PG yang bermasalah adalah pg 5.6f1.
Untuk repair PG tersebut, jalankan perintah:
ceph pg repair 5.6f1
Setelah proses repair selesai, lakukan pengecekan ulang dengan:
ceph -s
Pastikan status cluster kembali ke HEALTH_OK dan tidak ada PG yang berstatus inconsistent.