
まず第一に、私はシステム管理者ではなく、ユーザーだけです。 IT部門は従業員の離職率が高く、既存の従業員はHPCシステムを理解していないため、現在のサポートを提供できません。
つまり、私はCentOS Linux 7で動作する高性能コンピューティングクラスタを使用しています。私たちのクラスターは最近、嵐のために電力が失われました。今後電源がオフの状態で、df コマンドは次の出力を提供します。
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/md4 723772952 48291720 675481232 7% /
devtmpfs 32828496 0 32828496 0% /dev
tmpfs 32844812 4 32844808 1% /dev/shm
tmpfs 32844812 1010484 31834328 4% /run
tmpfs 32844812 0 32844812 0% /sys/fs/cgroup
/dev/md3 31425544 4035716 27389828 13% /var
/dev/md2 8370176 33068 8337108 1% /tmp
/dev/md123 507684 149533 331940 32% /boot
182.22.0.47:/pool0/data 57316467200 256 57316466944 1% /data
182.22.0.47:/pool0/home 172707177472 115390709760 57316467712 67% /home
tmpfs 6568964 12 6568952 1% /run/user/42
tmpfs 6568964 0 6568964 0% /run/user/1003
すべてのユーザーのホームディレクトリは、ファイルシステム182.22.0.47:/ pool0 / homeにあります。しかし、電源を切ってから回復した後、dfコマンドを実行してみると、次のような結果が出ました。
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/md4 723772952 48291720 675481232 7% /
devtmpfs 32828496 0 32828496 0% /dev
tmpfs 32844812 4 32844808 1% /dev/shm
tmpfs 32844812 1010484 31834328 4% /run
tmpfs 32844812 0 32844812 0% /sys/fs/cgroup
/dev/md3 31425544 4035716 27389828 13% /var
/dev/md2 8370176 33068 8337108 1% /tmp
/dev/md123 507684 149533 331940 32% /boot
tmpfs 6568964 12 6568952 1% /run/user/42
tmpfs 6568964 0 6568964 0% /run/user/1003
IPアドレス182.22.0.47で始まるファイルシステムがないことを除いて、出力は同じです。
私は次の質問を見つけようとしています。なぜこのファイルシステムがマウントされなくなったのですか?最初は、ノード182.22.0.47に電源がまったく供給されていないと思いました。ただし、問題なくこのノードにSSHを介して接続できます。ただし、これを行った後、ユーザーのホームディレクトリが見つかりません。さらに、ディスク容量(〜450 GB)は、最初のdf出力で提供された元の容量(〜161 TB)よりはるかに低くなります。
可能であれば、より多くの情報を提供します。前述のように、私はシステム管理者以外のユーザーであるため、試すことができる操作は限られています。時間をいただきありがとうございます。
編集する:コメントに回答したら、よくわかりません。明確にできますか?もちろんこれは私の操舵室にはありません。
しかし、質問を投稿した後、リモートノードに実際には200 TBを超えるマウントされていないストレージ(欠けているデータが含まれる可能性がある)がある可能性があることがわかりました。私は次の出力を生成するlsblkコマンドを介してこれを見つけました。
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 745.2G 0 disk
├─sda1 8:1 0 745.2G 0 part
└─sda9 8:9 0 8M 0 part
sdb 8:16 0 93.2G 0 disk
├─sdb1 8:17 0 93.2G 0 part
└─sdb9 8:25 0 8M 0 part
sdc 8:32 0 93.2G 0 disk
├─sdc1 8:33 0 93.2G 0 part
└─sdc9 8:41 0 8M 0 part
sdd 8:48 0 745.2G 0 disk
├─sdd1 8:49 0 745.2G 0 part
└─sdd9 8:57 0 8M 0 part
sde 8:64 0 447.1G 0 disk
└─md126 9:126 0 424.8G 0 raid1
├─md126p1 259:0 0 500M 0 md /boot
├─md126p2 259:1 0 3.9G 0 md [SWAP]
└─md126p3 259:2 0 420.4G 0 md /
sdf 8:80 0 5.5T 0 disk
├─sdf1 8:81 0 5.5T 0 part
└─sdf9 8:89 0 64M 0 part
sdg 8:96 0 5.5T 0 disk
.
.
.
わかりませんが、問題はファイルシステムをアンマウントするだけです。