システム監視タイマーのリセット/リフレッシュ

システム監視タイマーのリセット/リフレッシュ

高可用性システムをセットアップしたいのですが、そのためにいくつかの回復方法を試しています。

kernel再起動を意味する自動化された手段を使用して更新を受け取ったと仮定し、snapshot実行中のシステムを作成し、起動可能な項目を作成し、GRUB2鉱山を更新しkernel、更新されたルートに強制起動します。

ブートが期待どおりに進行しない場合は、一定時間後にブート試行を放棄して正常にブートするタイマーが必要です。これは更新前のスナップショットを介して行われます。

人にとっては、この状況が迷惑に見えるかもしれませんWatchDog timer (WDT)。私の設定には3秒から30分の時間値がWatchdogあることがわかりました。BIOS ACPI2分に設定して起動しようとしている間、起動プロセスを中断して続行しないようにし、当然2分後に再起動しました。ただし、システムが正しく起動しても、2分ごとに再起動します。

私は読んだ、ここここそしてここdaemonこのウォッチドッグを刺激/リフレッシュする必要があります。私のシステムに1つがあることがわかりました/dev/watchdogが、これが私がアクティブにしたウォッチドッグとインターフェースしているウォッチドッグかどうかはわかりませんBIOS。私はこれが面白いかもしれないことをもっと読んだsystemd。このRuntimeWatchdogSec=オプションを設定すると、/etc/systemd/system.confウォッチドッグタイマーにリフレッシュメッセージが送信され、再起動しないようにする必要があります。そのため、20秒に設定しましたが、BIOSウォッチドッグに設定されているタイマー周波数が経過する限り、私のデバイスは引き続き起動します。 (何らかの理由で私は/ dev / watchdogと/ dev / watchdog0の両方を0バイトとしていますが、これが正常なのかどうかはわかりません...)

他の機能を有効にする必要がありますか?私がアクティブにした監視タイマー/dev/watchdogへのインターフェースがあり、BIOSそれをトリガーするオプションがあるという私の理解は正しいですか/etc/systemd/system.conf?最初は、BIOSがオンにしたハードウェア監視に気にしないソフトウェア監視であると思っていましたが、うまくいくはずです。

私が使用しているマザーボードは非常に一般的なマザーボードで、オペレーティングシステムはCentOs 8です。

編集する:

次の操作を行うと、lsmod | grep wdt次のようになります。

iTCO_wdt 16384 1
iTCO_vendor_support 16384 1 iTCO_wdt
mei_wdt 16384 0
mei 110592 3 mei_wdt,mei_me

systemd動作しなくてCentOsが提供するwatchdogデーモンをダウンロードして/dev/watchdogのような値を設定し、何でも設定してみましたが、watchdog-deviceそれもできませんでした。システムは再起動し続けます。

1つを作成したsystemctl status watchdog.serviceところ、デーモンサービスが実行中でアクティブであるというステータスが表示されました。

alive=/dev/watchdog heartbeat=[none] to=root no_act=no force=no
hardware watchdog identity : iTCO_wdt
cannot set scheduler (errno=1 = 'Operation not permitted') //ERROR

私が確認したエラーは関連しているかもしれませんが、完全にsystemd確認して/etc/system.confコメントしました。

答え1

あなたのシステムには、少なくとも1つ、最大2つの内蔵ハードウェア監視デバイスがあるようです。

iTCO_wdtほとんどの最新のIntelチップセットに組み込まれた監視機能用ドライバです。mei_wdtIntel Active Management Technology(AMT)管理エンジンインターフェイス(MEI)に組み込まれているもう1つの監視ドライバ。と比較してテストが少なくなりましたiTCO_wdt

BIOS設定でウォッチドッグを有効にすると、BIOSはウォッチドッグの1つを保持できます。この場合、更新するにはベンダー固有の方法が必要な場合があります。 ACPI/WMI経由で電話をかけることもできますか?

/dev/watchdog*単一のウォッチャーが2つのデバイスを見るのは正常です。/dev/watchdogこれは典型的な監視装置ノードである。つまり、メジャーデバイス番号が10でマイナーデバイス番号が130の文字デバイスノードです。動的に決定されたキー番号を持つ最新のデバイスノードです。これにより、/dev/watchdog0複数の監視デバイスを作成できます。システムに複数の監視装置がある場合。クラシックインターフェイスでは、システムには1つの監視デバイスしか許可されていません。/dev/watchdog0/dev/watchdog1

systemctl status watchdog.service正常に使用されており、iTCO_wdtモジュールの使用回数がリストに1であるという事実lsmodは、このウォッチドッグがLinuxで使用できることを示すようです。

一方、BIOSが使用されている可能性があります。これは、ウォッチドッグを更新して再起動を回避できない理由とmei_wdt理由を説明できます。また、何も表示されないという事実は、ドライバがMEIの監視機能を初期化できなかったことを示します。それはおそらく、BIOSがすでにそれを使っていて、OSがそれを直接使うことを許可していないからでしょうか。watchdog.servicesystemd/dev/watchdog1mei_wdt

BIOSでウォッチドッグ設定を無効にし、iTCO_wdtLinuxでウォッチドッグを使用できます。このウォッチドッグドライバは、BIOSがハードウェア構成を欺かない限り、自分でウォッチドッグを完全に有効にする必要があります。これにより、起動時にエラーに対する保護が見逃される可能性がありますが、Linuxの実行中にシステムがクラッシュした場合でも、監視機能はユーザーを保護し続けます。

他のものが監視デバイスを使用していない場合は、このwdctlコマンドを使用して監視デバイスの現在の状態に関する情報を取得できます。

関連情報