ファイルをXFSに移動するときの重複排除

Question 1

より多くのスペースを確保するためにコメントを回答に移動します。

コピーする方法があるかどうかはわかりません。私は多くのドライブを同期し、参照リンクファイルのコピーをたくさん作成するので、そうなることを願っています。 Btrfsは重複排除を実行すると仮定する「転送」メカニズムをサポートします。それでも私はほとんどの場合XFSを使います。

私が見た重複排除ユーティリティは遅いです。遅いだけでなく、とても遅い。少なくとも機械式ドライブではほとんど使用できません。その理由は、ジョブが完全に同期しているため、ディスクが完全に破損しているためです。

私はキャッシュを使用するユーティリティを作成したかったです（カーネルパッチが必要な場合があります）。それほど安全ではありませんが、より高速なので、実際に使用できます。私は誰かがこれを行うのを待っていますが、そのようなユーティリティが存在する場合はこれについて聞きたいと思います。

まだ試していない別のオプションは、ドライブを仮想マシンに接続し、そこで重複排除を実行することです。その後、バックエンドで強制的に「安全でない」キャッシュを有効にできます。もちろんこれは安全ではありませんが、より速いことを願っています。

Answer

より多くのスペースを確保するためにコメントを回答に移動します。

コピーする方法があるかどうかはわかりません。私は多くのドライブを同期し、参照リンクファイルのコピーをたくさん作成するので、そうなることを願っています。 Btrfsは重複排除を実行すると仮定する「転送」メカニズムをサポートします。それでも私はほとんどの場合XFSを使います。

私が見た重複排除ユーティリティは遅いです。遅いだけでなく、とても遅い。少なくとも機械式ドライブではほとんど使用できません。その理由は、ジョブが完全に同期しているため、ディスクが完全に破損しているためです。

私はキャッシュを使用するユーティリティを作成したかったです（カーネルパッチが必要な場合があります）。それほど安全ではありませんが、より高速なので、実際に使用できます。私は誰かがこれを行うのを待っていますが、そのようなユーティリティが存在する場合はこれについて聞きたいと思います。

まだ試していない別のオプションは、ドライブを仮想マシンに接続し、そこで重複排除を実行することです。その後、バックエンドで強制的に「安全でない」キャッシュを有効にできます。もちろんこれは安全ではありませんが、より速いことを願っています。

Question 2

編集：これは質問に対する答えではなく、質問されていない質問に対する答えです（重複ファイルを検出して割り当てをキャンセルする方法）。

私のアプローチは、各ファイルのハッシュであるhadlinkを含むディレクトリを作成することです。

ハッシュがすでに存在する場合は、ファイルをハッシュのハードリンクに置き換え、ハッシュファイルがない場合は、ハッシュディレクトリのファイルから新しいハードリンクを作成します。

このような：

#!/bin/bash
dupes=/mnt/xfs/.dupes_dir
for x in "$@"
do
    sha=$( sha1sum "$x" | cut -d\  -f1 ) 
    if [ -e $dupes/$sha ] 
    then
        ln -f $dupes/$sha "$x" 
    else
        ln "$x" $dupes/$sha
    fi
done

Answer

編集：これは質問に対する答えではなく、質問されていない質問に対する答えです（重複ファイルを検出して割り当てをキャンセルする方法）。

私のアプローチは、各ファイルのハッシュであるhadlinkを含むディレクトリを作成することです。

ハッシュがすでに存在する場合は、ファイルをハッシュのハードリンクに置き換え、ハッシュファイルがない場合は、ハッシュディレクトリのファイルから新しいハードリンクを作成します。

このような：

#!/bin/bash
dupes=/mnt/xfs/.dupes_dir
for x in "$@"
do
    sha=$( sha1sum "$x" | cut -d\  -f1 ) 
    if [ -e $dupes/$sha ] 
    then
        ln -f $dupes/$sha "$x" 
    else
        ln "$x" $dupes/$sha
    fi
done

ファイルをXFSに移動するときの重複排除

答え1

答え2

関連情報