Zlib事前トレーニング

2024-6-3 • tag-icon

解決すべきユニークな問題があります。短い文字列（文）に対して機能する圧縮/圧縮解除を作成する必要があります。たとえば、限られた数の固有のASCII文字（実際には合計41文字の可能な文字）を含む100バイトの文字列があります。これらの文字列には、比較的小さい可能な部分文字列のセットも含まれています。

有効な文字セットと頻繁に発生する部分文字列に基づいて辞書を生成するようにzlibをトレーニングしたいと思います。

理想的には、可能な文の巨大なデータセットを提供しますが、違法文字を除いて辞書を作成したいと思います。

どんな提案がありますか？ありがとう

関連情報