テキストがぼやけたHTMLファイルをダウンロードする方法

Question

これはエンコーディングの問題ではありません。何が起こるかは、サーバーにファイル名が破損したHTMLを返し、それをクリーンアップするためのいくつかのJavascriptがあることです。

幸いなことに、修正は非表示になっているか難読化されていないJavaScriptで行われ、簡単に元に戻すことができます。 JSコードは

function codeAndEncode(_key,_str){
     var keyUnicodeSum=0;
     var codedStr = "";
     for( j = 0; j<_key.length; j++ ){
          keyUnicodeSum += _key.charCodeAt( j );
     }
     for( i = 0; i<_str.length; i++ )
     {
          var _strXOR = _str.charCodeAt(i) ^ keyUnicodeSum;
          codedStr += String.fromCharCode( _strXOR );
     }
     return codedStr;
}

var filename = codeAndEncode("111", "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá");

とても簡単です。値を計算し、それを文字列の各文字とXORします。フォーム変更とフォームキャンセル操作は同じです。クローラで使用するすべての言語に翻訳できます。たとえば、以下はUNDO破損したPerlコードです。

$ perl -CA -l -we 'my $sum = 0; $sum += ord foreach split //, $ARGV[0]; print $ARGV[1] ^ (chr($sum) x length($ARGV[1]))' 111 "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá"
xiaonian20110601.part1.rar

グラインダーの使用DOM復元する必要があるHTMLツリーのノードにアクセスしdocument.getElementById("file_show_filename")て識別します。document.getElementById("file_down_filename")また、クローラが使用するHTMLパーサーに合わせて調整することもできます。

ファイル名を変更する目的はクロールをより困難にすることであるため、サイト管理者は時間の経過とともに修正を再現するのが難しくなります。 Webサイトがどのトリックを使用しても破損したファイル名を保存するには、自動化された環境でFirefoxを実行できます。バラよりSeleniumRCに加えて、JavaScriptを描いた後にコンテンツを含むWebページを取得するための良いツールはありますか？そしてLinuxでFirefoxヘッドレスを実行する方法（例：libgtk-x11-2.0.so.0は不要）？

Answer 1

これはエンコーディングの問題ではありません。何が起こるかは、サーバーにファイル名が破損したHTMLを返し、それをクリーンアップするためのいくつかのJavascriptがあることです。

幸いなことに、修正は非表示になっているか難読化されていないJavaScriptで行われ、簡単に元に戻すことができます。 JSコードは

function codeAndEncode(_key,_str){
     var keyUnicodeSum=0;
     var codedStr = "";
     for( j = 0; j<_key.length; j++ ){
          keyUnicodeSum += _key.charCodeAt( j );
     }
     for( i = 0; i<_str.length; i++ )
     {
          var _strXOR = _str.charCodeAt(i) ^ keyUnicodeSum;
          codedStr += String.fromCharCode( _strXOR );
     }
     return codedStr;
}

var filename = codeAndEncode("111", "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá");

とても簡単です。値を計算し、それを文字列の各文字とXORします。フォーム変更とフォームキャンセル操作は同じです。クローラで使用するすべての言語に翻訳できます。たとえば、以下はUNDO破損したPerlコードです。

$ perl -CA -l -we 'my $sum = 0; $sum += ord foreach split //, $ARGV[0]; print $ARGV[1] ^ (chr($sum) x length($ARGV[1]))' 111 "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá"
xiaonian20110601.part1.rar

グラインダーの使用DOM復元する必要があるHTMLツリーのノードにアクセスしdocument.getElementById("file_show_filename")て識別します。document.getElementById("file_down_filename")また、クローラが使用するHTMLパーサーに合わせて調整することもできます。

ファイル名を変更する目的はクロールをより困難にすることであるため、サイト管理者は時間の経過とともに修正を再現するのが難しくなります。 Webサイトがどのトリックを使用しても破損したファイル名を保存するには、自動化された環境でFirefoxを実行できます。バラよりSeleniumRCに加えて、JavaScriptを描いた後にコンテンツを含むWebページを取得するための良いツールはありますか？そしてLinuxでFirefoxヘッドレスを実行する方法（例：libgtk-x11-2.0.so.0は不要）？

テキストがぼやけたHTMLファイルをダウンロードする方法

答え1

関連情報