Debian Jessieのブラウザ以外のアプリケーションでスクレイピング

Debian Jessieのブラウザ以外のアプリケーションでスクレイピング

自動化された取引システムを構築しようとしています。
おそらく、注文書や注文履歴情報をtxt形式で提供するサービスはないと思います。

だからかっこをしなければなりません。

プログラムでブラウザの外部のアプリケーションからテキストデータを自動的に抽出することが可能かどうか疑問に思います。

出力ファイルを取得したいです~/Desktop/foo.txt。たとえば、
端末でスクロールする行が100行を超える場合は、+ /]と[編集とコピー]を
使用せずに端末出力を取得できますか?ctrlcv

2番目の例では、Libre Office Impressのスライドショーモードで多くのスライドが表示されたときにすべてのテキストデータをキャプチャできますか?

他のすべてのアプリケーションに適用される方法を知りたいです。
スクリーンショット+ OCR以外に他の方法はありますか?
そのような機能を提供するパッケージは何ですか?

答え1

そのようなツールが存在しないようです。あなたのアイデアは、基本的に各アプリケーションによって書かれたすべてのテキストをログファイルに書き込むことです。これにはすべてのアプリケーションに共通のシステムインターフェイスが必要であるため、そのロギングのフックを設定できます。

ただし、アプリケーションはレンダリングにすべてのライブラリを自由に使用したり、独自のレンダリングを実装したり、GPUでレンダリングしたり、ビットマップをコピーしたりできます。この場合、すべてのアプリケーションに対する唯一の共通インタフェースはWindowsシステム(たとえばX)です。このシステムでは、ピクセルの変更のみが表示され、そのピクセルは実際に永久的にOCR処理する必要があります。これは不可能です。

あなたが望むものに最も近づくためにできることは、FreeTypeライブラリを変更してFreeTypeでレンダリングされたすべてのテキストを記録することです。これには多くのLinuxアプリケーションが含まれていますが、すべてではありません。 FreeTypeにスペースが渡されないと、ウィンドウが上にスクロールされ、複数のアプリケーションが同時に実行されるため、混乱した出力がたくさん生成されることが予想されます。

関連情報