ファイルの最初の3バイトをスキップする

Question 1

オールドスクール - 以下を使用できますdd。

dd if=A_FILE bs=1 skip=3

入力ファイルは、A_FILEブロックサイズは1文字（バイト）で、最初の3つの「チャンク」（バイト）をスキップします。（ddGNUなどの一部のバリアントではここで使用ddでき、他の場合は1KBチャンクで読むbs=1cなどの代替も使用できます。この機能はAIXではサポートされていないようです。macOS Sierra（BSD）バリアントはサポートされていません。サポートしていませんが、などはサポートしています。）bs=1kddckmg

同じ結果を得る別の方法もあります。

sed '1s/^...//' A_FILE

この方法は、最初の行に3文字以上の文字がある場合に機能します。

tail -c +4 A_FILE

Perl、Pythonなどを使用することもできます。

Answer

オールドスクール - 以下を使用できますdd。

dd if=A_FILE bs=1 skip=3

入力ファイルは、A_FILEブロックサイズは1文字（バイト）で、最初の3つの「チャンク」（バイト）をスキップします。（ddGNUなどの一部のバリアントではここで使用ddでき、他の場合は1KBチャンクで読むbs=1cなどの代替も使用できます。この機能はAIXではサポートされていないようです。macOS Sierra（BSD）バリアントはサポートされていません。サポートしていませんが、などはサポートしています。）bs=1kddckmg

同じ結果を得る別の方法もあります。

sed '1s/^...//' A_FILE

この方法は、最初の行に3文字以上の文字がある場合に機能します。

tail -c +4 A_FILE

Perl、Pythonなどを使用することもできます。

Question 2

cat使用する代わりにtail：

tail -c +4 FILE

これにより、最初の3バイトを除くファイル全体が印刷されます。より多くの情報を要求してくださいman tail。

Answer

cat使用する代わりにtail：

tail -c +4 FILE

これにより、最初の3バイトを除くファイル全体が印刷されます。より多くの情報を要求してくださいman tail。

Question 3

seek()システムにPythonがある場合は、小さなPythonスクリプトを使用して、次のようにnバイト目から読み取る関数を利用できます。

#!/usr/bin/env python3
import sys
with open(sys.argv[1],'rb') as fd:
    fd.seek(int(sys.argv[2]))
    for line in fd:
        print(line.decode().strip())

使用法は次のとおりです。

$ ./skip_bytes.py input.txt 3

バイト数は0から始まるので（最初のバイトは実際にはインデックス0です）、3を指定すると、読み取りが3 + 1 = 4番目のバイトから始まるように効果的に配置されます。

Answer

seek()システムにPythonがある場合は、小さなPythonスクリプトを使用して、次のようにnバイト目から読み取る関数を利用できます。

#!/usr/bin/env python3
import sys
with open(sys.argv[1],'rb') as fd:
    fd.seek(int(sys.argv[2]))
    for line in fd:
        print(line.decode().strip())

使用法は次のとおりです。

$ ./skip_bytes.py input.txt 3

バイト数は0から始まるので（最初のバイトは実際にはインデックス0です）、3を指定すると、読み取りが3 + 1 = 4番目のバイトから始まるように効果的に配置されます。

Question 4

私は最近同様のことをしなければなりませんでした。私は現場サポートの問題を支援していますが、技術者が変更が適用されたらリアルタイムの図面を表示できるようにする必要があります。データは一日中増加するバイナリログにあります。ログデータを解析して表示できるソフトウェアがありますが、現在は機能しません。私がすることは、データ処理を開始する前にログサイズをキャプチャしてからデータを処理するループを入力することです。各パスは、まだ処理されていないファイルのバイトで新しいファイルを生成します。

#!/usr/bin/env bash

# I named this little script hackjob.sh
# The purpose of this is to process an input file and load the results into
# a database. The file is constantly being update, so this runs in a loop
# and every pass it creates a new temp file with bytes that have not yet been
# processed.  It runs about 15 seconds behind real time so it's
# pseudo real time.  This will eventually be replaced by a real time
# queue based version, but this does work and surprisingly well actually.

set -x

# Current data in YYYYMMDD fomat
DATE=`date +%Y%m%d`

INPUT_PATH=/path/to/my/data
IFILE1=${INPUT_PATH}/${DATE}_my_input_file.dat

OUTPUT_PATH=/tmp
OFILE1=${OUTPUT_PATH}/${DATE}_my_input_file.dat

# Capture the size of the original file
SIZE1=`ls -l ${IFILE1} | awk '{print $5}'`

# Copy the original file to /tmp
cp ${IFILE1} ${OFILE1}

while :
do
    sleep 5

    # process_my_data.py ${OFILE1}
    rm ${OFILE1}
    # Copy IFILE1 to OFILE1 minus skipping the amount of data already processed
    dd skip=${SIZE1} bs=1 if=${IFILE1} of=${OFILE1}
    # Update the size of the input file
    SIZE1=`ls -l ${IFILE1} | awk '{print $5}'`

    echo

    DATE=`date +%Y%m%d`

done

Answer

私は最近同様のことをしなければなりませんでした。私は現場サポートの問題を支援していますが、技術者が変更が適用されたらリアルタイムの図面を表示できるようにする必要があります。データは一日中増加するバイナリログにあります。ログデータを解析して表示できるソフトウェアがありますが、現在は機能しません。私がすることは、データ処理を開始する前にログサイズをキャプチャしてからデータを処理するループを入力することです。各パスは、まだ処理されていないファイルのバイトで新しいファイルを生成します。

#!/usr/bin/env bash

# I named this little script hackjob.sh
# The purpose of this is to process an input file and load the results into
# a database. The file is constantly being update, so this runs in a loop
# and every pass it creates a new temp file with bytes that have not yet been
# processed.  It runs about 15 seconds behind real time so it's
# pseudo real time.  This will eventually be replaced by a real time
# queue based version, but this does work and surprisingly well actually.

set -x

# Current data in YYYYMMDD fomat
DATE=`date +%Y%m%d`

INPUT_PATH=/path/to/my/data
IFILE1=${INPUT_PATH}/${DATE}_my_input_file.dat

OUTPUT_PATH=/tmp
OFILE1=${OUTPUT_PATH}/${DATE}_my_input_file.dat

# Capture the size of the original file
SIZE1=`ls -l ${IFILE1} | awk '{print $5}'`

# Copy the original file to /tmp
cp ${IFILE1} ${OFILE1}

while :
do
    sleep 5

    # process_my_data.py ${OFILE1}
    rm ${OFILE1}
    # Copy IFILE1 to OFILE1 minus skipping the amount of data already processed
    dd skip=${SIZE1} bs=1 if=${IFILE1} of=${OFILE1}
    # Update the size of the input file
    SIZE1=`ls -l ${IFILE1} | awk '{print $5}'`

    echo

    DATE=`date +%Y%m%d`

done

ファイルの最初の3バイトをスキップする

答え1

答え2

答え3

答え4

関連情報