連想配列BASHにおける重複キーのマージ

連想配列BASHにおける重複キーのマージ

次の重複項目を含む配列があります。

THE_LIST=(
"'item1' 'data1 data2'"
"'item1' 'data2 data3'"
"'item2' 'data4'"
)

itemN上記に基づいて連想配列を作成し、キーと値で指定したいと思いますdataN

私のコードはリストを繰り返し、次のようにkey =>値を割り当てます(追加機能はリストでいくつかの追加操作を実行するため短縮されます)。

function get_items(){
    KEY=$1
    VALUES=()
    shift $2
    for VALUE in "$@"; do
        VALUES[${#VALUES[@]}]="$VALUE"
    done
}

declare -A THE_LIST
for ((LISTID=0; LISTID<${#THE_LIST[@]}; LISTID++)); do
    eval "LISTED_ITEM=(${THE_LIST[$LISTID]})"
    get_items "${LISTED_ITEM[@]}"
    THE_LIST=([$KEY]="${VALUES[@]}")
done

配列を印刷すると、次の結果が表示されます。

item1: data1 data2
item1: data2 data3
item2: data4

しかし、その代わりに、私は以下を得たいと思います:

item1: data1 data2 data3
item2: data4

重複キーをマージしてキーの重複値を削除する方法が見つかりません。

ここでのアプローチは何ですか?

修正する

実際のコードは次のとおりです。

THE_LIST=(
"'item1' 'data1 data2'"
"'item1' 'data2 data3'"
"'item2' 'data4'"
)

function get_backup_locations () {
  B_HOST="$2"
  B_DIRS=()
  B_DIR=()
  shift 2

  for B_ITEM in "$@"; do
    case "$B_ITEM" in
      -*) B_FLAGS[${#B_FLAGS[@]}]="$B_ITEM" ;;
      *) B_DIRS[${#B_DIRS[@]}]="$B_ITEM" ;;
    esac
  done

  for ((B_IDX=0; B_IDX<${#B_DIRS[@]}; B_IDX++)); do
    B_DIR=${B_DIRS[$B_IDX]}

    ...do stuff here...

  done
}

function get_items () {
  for ((LOCIDY=0; LOCIDY<${#LOCATIONS[@]}; LOCIDY++)); do
    eval "LOCATION=(${LOCATIONS[$LOCIDY]})"
    get_backup_locations "${LOCATION[@]}"
    THE_LIST=([$B_HOST]="${B_DIR[@]}")
  done | sort | uniq
}

配列を印刷するとき:

for i in "${!THE_LIST[@]}"; do
    echo "$i : ${THE_LIST[$i]}"
done

わかりました。

item1: data1 data2
item1: data2 data3
item2: data4

答え1

キーと値が純粋に英数字で保証されている場合は、次のように動作できます。

declare -A output

make_list() {
  local IFS=" "
  declare -A keys                  # variables declared in a function are local by default
  for i in "${THE_LIST[@]}"
  do 
    i=${i//\'/}                    # since everything is alphanumeric, the quotes are useless
    declare -a keyvals=($i)        # split the entry, filename expansion isn't a problem
    key="${keyvals[0]}"            # get the first value as the key
    keys["$key"]=1                 # and save it in keys
    for val in "${keyvals[@]:1}"
    do                             # for each value
      declare -A "$key[$val]=1"    # use it as the index to an array. 
    done                           # Duplicates just get reset.
  done

  for key in "${!keys[@]}"
  do                               # for each key
    declare -n arr="$key"          # get the corresponding array
    output["$key"]="${!arr[*]}"    # and the keys from that array, deduplicated
  done
}

make_list
declare -p output  # print the output to check

サンプル入力を使用すると、次のような出力が得られます。

declare -A output=([item1]="data3 data2 data1" [item2]="data4" )

データ項目の順序が間違っていますが、重複が削除されました。


おそらくモジュールcsvでPythonを使用するのが最善です。

答え2

このソリューションは、値にスペースがない場合に機能できます。連想配列を使用してコマンドをawk作成しますdeclare -A

#!/bin/bash

THE_LIST=(
"'item1' 'data1 data2'"
"'item1' 'data2 data3'"
"'item2' 'data4'"
)

eval "$(\
  for i in "${THE_LIST[@]}"; do
    row=($(eval echo $i))
    echo "${row[@]}"
  done | awk '{ for (i=2; i<=NF; i++) if (seen[$1] !~ $i) { seen[$1]=seen[$1]$i" " } }
    END { for (s in seen) print "declare -A new_list["s"]=\""seen[s] }' | sed 's/[[:space:]]*$/"/'
)"

for i in "${!new_list[@]}"; do
  echo "$i: ${new_list[$i]}"
done

これは以下を印刷します:

item2: data4
item1: data1 data2 data3

値の順序は維持されますが、キーの順序は変わります。配列項目の末尾の空白を切り取る方法を知らないので、awk単にsed引用符に置き換えましたが、それはすでに完全なハッキングです。

関連情報