コンテンツにスキップ

置換・正規表現

ソート・ユニーク, csvテクニック

  • Tranco.list: https://tranco-list.eu/

  • head,tail,tail -n +100

  • sort
  • column
  • uniq
  • cut
  • shuf
  • sed,awk
  • grep

  • 特定の範囲を自由に取る.(TOP10件,末尾10件, 500-550位など)特定の行だけやる. sed,awk

  • ドメイン順にソートしてみる. (sort -t, -k2)
  • タブ区切りに見せる.(column -ts,)
  • TOP1000のうち,何で始まるものが多いか?(cut,sort,uniq)
  • ランダムに10ドメイン抽出する(shuf)
  • ランダム抽出したドメインを順位順にソートして見やすくする(column
  • 自分の知りたいドメインを検索.(google.com.github.com,
  • xn--で始まるドメインがある.いくつあるか?

置換

tr

  • trコマンドはバイト単位で処理するため,基本使わないほうが良い. 参考
    -その特性を理解した上で用いる or マルチバイトに対応したtrコマンドを探す.
  • UTF-8のマルチバイト文字
$ echo "あいうえお" | tr "あいうえお" "ABCDE"
EECEEEEEEEEEEEE

実践

1112.txtではなくRomemo.txtとして保存したい,適宜オプションをつけよう.

cat Romeo.txt | tr ' ' '\n' # 空白を改行に変える
cat Romeo.txt | tr -s '\n' # sオプションで\nが2回続いたら一つにする.つまり?
cat Romeo.txt | tr -d '\n' # dオプションで\nを削除する
cat Romeo.txt | tr -d ",\".'" # , " . ' を削除する

単純に," とすると,文字列として終了してしまう. \" とすることで逃がす(エスケープする)
e.g. '\'', "\""

  1. 頻出単語を探せ.ただし,.,,,",'を消すこと.?,!などその他は残っても良い. 使用コマンドは,cat,wc, sort, uniq,trである.コレ以外を使用しても良い.
  2. 有名な一節として,下記がある.何行目にでてくるか.コマンドを用いてさがせ.
My only love, sprung from my only hate!
> 私の唯一の愛は、私の唯一の憎しみから飛び出した.
  1. 作中で何回ジュリエットが呼ばれているか.出題者が確認したところ,ジュリエットは下記3つの表現で呼ばれていた.これらがいくつあるか把握せよ.
Jul.
Juliet
Juleq

sed/awk/grep -E

access.logやerror.log, md-file,ccn-logを利用する予定


最終更新日: 2021年6月28日