置換・正規表現
ソート・ユニーク, csvテクニック
-
Tranco.list: https://tranco-list.eu/
-
head,tail,tail -n +100 sortcolumnuniqcutshufsed,awk-
grep -
特定の範囲を自由に取る.(TOP10件,末尾10件, 500-550位など)特定の行だけやる.
sed,awk - ドメイン順にソートしてみる. (
sort -t, -k2) - タブ区切りに見せる.(
column -ts,) - TOP1000のうち,何で始まるものが多いか?(
cut,sort,uniq) - ランダムに10ドメイン抽出する(
shuf) - ランダム抽出したドメインを順位順にソートして見やすくする(
column) - 自分の知りたいドメインを検索.(
google.com.github.com, xn--で始まるドメインがある.いくつあるか?
置換
tr
trコマンドはバイト単位で処理するため,基本使わないほうが良い. 参考
-その特性を理解した上で用いる or マルチバイトに対応したtrコマンドを探す.- UTF-8のマルチバイト文字
$ echo "あいうえお" | tr "あいうえお" "ABCDE"
EECEEEEEEEEEEEE
実践
- ASCII(英数字のみ,1バイト文字)なら良い.
- Romeo and Juliet: https://www.gutenberg.org/files/1112/1112.txt
1112.txtではなくRomemo.txtとして保存したい,適宜オプションをつけよう.
cat Romeo.txt | tr ' ' '\n' # 空白を改行に変える
cat Romeo.txt | tr -s '\n' # sオプションで\nが2回続いたら一つにする.つまり?
cat Romeo.txt | tr -d '\n' # dオプションで\nを削除する
cat Romeo.txt | tr -d ",\".'" # , " . ' を削除する
単純に," とすると,文字列として終了してしまう. \" とすることで逃がす(エスケープする)
e.g. '\'', "\""
- 頻出単語を探せ.ただし,
.,,,",'を消すこと.?,!などその他は残っても良い. 使用コマンドは,cat,wc,sort,uniq,trである.コレ以外を使用しても良い. - 有名な一節として,下記がある.何行目にでてくるか.コマンドを用いてさがせ.
My only love, sprung from my only hate!
> 私の唯一の愛は、私の唯一の憎しみから飛び出した.
- 作中で何回ジュリエットが呼ばれているか.出題者が確認したところ,ジュリエットは下記3つの表現で呼ばれていた.これらがいくつあるか把握せよ.
Jul.
Juliet
Juleq
sed/awk/grep -E
access.logやerror.log, md-file,ccn-logを利用する予定
最終更新日: 2021年6月28日