置換・正規表現
ソート・ユニーク, csvテクニック
-
Tranco.list: https://tranco-list.eu/
-
head
,tail
,tail -n +100
sort
column
uniq
cut
shuf
sed
,awk
-
grep
-
特定の範囲を自由に取る.(TOP10件,末尾10件, 500-550位など)特定の行だけやる.
sed
,awk
- ドメイン順にソートしてみる. (
sort -t, -k2
) - タブ区切りに見せる.(
column -ts,
) - TOP1000のうち,何で始まるものが多いか?(
cut
,sort
,uniq
) - ランダムに10ドメイン抽出する(
shuf
) - ランダム抽出したドメインを順位順にソートして見やすくする(
column
) - 自分の知りたいドメインを検索.(
google.com
.github.com
, xn--
で始まるドメインがある.いくつあるか?
置換
tr
tr
コマンドはバイト単位で処理するため,基本使わないほうが良い. 参考
-その特性を理解した上で用いる or マルチバイトに対応したtrコマンドを探す.- UTF-8のマルチバイト文字
$ echo "あいうえお" | tr "あいうえお" "ABCDE"
EECEEEEEEEEEEEE
実践
- ASCII(英数字のみ,1バイト文字)なら良い.
- Romeo and Juliet: https://www.gutenberg.org/files/1112/1112.txt
1112.txtではなくRomemo.txtとして保存したい,適宜オプションをつけよう.
cat Romeo.txt | tr ' ' '\n' # 空白を改行に変える
cat Romeo.txt | tr -s '\n' # sオプションで\nが2回続いたら一つにする.つまり?
cat Romeo.txt | tr -d '\n' # dオプションで\nを削除する
cat Romeo.txt | tr -d ",\".'" # , " . ' を削除する
単純に," とすると,文字列として終了してしまう. \" とすることで逃がす(エスケープする)
e.g. '\'', "\""
- 頻出単語を探せ.ただし,
.
,,
,"
,'
を消すこと.?
,!
などその他は残っても良い. 使用コマンドは,cat
,wc
,sort
,uniq
,tr
である.コレ以外を使用しても良い. - 有名な一節として,下記がある.何行目にでてくるか.コマンドを用いてさがせ.
My only love, sprung from my only hate!
> 私の唯一の愛は、私の唯一の憎しみから飛び出した.
- 作中で何回ジュリエットが呼ばれているか.出題者が確認したところ,ジュリエットは下記3つの表現で呼ばれていた.これらがいくつあるか把握せよ.
Jul.
Juliet
Juleq
sed/awk/grep -E
access.logやerror.log, md-file,ccn-logを利用する予定
最終更新日: 2021年6月28日