利用shell命令統(tǒng)計日志的方法詳解

2020-07-27 18:51:22

字體：大中小

供稿：網(wǎng)友

前言

大家都知道，通過使用 shell 命令可以很方便地對日志進(jìn)行統(tǒng)計和分析，當(dāng)服務(wù)有異常的時候，需要去排查日志，那么掌握一種統(tǒng)計日志的技巧就是必不可少的了。

假設(shè)有一個包含下面內(nèi)容的日志文件 access.log。我們以統(tǒng)計這個文件的日志為例。

date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-"

不同的服務(wù)對應(yīng)的日志可能不一樣，本文使用示例日志的格式是：

date | ip | method | url | status | time | bytes | referrer | user-agent | cookie

注意：mac 系統(tǒng)和 linux 系統(tǒng)中的命令行為可能不同，以下命令請在 linux 系統(tǒng)中使用

排除特殊日志

統(tǒng)計日志時，我們可能不關(guān)心 HEAD 請求，或者只關(guān)心 GET 請求，這里首先需要篩選日志，可以使用 grep 命令。-v 的含義是排除匹配的文本行。

grep GET access.log # 只統(tǒng)計 GET 請求grep -v HEAD access.log # 不統(tǒng)計 HEAD 請求grep -v 'HEAD/|POST' access.log # 不統(tǒng)計 HEAD 和 POST 請求

查看接口耗時情況

我們可以將每行的 time 匹配出來，然后做一個排序。使用 awk 的 match 方法可以匹配正則：

awk '{ match($0, /time=([0-9]+/.[0-9]+)/, result); print result[1]}' access.log

awk 命令使用方法如下：

awk '{pattern + action}' {filenames}

我們實際上只用到了 action：match($0, /time=([0-9]+/.[0-9]+)/, result); print result[1] 這一段。

match 方法接收三個參數(shù)：需要匹配的文本、正則表達(dá)式、結(jié)果數(shù)組。$0 代表 awk 命令處理的每一行，結(jié)果數(shù)組是可選的，因為我們要拿到匹配結(jié)果所以這里傳入了一個 result 數(shù)組，用來存儲匹配后的結(jié)果。

注意這里的正則我沒有使用 /d 來表示數(shù)字，因為 awk 指令默認(rèn)使用 “EREs"，不支持 /d 的表示，具體請看 linux shell 正則表達(dá)式(BREs,EREs,PREs)差異比較。

result 數(shù)組實際上和 javascript 里的結(jié)果數(shù)組很像了，所以我們打印出第二個元素，即匹配到的內(nèi)容。執(zhí)行完這行命令后結(jié)果如下：

9.7030.3378.8299.96211.822

當(dāng)然實際上一天的日志可能是成千上萬條，我們需要對日志進(jìn)行排序，且只展示前 3 條。這里使用到 sort 命令。

sort 命令默認(rèn)從小到大排序，且當(dāng)作字符串排序。所以默認(rèn)情況下使用 sort 命令之后 "11" 會排在 "8" 前面。那么需要使用 -n 指定按數(shù)字排序，-r 來按從大到小排序，然后我們查看前 3 條：

awk '{ match($0, /time=([0-9]+/.[0-9]+)/, result); print result[1]}' access.log | sort -rn | head -3

結(jié)果：

11.8229.9629.703

查看耗時最高的接口

當(dāng)然我們一般不會只查看接口耗時情況，還需要把具體日志也打印出來，上面的命令就不能滿足要求了。

awk 的打印默認(rèn)是按空格分隔的，意思是 2017-09-23 GET 這一行如果使用 awk '{print $1}' 會打印出 "2017-09-23"，類似地，$2 會打印出 GET。

根據(jù)日志特征，我們可以使用 | 來作為分隔符，這樣就能打印出各個我們感興趣的值了。因為我們想找出耗時最高的接口，那么我們把 time、date 和 url 單獨找出來。

awk 的 -F 參數(shù)用來自定義分隔符。然后我們可以數(shù)一下三個部分按 | 分隔后分別是第幾個：time 是第 6 個、date 是第 1 個、url 是第 4 個。

awk -F '|' '{print $6 $1 $4}' access.log

這樣打出來結(jié)果為：

 time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

因為我們想按 time 來排序，而 sort 可以按列來排序，而列是按空格分隔的，我們目前第一列是 time=xxx，是不能排序的，所以這里要想辦法把 time= 給去掉，因為我們很雞賊地把耗時放在了第一列，那么其實再通過 time= 進(jìn)行分隔一下就行了。

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}'

結(jié)果：

9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing

使用 sort 的 -k 參數(shù)可以指定要排序的列，這里是第 1 列；再結(jié)合上面的排序，就能把耗時最高的日志打印出來了：

awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3

結(jié)果：

11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something

統(tǒng)計請求次數(shù)最多的接口

如果需要統(tǒng)計哪些接口每天請求量是最多的，只需要新引入 uniq 命令。

我們已經(jīng)可以通過 grep -v HEAD access.log | awk -F '|' '{print $4}' 來篩選出所有的 url，uniq 命令可以刪除相鄰的相同的行，而 -c 可以輸出每行出現(xiàn)的次數(shù)。

所以我們先把 url 排序以讓相同的 url 放在一起，然后使用 uniq -c 來統(tǒng)計出現(xiàn)的次數(shù)：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c

因為示例日志數(shù)量太少，我們假設(shè)日志里有多條，那么結(jié)果應(yīng)該類似下面：

1 url=/api/foo/bar?params=anything19 url=/api/foo/bar?params=everything4 url=/api/foo/bar?params=nothing5 url=/api/foo/bar?params=something

接下來再 sort 即可：

grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助，如果有疑問大家可以留言交流，謝謝大家對武林網(wǎng)的支持。

上一篇：Linux中的Syslog命令

下一篇：Linux中的特殊符號與正則表達(dá)式

學(xué)習(xí)交流

選擇筆記本處理器（CPU）需避免那些誤區(qū)和基

選擇筆記本處理器（CPU）需避免那些誤區(qū)和基本常識...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點

中國移動6月凈增5G套餐用戶1459萬戶累計達(dá)7019.9萬戶

2020-07-20 18:48:56

螞蟻集團(tuán)計劃在科創(chuàng)板和港交所同步上市估值超2000億美元

2020-07-20 18:46:41

傳滴滴最快年內(nèi)在香港IPO 目標(biāo)估值800億美元

2020-07-20 18:43:20

小鵬汽車宣布C+輪融資近5億美元高瓴紅杉等為主要投資者

2020-07-20 18:35:48

微博內(nèi)測熱搜定制功能你可以愉快地吃瓜了嗎？

2020-07-17 23:29:31

Twitter證實：黑客一共瞄準(zhǔn)130個名人賬號

2020-07-17 23:24:56

疑難解答

圖片精選

網(wǎng)友關(guān)注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

利用shell命令統(tǒng)計日志的方法詳解