国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 系統 > Linux > 正文

linux中去掉文件重復數據行的方法(去重復ip)

2020-07-10 11:43:48
字體:
來源:轉載
供稿:網友

一、去掉相鄰重復的數據行


復制代碼
代碼如下:

$cat data1.txt | uniq
輸出:
beijing
wuhan
beijing
wuhan

二、去掉所有重復的數據行


復制代碼
代碼如下:

$cat data1.txt | sort | uniq

注:
只有uniq命令的話,只是把相鄰的重復的數據行去掉。
如果先 sort 的話,就會把所有重復的數據行變成相鄰的數據行,再 uniq 的話,就去掉所有重復的數據行了。

輸出:
beijing 
wuhan

附:data1.txt


復制代碼
代碼如下:

[root@syy ~]# cat data1.txt
beijing
beijing
wuhan
wuhan
wuhan
beijing
beijing
beijing
wuhan
wuhan

注:在過濾日志中的IP地址很有用。

Linux下刪除大數據文件中部分字段重復的行

最近寫的一個數據采集程序生成了一個含有1千多萬行數據的文件,數據由4個字段組成,按照要求需要刪除第二個字段重復的行,找來找去linux下也沒找到合適的工具,sed/gawk等流處理工具只能針對一行一行處理,并無法找到字段重復的行。看來只好自己python一個程序了,突然想起來利用mysql,于是進行乾坤大挪移:

1. 利用mysqlimport --local dbname data.txt導入數據到表中,表名要與文件名一致
2. 執行下列sql語句(要求唯一的字段為uniqfield)


復制代碼
代碼如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;</p><p>drop table tablename;
rename table t2 to tablename;

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 西林县| 安龙县| 朝阳市| 丽水市| 灵台县| 临洮县| 大姚县| 凤翔县| 桂林市| 潍坊市| 伊金霍洛旗| 阿勒泰市| 庆城县| 建瓯市| 洮南市| 盐池县| 商城县| 隆尧县| 新兴县| 台南县| 奈曼旗| 沁阳市| 贡觉县| 大理市| 巴中市| 阿坝| 本溪| 雷山县| 望谟县| 涟源市| 德庆县| 安阳县| 蒙阴县| 利辛县| 南康市| 尚志市| 宜川县| 化隆| 辽源市| 东莞市| 昂仁县|