国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 系統 > Linux > 正文

linux中去掉文件重復數據行的方法(去重復ip)

2020-06-13 11:54:58
字體:
來源:轉載
供稿:網友

一、去掉相鄰重復的數據行

 

復制代碼
代碼如下:

$cat data1.txt | uniq
輸出:
beijing
wuhan
beijing
wuhan

 

二、去掉所有重復的數據行

 

復制代碼
代碼如下:

$cat data1.txt | sort | uniq

 

注:
只有uniq命令的話,只是把相鄰的重復的數據行去掉。
如果先 sort 的話,就會把所有重復的數據行變成相鄰的數據行,再 uniq 的話,就去掉所有重復的數據行了。

輸出:
beijing 
wuhan

附:data1.txt

 

復制代碼
代碼如下:

[root@syy ~]# cat data1.txt
beijing
beijing
wuhan
wuhan
wuhan
beijing
beijing
beijing
wuhan
wuhan

 

注:在過濾日志中的IP地址很有用。

Linux下刪除大數據文件中部分字段重復的行

最近寫的一個數據采集程序生成了一個含有1千多萬行數據的文件,數據由4個字段組成,按照要求需要刪除第二個字段重復的行,找來找去linux下也沒找到合適的工具,sed/gawk等流處理工具只能針對一行一行處理,并無法找到字段重復的行??磥碇缓米约簆ython一個程序了,突然想起來利用mysql,于是進行乾坤大挪移:

1. 利用mysqlimport --local dbname data.txt導入數據到表中,表名要與文件名一致
2. 執行下列sql語句(要求唯一的字段為uniqfield)

 

復制代碼
代碼如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;</p> <p>drop table tablename;
rename table t2 to tablename;

 


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 河北省| 闽侯县| 密云县| 伊宁市| 中卫市| 延津县| 淮阳县| 旅游| 木兰县| 涿鹿县| 滨州市| 兴文县| 邵阳市| 黄冈市| 鄂托克旗| 云南省| 黄梅县| 临高县| 赣榆县| 泾川县| 二连浩特市| 双城市| 东台市| 芦山县| 时尚| 仙居县| 大庆市| 岳阳县| 抚州市| 微山县| 土默特左旗| 平远县| 阳江市| 阿拉善右旗| 北宁市| 辰溪县| 汉阴县| 任丘市| 咸阳市| 任丘市| 南木林县|