Linux实现文件内容去重及求交并差集 - 教程之家

一、数据去重

日常工作中，使用Hive或者Impala查询导出来可能会存在数据重复的现象，但又不想重新执行一遍查询（查询时间稍长，导出文件内容多），因此想到了使用Linux命令将文件的内容重复数据进行去除。

案例如下：

可以看到aaa.txx有3条重复数据

Linux实现文件内容去重及求交并差集

想去掉多余的数据，只保留一条

sort aaa.txt | uniq > bbb.txt

将aaa.txt文件中重复数据去掉，输出到bbb.txt

Linux实现文件内容去重及求交并差集

可以看到bbb.txt文件中只保留了一条数据

二、数据交、并、差

1)、交集(相当于user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq -d

2)、并集(相当于 user_2019.user_no union user_2020.user_no)

sort user_2019.txt user_2020.txt | uniq

3)、差集

user_2019.txt-user_2020.txt

sort user_2019.txt user_2020.txt user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

sort user_2020.txt user_2019.txt user_2019.txt | uniq -u

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持免费资源网。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录方法一：修改 /etc/rc.d/rc.local 文件方法二：使用 crontab 方法三：使用 systemd 服务总结Linux 下设置开机启动的三种简单但可行的开机启动设置方法。方法一：修改 /etc/r...

目录 Linux定时监听Tomcat服务定时追加：服务器 Tomcat 增加内存大小总结Linux定时监听Tomcat服务Linux 下 Tomcat 服务，因为各种原因异常关闭后，实现自动重启服务，保证服务可...

在Linux日常使用过程中，经常会出现误触，导致输入的命令和之前不同，而且无法正常运行，会导致报错，以下是解决方案：1.按shift+空格因为误触使得命令的变化此时按住shift+空格，再次输...

编辑 MySQL 配置文件该文件通常位于 /etc/mysql/my.cnf 或 /etc/my.cnf，具体取决于您的 Linux 发行版和版本。找到 [mysqld] 部分，并找到指定绑定地址参数的行。默认情况下，此...

目录安装 Nginx 后，无法访问到 Nginx 页面 1、查看 Nginx 是否启动成功 2、查看默认80端口是否分配给 Nginx 3、对80端口进行防火墙配置 4、重启防火墙 5、通过 ip 访...

目录 1 Linux进程内存使用情况的查看方法 1.1 proc/pid/status中的VmRSS 1.2 proc/pid/smaps中的USS(Private_Clean + Private_Dirty) 1.3 获取RSS与USS的简易脚本 2...

目录什么是mongoDB MongoDB的安装过程 1.第一步下载mongodb的安装包 2.进行解压： 3.创建mongodb必要目录 4.将解压后的mongdb文件移动到 5.配置环境变量 6.添加 Mon...

目录 Nginx转发失败解决下面的成功的配置截图修改下面后解决问题总结Nginx转发失败解决这个项目后端使用的是gateway网关和nacos实现动态的路由，前端使用nginx来管理前端...

目录一、nginx常用的转发规则 location 指令说明 location转发使用二、upstream负载均衡使用三、server_name使用四、其他常用配置限制请求类型处理静态资...

目录本配置为ubuntu16.04下配置一、安装nginx 二、搜索nginx目录三、拷贝证书到配置文件目录为/etc/nginx下四、配置nginx.conf 五、重启nginx 六、关闭nginx /u...

可能感兴趣的文章

热门文章