详解如何使用Spark和Scala分析Apache访问日志 - 教程之家

安装

首先需要安装好Java和Scala，然后下载Spark安装，确保PATH 和JAVA_HOME 已经设置，然后需要使用Scala的SBT 构建Spark如下：

$ sbt/sbt assembly

构建时间比较长。构建完成后，通过运行下面命令确证安装成功：

$ ./bin/spark-shell

scala> val textFile = sc.textFile("README.md") // 创建一个指向 README.md 引用
scala> textFile.count // 对这个文件内容行数进行计数
scala> textFile.first // 打印出第一行

Apache访问日志分析器

首先我们需要使用Scala编写一个对Apache访问日志的分析器，所幸已经有人编写完成，下载Apache logfile parser code。使用SBT进行编译打包：

sbt compile
sbt test
sbt package

打包名称假设为AlsApacheLogParser.jar。
然后在Linux命令行启动Spark：

// this works
$ MASTER=local[4] SPARK_CLASSPATH=AlsApacheLogParser.jar ./bin/spark-shell

对于Spark 0.9，有些方式并不起效：

// does not work
$ MASTER=local[4] ADD_JARS=AlsApacheLogParser.jar ./bin/spark-shell
// does not work
spark> :cp AlsApacheLogParser.jar

上传成功后，在Spark REPL创建AccessLogParser 实例：

import com.alvinalexander.accesslogparser._
val p = new AccessLogParser

现在就可以像之前读取readme.cmd一样读取apache访问日志accesslog.small：

scala> val log = sc.textFile("accesslog.small")
14/03/09 11:25:23 INFO MemoryStore: ensureFreeSpace(32856) called with curMem=0, maxMem=309225062
14/03/09 11:25:23 INFO MemoryStore: Block broadcast_0 stored as values to memory (estimated size 32.1 KB, free 294.9 MB)
log: org.apache.spark.rdd.RDD[String] = MappedRDD[1] at textFile at <console>:15
scala> log.count
(a lot of output here)
res0: Long = 100000

分析Apache日志

我们可以分析Apache日志中404有多少个，创建方法如下：

def getStatusCode(line: Option[AccessLogRecord]) = {
 line match {
  case Some(l) => l.httpStatusCode
  case None => "0"
 }
}

其中Option[AccessLogRecord]是分析器的返回值。

然后在Spark命令行使用如下：

log.filter(line => getStatusCode(p.parseRecord(line)) == "404").count

这个统计将返回httpStatusCode是404的行数。

深入挖掘

下面如果我们想知道哪些URL是有问题的，比如URL中有一个空格等导致404错误，显然需要下面步骤：

过滤出所有 404 记录从每个404记录得到request字段(分析器请求的URL字符串是否有空格等) 不要返回重复的记录

创建下面方法：

// get the `request` field from an access log record
def getRequest(rawAccessLogString: String): Option[String] = {
 val accessLogRecordOption = p.parseRecord(rawAccessLogString)
 accessLogRecordOption match {
  case Some(rec) => Some(rec.request)
  case None => None
 }
}

将这些代码贴入Spark REPL，再运行如下代码：

log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_)).count
val recs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_))
val distinctRecs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404").map(getRequest(_)).distinct
distinctRecs.foreach(println)

总结

对于访问日志简单分析当然是要grep比较好，但是更复杂的查询就需要Spark了。很难判断 Spark在单个系统上的性能。这是因为Spark是针对分布式系统大文件。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持免费资源网。

觉得上面的内容有用吗？快来点个赞吧！

点赞() 我要打赏

温馨提示 : 本站内容来自会员投稿以及互联网，所有源码及教程均为作者总结编辑，请大家在使用过程中提前做好备份，以免发生无法预知的错误，源码类教程请勿直接用于生产环境！

可能感兴趣的文章

目录方法一：修改 /etc/rc.d/rc.local 文件方法二：使用 crontab 方法三：使用 systemd 服务总结Linux 下设置开机启动的三种简单但可行的开机启动设置方法。方法一：修改 /etc/r...

目录 Linux定时监听Tomcat服务定时追加：服务器 Tomcat 增加内存大小总结Linux定时监听Tomcat服务Linux 下 Tomcat 服务，因为各种原因异常关闭后，实现自动重启服务，保证服务可...

在Linux日常使用过程中，经常会出现误触，导致输入的命令和之前不同，而且无法正常运行，会导致报错，以下是解决方案：1.按shift+空格因为误触使得命令的变化此时按住shift+空格，再次输...

编辑 MySQL 配置文件该文件通常位于 /etc/mysql/my.cnf 或 /etc/my.cnf，具体取决于您的 Linux 发行版和版本。找到 [mysqld] 部分，并找到指定绑定地址参数的行。默认情况下，此...

目录安装 Nginx 后，无法访问到 Nginx 页面 1、查看 Nginx 是否启动成功 2、查看默认80端口是否分配给 Nginx 3、对80端口进行防火墙配置 4、重启防火墙 5、通过 ip 访...

目录 1 Linux进程内存使用情况的查看方法 1.1 proc/pid/status中的VmRSS 1.2 proc/pid/smaps中的USS(Private_Clean + Private_Dirty) 1.3 获取RSS与USS的简易脚本 2...

目录什么是mongoDB MongoDB的安装过程 1.第一步下载mongodb的安装包 2.进行解压： 3.创建mongodb必要目录 4.将解压后的mongdb文件移动到 5.配置环境变量 6.添加 Mon...

目录 Nginx转发失败解决下面的成功的配置截图修改下面后解决问题总结Nginx转发失败解决这个项目后端使用的是gateway网关和nacos实现动态的路由，前端使用nginx来管理前端...

目录一、nginx常用的转发规则 location 指令说明 location转发使用二、upstream负载均衡使用三、server_name使用四、其他常用配置限制请求类型处理静态资...

目录本配置为ubuntu16.04下配置一、安装nginx 二、搜索nginx目录三、拷贝证书到配置文件目录为/etc/nginx下四、配置nginx.conf 五、重启nginx 六、关闭nginx /u...

可能感兴趣的文章

热门文章