作者:卜比

本文是《容器中的 Java》系列文章之 5/n ,欢迎重视后续连载 :) 。

  • JVM怎么获取当时容器的资源限制?——容器中的Java 1
  • JavaAgent踩坑之appendToSystemClassLoaderSearch问题——容器中的Java2
  • 让JavaAgent在Dragonwell上更好用——容器中的Java3
  • 为什么在容器中1号进程挂不上arthas?——容器中的Java 4

之前经常遇到的问题是,排查问题需求挂arthas,但客户用的是JRE,无法挂载arthas。就只能让客户更换成JDK,再重新部署、排查问题。

很多有用的现场,在这个过程中也会丢掉,终究导致问题排查效率下降。于是就探索了下如安在JRE环境中,运用artahs。

复现问题

假如一个Bug 无法复现,研制大概率是无法修复的。—— by 网友

咱们写一个Java例子和Dockerfile:

// ./src/main/java/Main.java
public class Main {
  public static void main(String[] args) throws Exception {
    while (true) {
      System.out.println("hello!");
      Thread.sleep(30 * 1000);
    }
  }
}
# ./Dockerfile
FROM openjdk:8-jdk-alpine as builder
COPY ./ /app
WORKDIR /app/src/main/java/
# 编译java文件
RUN javac Main.java
# 运转时容器运用JRE
FROM openjdk:8-jre-alpine
RUN apk add bash curl busybox-extras
WORKDIR /app/src/main/java/
# 将arthas copy 到容器中
COPY --from=hengyunabc/arthas:latest /opt/arthas /opt/arthas
COPY --from=builder /app/src/main/java/ /app/src/main/java/
CMD ["java", "Main"]

构建并正常发动使用,并测验用arthas attach,此处为了便于了解原理,咱们运用as.sh来履行:

$ # 构建镜像
$ docker build . -t example-attach
$ # 发动容器
$ docker run --name example-attach --rm example-attach

$ # 在另一个终端进入容器,履行as.sh
$ docker exec -it example-attach sh
/app/src/main/java $ /opt/arthas/as.sh
Arthas script version: 3.6.7
tools.jar was not found, so arthas could not be launched!

行吧,咱们先用jdk运转下,先看下arthas是怎么attach起来的:

# 替换容器为JDK镜像并运转
# 先发动Attach Listener
$ pid=1 ;\
  touch /proc/${pid}/cwd/.attach_pid${pid} && \
  kill -SIGQUIT ${pid} && \
  sleep 2 &&
  ls /proc/${pid}/root/tmp/.java_pid${pid}
# -x表示调试履行,会输出履行了哪些指令;1为java进程pid
$ bash -x /opt/arthas/as.sh 1
...
+ /usr/lib/jvm/java-1.8-openjdk/bin/java -Xbootclasspath/a:/usr/lib/jvm/java-1.8-openjdk/lib/tools.jar -Djava.awt.headless=true -jar /opt/arthas/arthas-core.jar -pid 1 -core /opt/arthas/arthas-core.jar -agent /opt/arthas/arthas-agent.jar
...
+ telnet 127.0.0.1 3658
...

能够看到,最主要的逻辑是java -jar arthas-core.jar -pid 1 -core arthas-core.jar -agent arthas-agent.jar,然后再去连接3658端口。

-Xbootclasspath/a:tools.jar当然有用,但是在JRE中没有tools.jar,所以能够忽略。那么上面的逻辑咱们直接测验在JRE上运转呢?咱们持续在JRE镜像中履行上面的指令:

# 替换容器为JRE镜像并运转
# 先发动Attach Listener
$ pid=1 ;\
  touch /proc/${pid}/cwd/.attach_pid${pid} && \
  kill -SIGQUIT ${pid} && \
  sleep 2 &&
  ls /proc/${pid}/root/tmp/.java_pid${pid}
$ cd /opt/arthas/
$ java -jar arthas-core.jar -pid 1 -core arthas-core.jar -agent arthas-agent.jar
Error: A JNI error has occurred, please check your installation and try again
Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/tools/attach/AgentLoadException
    at java.lang.Class.getDeclaredMethods0(Native Method)
    at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
    at java.lang.Class.privateGetMethodRecursive(Class.java:3048)
    at java.lang.Class.getMethod0(Class.java:3018)
    at java.lang.Class.getMethod(Class.java:1784)
    at sun.launcher.LauncherHelper.validateMainClass(LauncherHelper.java:544)
    at sun.launcher.LauncherHelper.checkAndLoadMain(LauncherHelper.java:526)
Caused by: java.lang.ClassNotFoundException: com.sun.tools.attach.AgentLoadException
    at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 7 more

对照代码来看,这个报错其实很正常,arthas-core中会调用Attach API,然后加载Agent(重点代码都现已标记):

听说你没法在 JRE 中使用 arthas?不,你可以

熟悉类加载机制的同学们可能猜到了,Arthas.class中依靠了com.sun.tools.的一些类,所以上面的报错其实是在类链接的时候就报错了。这也是为什么报错的stacktrace中没有任何arthas的包出现。

看着上面arthas的代码,就不得不考虑下怎么规避掉对tools.jar的依靠了。

怎么去除对 JDK 的依靠

榜首 像图中这样,直接调用com.sun.tools.attach.*相关类、办法,是必定不可的,上面的报错其完成已很阐明状况了。另外,经过反射也不可,tools.jar就不存在,天然无法加载这些类。

第二, 能不能经过咱们手动把tools.jar放到容器中的方法呢?理论上的确能够,相关issue也说了具体的操作和注意事项:

听说你没法在 JRE 中使用 arthas?不,你可以

理论上这样的确能作业,但其一,tools.jar是根据不同的jdk发行版、不同的jdk版别而不同的。比方,同样在eclipse-temurin:11-jre-alpine里面也挂不上arthas,你就不能copy jdk8的tools.jar来处理。

咱们在持续看下有没有其他方法来挂agent。

第三, 看了一圈,ByteBuddy完成了attach agent的功用。但ByteBuddy是经过逐个测验的方法来测验attach,并且简直都依靠tools.jar,大家感兴趣的话,能够看下下面几个战略的完成:

听说你没法在 JRE 中使用 arthas?不,你可以

看起来咱们能够自己完成一个AttachmentProvider,然后改造arthas经过ByteBuddy挂agent就能够了。

刚开始也是这样想的,甚至代码都写了一半了。直到晚上回家路上,想到上一篇文章中说的,能够经过自定义脚本或者jattach的方法来attach。

第四, 经过jattach来加载。

参考jattach的文档,如下操作下即可:

# 装置 jattach
$ apk add jattach
# 挂载arthas-agent.jar
$ jattach 1 load instrument false /opt/arthas/arthas-agent.jar
Connected to remote JVM
JVM response code = 0
return code: 0
# netstat承认下监听端口
$ netstat -alnp
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name
tcp        0      0 127.0.0.1:3658          0.0.0.0:*               LISTEN      1/java
...
# 连接对应端口
$ java -jar /opt/arthas/arthas-client.jar 127.0.0.1 3658

经过了如上操作,arthas就能够畅快履行了:

听说你没法在 JRE 中使用 arthas?不,你可以
听说你没法在 JRE 中使用 arthas?不,你可以

终究解决方案

咱知道有的时候,咱们只是需求一个答案:

$ pid=1 ;\
  jattach ${pid} load instrument false /opt/arthas/arthas-agent.jar && \
  java -jar /opt/arthas/arthas-client.jar 127.0.0.1 3658

总结

相比上一次musl+jdk8+pid 1的问题,这次咱们用attach机制做了更多的工作。开发同学遇到JRE,再也不用换JDK、换镜像,能够最大程度的保留现场,问题排查就变得顺畅高效的多了。当然,在容器环境中,Java使用遇到的奇奇怪怪的状况,不止如此,欲知后事怎么,且听《容器中的Java》系列下回分解吧。