- 应用程序占用资源高问题
目前大部分应用程序采用的是JAVA语言开发,在产品上线使用一段时间后,经常会出现某个JAVA程序占用的CPU,内存过高,而且几乎从不释放,导致系统卡顿,用户使用变慢,如果要恢复,则必须杀掉该进程或重启该服务,然后进行此操作时,必定会导致业务中断。
程序主要由代码组成,优化则需要知道是哪段代码占用资源,并且一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环,所以通过优化代码来降低应用程序的资源消耗或者在应用的使用过程中减少死循环则必不可少。
下面我们以4A平台的字符网关服务器为例来进行相应分析。
- 问题分析
2.1. CPU过高分析
1)使用TOP命令查看CPU、内存使用状态可以发现CPU占用主要分为两部分,一部分为系统内核空间占用CPU百分比,一部分为用户空间占用CPU百分比。其中CPU状态中标示id的为空闲CPU百分比。当空闲CPU百分比越低,说明CPU占用率越高。
2)初步分析可以发现其中主要占用CPU的进程为java子进程jerrySsh服务(用户访问资源使用的监听服务),在用户量不大的情况下,CPU消耗资源很大。根据研发反馈字符网关设定的最大访问量可达到500/台,目前字符网关的资源使用现状无法满足设定的要求。
● 分析手段
目前针对Linux下java进程占用CPU高的分析手段主要为使用linux命令查出高CPU使用的进程,前分析其是由于进程原因还是系统原因,在分析出为进程消耗过高CPU后列出占用CPU高和占用时间最长的线程并使用jdk自带的jstack工具进行分析CPU使用分析:
export JAVA_HOME=/usr/apps/java/jdk1.6.0_20/
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
分析过程:
根据top命令,发现PID为13033的Java进程占用CPU %id 50%以上,占用CPU过高
找到该进程后,首先显示线程列表,并按照CPU占用高的线程排序:
[root@YZ-A-ZFWG-4 ~]# ps -mp 13033 -o THREAD,tid,time | sort –rn
显示结果如下:
找到了耗时最高的线程28358,占用CPU时间达8分多钟。
将需要的线程ID转换为16进制格式:
[root@YZ-A-ZFWG-4 ~]# printf "%x\n" 28358
6ec6
最后打印线程的堆栈信息:
经比对发现占用CPU高的jerrySsh服务中高消耗CPU的代码均为一些等待和读取的语句。
内核时间占用最长的线程所使用的代码抓取:
2.2. 内存使用分析
目前字符网关内存使用趋于平衡,除偶尔出现close_wait连接后由于未能得到及时释放而占用了大量内存导致buffers/cache较小外,其他线条暂未出现问题,据研发反馈已经做过优化,但是从目前观察来看coles_wait连接释放时间稍长。并且由于buffers、cached释放不出来,导致系统剩余物理内存较小,可能会影响系统性能,为了彻底解决此类问题,所以我们做了以下分析:
在linux的内存分配机制中,系统优先使用物理内存,当物理内存还有空闲,表示还够用时,不会释放其占用内存,即使占用内存的程序已经被关闭了,该程序所占用的内存用来做缓存使用,对于开启过的程序、或是读取刚存取过得数据会比较快,因此查看目前进程正在实际被使用的内存(used-buffers-cache),也可以认为如果交换分区(swap)没有大量使用,物理内存(mem)还是够用的,只有物理内存(mem)被当前进程实际占用完(没有了buffers和cache),才会使用到交换分区(swap)。
但是从代码的角度,目前研发人员主要关注java.lang.OutOfMemoryError: Java heap space异常,减少不必要的对象创建,同时避免内存泄漏,所以分析代码才是我们接下来要做的主要工作;以下为字符网关分析内存占用的故障排查过程:
● 分析手段
-
top命令:Linux命令。可以查看实时的内存使用情况。
-
jmap -histo:live [pid],然后分析具体的对象数目和占用内存大小,从而定位代码。
-
jmap -dump:live,format=b,file=xxx.xxx [pid],然后利用MAT工具分析是否存在内存泄漏。
Java提供了一个很好的内存监控工具:jmap命令
jmap命令有下面几种常用的用法:
从上述打印的日志可以得知该进程调系统进程占用内存的主要程序。
使用./jmap -histo:live 14978查询当前 Java进程创建的活跃对象数目和占用内存大小。
可以日志中发现constMethodKlass、methodKlass、symbolKlass都占用了大量的内存,特别是占用了大量内存的int数组,需要仔细检查相关代码,接下来这些事就可以丢给研发了。
- 总结分析手段
● 分析CPU占用的方法和手段:
-
top命令:可以查看实时的CPU使用情况。
-
ps -ef命令:可以查看进程以及进程中线程的当前CPU使用情况以及属于当前状态的采样数据。
-
jstack:Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。
-
pstack:Linux命令。可以查看某个进程的当前线程栈运行情况
● 分析内存性能的方法和技巧:
-
top命令:可以查看实时的内存使用情况。
-
jmap -histo:live [pid],然后分析具体的对象数目和占用内存大小,从而定位代码。
-
jmap -dump:live,format=b,file=xxx.xxx [pid],然后利用MAT工具分析是否存在内存泄漏等等。