性能监控工具
大纲:
n 系统性能监控
– 确定系统运行的整体状态,基本定位问题所在
n Java自带的工具
– 查看Java程序运行细节,进一步定位问题
n 实战分析
– 案例问题
系统性能监控- linux
uptime
n uptime
作用:查找和定位问题进程 问题线程
– 系统时间
– 运行时间
• 例子中为7分钟(系统运行时间是指系统从开机到现在一共运行了多长时间。)
– 连接数
• 每一个终端算一个连接
– 1,5,15分钟内的系统平均负载
• 运行队列中的平均进程数
Linux系统监控的过程中少不了对主机运行时间和系统负责等信息进行查询,这时候就可以使用Linux uptime命令。uptime命令可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。信息显示依次为:现在时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载。
那么什么是系统平均负载呢? 系统平均负载是指在特定时间间隔内运行队列中的平均进程数。
如果每个CPU内核的当前活动进程数不大于3的话,那么系统的性能是良好的。如果每个CPU内核的任务数大于5,那么这台机器的性能有严重问题。
如果你的linux主机是1个双核CPU的话,当Load Average(系统平均负载) 为6的时候说明机器已经被充分使用了。
top
n Top
作用:可以知道哪个程序占CPU最多
top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使用.内存使用和执行时间对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定.
1.命令格式:
top [参数]
2.命令功能:
显示当前系统正在执行的进程的相关信息,包括进程ID、内存占用率、CPU占用率等
3.命令参数:
-b 批处理
-c 显示完整的治命令
-I 忽略失效过程
-s 保密模式
-S 累积模式
-i<时间> 设置间隔时间
-u<用户名> 指定用户名
-p<进程号> 指定进程
-n<次数> 循环显示的次数
vmstat
n vmstat
– 可以统计系统的CPU,内存,swap(虚拟内存),io等情况
– CPU占用率很高,上下文切换频繁,说明系统有线程正在频繁切换
命令:vmstat 1 4
表示在1秒时间内进行4次采样。将得到一个数据汇总他能够反映真正的系统情况。
vmstat是Virtual Meomory Statistics(虚拟内存统计)的缩写,可对操作系统的虚拟内存、进程、CPU活动进行监控。他是对系统的整体情况进行统计,不足之处是无法对某个进程进行深入分析。vmstat 工具提供了一种低开销的系统性能观察方式。因为 vmstat 本身就是低开销工具,在非常高负荷的服务器上,你需要查看并监控系统的健康情况,在控制窗口还是能够使用vmstat 输出结果。在学习vmstat命令前,我们先了解一下Linux系统中关于物理内存和虚拟内存相关信息。
物理内存和虚拟内存区别:
我们知道,直接从物理内存读写数据要比从硬盘读写数据要快的多,因此,我们希望所有数据的读取和写入都在内存完成,而内存是有限的,这样就引出了物理内存与虚拟内存的概念。
物理内存就是系统硬件提供的内存大小,是真正的内存,相对于物理内存,在linux下还有一个虚拟内存的概念,虚拟内存就是为了满足物理内存的不足而提出的策略,它是利用磁盘空间虚拟出的一块逻辑内存,用作虚拟内存的磁盘空间被称为交换空间(Swap Space)。
作为物理内存的扩展,linux会在物理内存不足时,使用交换分区的虚拟内存,更详细的说,就是内核会将暂时不用的内存块信息写到交换空间,这样一来,物理内存得到了释放,这块内存就可以用于其它目的。当需要用到原始的内容时,这些信息会被重新从交换空间读入物理内存。
linux的内存管理采取的是分页存取机制,为了保证物理内存能得到充分的利用,内核会在适当的时候将物理内存中不经常使用的数据块自动交换到虚拟内存中,而将经常使用的信息保留到物理内存。
要深入了解linux内存运行机制,需要知道下面提到的几个方面:
首先,Linux系统会不时的进行页面交换操作,以保持尽可能多的空闲物理内存,即使并没有什么事情需要内存,Linux也会交换出暂时不用的内存页面。这可以避免等待交换所需的时间。
其次,linux进行页面交换是有条件的,不是所有页面在不用时都交换到虚拟内存,linux内核根据”最近最经常使用“算法,仅仅将一些不经常使用的页面文件交换到虚拟内存,有时我们会看到这么一个现象:linux物理内存还有很多,但是交换空间也使用了很多。其实,这并不奇怪,例如,一个占用很大内存的进程运行时,需要耗费很多内存资源,此时就会有一些不常用页面文件被交换到虚拟内存中,但后来这个占用很多内存资源的进程结束并释放了很多内存时,刚才被交换出去的页面文件并不会自动的交换进物理内存,除非有这个必要,那么此刻系统物理内存就会空闲很多,同时交换空间也在被使用,就出现了刚才所说的现象了。关于这点,不用担心什么,只要知道是怎么一回事就可以了。
最后,交换空间的页面在使用时会首先被交换到物理内存,如果此时没有足够的物理内存来容纳这些页面,它们又会被马上交换出去,如此以来,虚拟内存中可能没有足够空间来存储这些交换页面,最终会导致linux出现假死机、服务异常等问题,linux虽然可以在一段时间内自行恢复,但是恢复后的系统已经基本不可用了。
因此,合理规划和设计linux内存的使用,是非常重要的。
虚拟内存原理:
在系统中运行的每个进程都需要使用到内存,但不是每个进程都需要每时每刻使用系统分配的内存空间。当系统运行所需内存超过实际的物理内存,内核会释放某些进程所占用但未使用的部分或所有物理内存,将这部分资料存储在磁盘上直到进程下一次调用,并将释放出的内存提供给有需要的进程使用。
在Linux内存管理中,主要是通过“调页Paging”和“交换Swapping”来完成上述的内存调度。调页算法是将内存中最近不常使用的页面换到磁盘上,把活动页面保留在内存中供进程使用。交换技术是将整个进程,而不是部分页面,全部交换到磁盘上。
分页(Page)写入磁盘的过程被称作Page-Out,分页(Page)从磁盘重新回到内存的过程被称作Page-In。当内核需要一个分页时,但发现此分页不在物理内存中(因为已经被Page-Out了),此时就发生了分页错误(Page Fault)。
当系统内核发现可运行内存变少时,就会通过Page-Out来释放一部分物理内存。经管Page-Out不是经常发生,但是如果Page-out频繁不断的发生,直到当内核管理分页的时间超过运行程式的时间时,系统效能会急剧下降。这时的系统已经运行非常慢或进入暂停状态,这种状态亦被称作thrashing(颠簸)。
1.命令格式:
vmstat [-a] [-n] [-S unit] [delay [ count]]
vmstat [-s] [-n] [-S unit]
vmstat [-m] [-n] [delay [ count]]
vmstat [-d] [-n] [delay [ count]]
vmstat [-p disk partition] [-n] [delay [ count]]
vmstat [-f]
vmstat [-V]
2.命令功能:
用来显示虚拟内存的信息
3.命令参数:
-a:显示活跃和非活跃内存
-f:显示从系统启动至今的fork数量 。
-m:显示slabinfo
-n:只在开始时显示一次各字段名称。
-s:显示内存相关统计信息及多种系统活动数量。
delay:刷新时间间隔。如果不指定,只显示一条结果。
count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷。
-d:显示磁盘相关统计信息。
-p:显示指定磁盘分区统计信息
-S:使用指定单位显示。参数有 k 、K 、m 、M ,分别代表1000、1024、1000000、1048576字节(byte)。默认单位为K(1024 bytes)
-V:显示vmstat版本信息。
字段说明:
Procs(进程):
r: 运行队列中进程数量
b: 等待IO的进程数量
Memory(内存):
swpd: 使用虚拟内存大小
free: 可用内存大小
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小
Swap:
si: 每秒从交换区写到内存的大小
so: 每秒写入交换区的内存大小
IO:(现在的Linux版本块的大小为1024bytes)
bi: 每秒读取的块数
bo: 每秒写入的块数
系统:
in: 每秒中断数,包括时钟中断。
cs: 每秒上下文切换数。
CPU(以百分比表示):
us: 用户进程执行时间(user time)
sy: 系统进程执行时间(system time)
id: 空闲时间(包括IO等待时间),中央处理器的空闲时间 。以百分比表示。
wa: 等待IO时间
备注: 如果 r经常大于 4 ,且id经常少于40,表示cpu的负荷很重。如果pi,po 长期不等于0,表示内存不足。如果disk 经常不等于0, 且在 b中的队列 大于3, 表示 io性能不好。Linux在具有高稳定性、可靠性的同时,具有很好的可伸缩性和扩展性,能够针对不同的应用和硬件环境调整,优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时,了解系统性能分析工具是至关重要的。
pidstat
n pidstat
– 细致观察进程
– 需要安装
• sudo apt-get install sysstat
– 监控CPU
– 监控IO
– 监控内存
简介
pidstat主要用于监控全部或指定进程占用系统资源的情况,如CPU,内存、设备IO、任务切换、线程等。pidstat首次运行时显示自系统启动开始的各项统计信息,之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。
执行pidstat,不加参数,将输出系统启动后所有活动进程的cpu统计信息。使用-u选项,pidstat将显示各活动进程的cpu使用统计,执行”pidstat -u”与单独执行”pidstat”的效果一样。
参数使用示例及打印结果讲解:
· PID - 被监控的任务的进程号
· %usr - 当在用户层执行(应用程序)时这个任务的cpu使用率,和 nice 优先级无关。注意这个字段计算的cpu时间不包括在虚拟处理器中花去的时间。
· %system - 这个任务在系统层使用时的cpu使用率。
· %guest - 任务花费在虚拟机上的cpu使用率(运行在虚拟处理器)。
· %CPU - 任务总的cpu使用率。在SMP环境(多处理器)中,如果在命令行中输入-I参数的话,cpu使用率会除以你的cpu数量。
· CPU - 正在运行这个任务的处理器编号。
· Command - 这个任务的命令名称。
通过使用-t参数来显示每个线程的内存使用情况。
通过使用-d参数来得到I/O的统计数据。
IO 输出会显示一些内的条目:
· kB_rd/s - 任务从硬盘上的读取速度(kb)
· kB_wr/s - 任务向硬盘中的写入速度(kb)
· kB_ccwr/s - 任务写入磁盘被取消的速率(kb)
使用-r标记你能够得到内存使用情况的数据。
重要的条目:
· minflt/s - 从内存中加载数据时每秒出现的小的错误的数目,这些不要求从磁盘载入内存页面。
· majflt/s - 从内存中加载数据时每秒出现的较大错误的数目,这些要求从磁盘载入内存页面。
· VSZ - 虚拟容量:整个进程的虚拟内存使用(kb)
· RSS - 长期内存使用:任务的不可交换物理内存的使用量(kb)
系统性能监控 - windows
任务管理器
定制任务管理器显示的列信息:
Perfmon(性能监视器)
n Perfmon
– Windows自带多功能性能监控工具
打开性能监视器:
方式一:运行命令
1、打开运行命令,输入perfmon.msc后按回车键;
2、在性能监视器主界面,点击选择左侧的性能监视器,即可查看实时信息。
方式二:开始菜单
点开开始菜单,找到并点开Windows管理工具,然后找到并点击性能监视器即可打开相同窗口。
使用性能监视器:
添加计数器:
生成报告:
Process Explorer(进程资源管理器)
Process Explorer可以看成是一个加强版的任务管理器。在较早的Windows版本中,任务管理器提供的功能是非常简单的(比如查看CPU、内存的使用情况,强制结束进程等),很难满足我们高级一些的需求。在这种情况下,Process Exploere就应运而生了,大大的方便了我们工作中监测进程和排除故障的工作。
1. 替换任务管理器
Process Explorer提供了相对与任务管理器更加强大实用的功能,所以有的时候就会想着直接把任务管理器给替换掉得了。Process Explorer提供了这样一个功能,可以在用户触发打开任务管理器的操作的时候直接打开Process Explorer。下载地址
操作步骤:
Options -> Replace Task Manager
之后在我们运行Win+Esc、Ctrl+Shift+Del的时候打开的就是Process Explorer了。
2. 查看当前系统中运行的进程
Process Explorer对进程以树形图的形式进行展示,这样方便我们观察父子进程之间的关系。从这里我们可以看出来,绝大部分的窗体应用程序都是explorer.exe的子进程,大部分的后台进程都在services.exe下面:
Process Explorer会以不同的颜色标示不同状态的进程,比如:
· 浅蓝色: 和Process Explorer属于同一个用户的进程。
· 粉红色: 服务进程,通常会包含一个或多个Windows服务。
· 黄色: .NET进程。
· 深灰色: 挂起的进程。
· 紫色: 标识包含压缩或者加密的可执行代码的进程。一些病毒软件经常会利用这种方式绕过杀毒软件。
· 红色: 刚刚退出的进程。
我们还可以通过右键点击右侧列头选择显示我们感兴趣的属性:
3. 查看进程的详细信息
如果我们对某个进程的感兴趣,我们可以双击这个进程查看它的详细信息:
ProcessInfo.jpg
这里值得一提的是Command line和Current directory这两个属性。
Command line: 启动进程的时候调用的命令。从这里我们可以了解怎么样去调用这个进程,和有关当前进程启动的详细信息。
Current directory: 当前进程活动所在的文件夹。
4. 查看文件正在被什么进程占用
我们在操作文件(删除、重命名等)的时候遇到错误提示,说文件正在被其他进程占用,无法执行操作。这个时候可以打开Process Explorer对文件进行查找:
Ctrl + f
输入要查找的文件名就可以看到有那些进程正在使用这个文件了: Search File
双击搜到的进程Process Explorer会在下面高亮显示出对应的文件句柄。从这里我们可以强制关闭对应的句柄以达到不让文件被继续占用的目的。
5. 实时监控系统的性能
通过View -> System Info我们可以打开Performance窗口查看过去一段时间内系统的性能数据:
我们也可以通过设置把感兴趣的性能数据固定在任务栏里显示:
6. 获取Dump文件
借用百度百科的介绍,Dump文件是进程的内存镜像。通常在进程没有反应或者崩溃的时候我们需要借助Dump文件来分析进程里面发生了什么。 Process Explorer提供了一个快捷的方式来获取Dump文件:
右键点击进程 -> Create Dump
我们可以根据需要选择获取最小的dump还是完整的dump文件。
7. 进程操作
Process Explorer提供了很多进程级别的操作:
8. 安全验证
Process Explorer提供了强大的进程查看功能帮助我们对进程信息的合法性进行检验,包括:
· 进程签名
· 进程路径
· 运行路径
· …
9. 设置Symbols显示更详细的堆栈信息
设置Symbol之前:
设置Symbol之后:
pslist
n pslist
– 命令行工具
– 可用于自动化数据收集
– 显示java程序的运行情况
Java自带的工具
jps
n jps
– 列出java进程,类似于ps命令
– 参数-q可以指定jps只输出进程ID ,不输出类的短名称
– 参数-m可以用于输出传递给Java进程(主函数)的参数
– 参数-l可以用于输出主函数的完整路径
– 参数-v可以显示传递给JVM的参数
jinfo
n jinfo
– 可以用来查看正在运行的Java应用程序的扩展参数,甚至支持在运行时,修改部分参数
– -flag <name>:打印指定JVM的参数值
– -flag [+|-]<name>:设置指定JVM参数的布尔值
– -flag <name>=<value>:设置指定JVM参数的值
– 运行时参数修改,功能比较有限
jmap
n jmap
生成Java应用程序的堆快照和对象的统计信息
jmap -histo 2972 >c:\s.txt
Dump堆
jmap -dump:format=b,file=c:\heap.hprof 2972
jstack
n jstack
– 打印线程dump
– -l 打印锁信息
– -m 打印java和native的帧信息
– -F 强制dump,当jstack没有响应时使用
n jstack 120 >>C:\a.txt
"main" #1 prio=6 os_prio=0 tid=0x0831c400 nid=0xecc runnable [0x0018f000] java.lang.Thread.State: RUNNABLE at org.eclipse.swt.internal.win32.OS.WaitMessage(Native Method) at org.eclipse.swt.widgets.Display.sleep(Display.java:4657) at org.eclipse.ui.application.WorkbenchAdvisor.eventLoopIdle(WorkbenchAdvisor.java:364) at org.eclipse.ui.internal.ide.application.IDEWorkbenchAdvisor.eventLoopIdle(IDEWorkbenchAdvisor.java:917) at org.eclipse.ui.internal.Workbench$3.eventLoopIdle(Workbench.java:487) at org.eclipse.e4.ui.internal.workbench.swt.PartRenderingEngine$9.run(PartRenderingEngine.java:1117) at org.eclipse.core.databinding.observable.Realm.runWithDefault(Realm.java:332) at org.eclipse.e4.ui.internal.workbench.swt.PartRenderingEngine.run(PartRenderingEngine.java:997) at org.eclipse.e4.ui.internal.workbench.E4Workbench.createAndRunUI(E4Workbench.java:140) at org.eclipse.ui.internal.Workbench$5.run(Workbench.java:611) at org.eclipse.core.databinding.observable.Realm.runWithDefault(Realm.java:332) at org.eclipse.ui.internal.Workbench.createAndRunWorkbench(Workbench.java:567) at org.eclipse.ui.PlatformUI.createAndRunWorkbench(PlatformUI.java:150) at org.eclipse.ui.internal.ide.application.IDEApplication.start(IDEApplication.java:124) at org.eclipse.equinox.internal.app.EclipseAppHandle.run(EclipseAppHandle.java:196) at org.eclipse.core.runtime.internal.adaptor.EclipseAppLauncher.runApplication(EclipseAppLauncher.java:110) at org.eclipse.core.runtime.internal.adaptor.EclipseAppLauncher.start(EclipseAppLauncher.java:79) at org.eclipse.core.runtime.adaptor.EclipseStarter.run(EclipseStarter.java:354) at org.eclipse.core.runtime.adaptor.EclipseStarter.run(EclipseStarter.java:181) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at org.eclipse.equinox.launcher.Main.invokeFramework(Main.java:636) at org.eclipse.equinox.launcher.Main.basicRun(Main.java:591) at org.eclipse.equinox.launcher.Main.run(Main.java:1450)
|
JConsole
n JConsole
– 图形化监控工具
– 可以查看Java应用程序的运行概况,监控堆信息、永久区使用情况、类加载情况等
Visual VM
n Visual VM
– Visual VM是一个功能强大的多合一故障诊断和性能监控的可视化工具
实战分析
(java自带工具)运行一程序ThreadBlockMain,期望输出Hello,World ,结果在程序运行后,程序卡死,没有预期输出。
n 运行一程序ThreadBlockMain,期望输出Hello,World ,结果在程序运行后,程序卡死,没有预期输出。
进程导出文件的内容:(程序卡在socket相关的io上了)
(Linux+java自带工具)Java程序HoldCPUMain运行后,发现占用CPU很高,希望能找到原因。
n Java程序HoldCPUMain运行后,发现占用CPU很高,希望能找到原因。
接下来,到HoldCPUMain.java文件,看一下它的第8行做了些什么,导致CPU占用很高。
死锁
n 死锁
n 死锁的结果是,程序卡死
n 可以用jstack查找死锁
4辆小汽车,相互堵住了去路,结果谁也无法前进。
如何从jstack的输出中找出死锁?
有时候,即使没有死锁,但是持有锁的线程发生等待,也会阻塞请求该锁的线程。
来源:oschina
链接:https://my.oschina.net/u/3512041/blog/1823454