linux查看cpu性能模式 Linux性能监测CPU篇

linux查看cpu性能模式 Linux性能监测CPU篇(1)

Linux性能监测：CPU篇

前言

接前一篇《Linux性能监测：介绍篇》，性能是一个永恒的话题。我们公司的运维管理员每天都收到各种告警短信，一会这个主机的CPU触发阈值了，一会那个主机的CPU也触发阈值了。当运维管理员收到这种短信的时候，运维管理员就需要形成以下条件反射，或者说，运维管理员就需要具备以下知识储备。

什么是CPU？
CPU过高会带来哪些问题？
如何检查CPU健康状态？
如何定位CPU过高的根源？

所以说，只有具备了扎实的基本功，才能从容面对性能难题。对于上面的问题，接下来，我们将一一进行回答和总结。

什么是CPU

引用百度百科里的解释：中央处理器（CPU，Central Processing Unit）是一块超大规模的集成电路，是一台计算机的运算核心（Core）和控制核心（Control Unit）。它的功能主要是解释计算机指令以及处理计算机软件中的数据。CPU主要包括运算器（算术逻辑运算单元，ALU，Arithmetic Logic Unit）和高速缓冲存储器（Cache）及实现它们之间联系的数据（Data）、控制及状态的总线（Bus）。它与内部存储器（Memory）和输入/输出（I/O）设备合称为电子计算机三大核心部件。

CPU的主要功能是解释计算机指令以及处理计算机软件中的数据，并执行指令。说简单点，就是我们编写的程序，经过编译后，最终都会变成一条条的指令，由CPU来进行最终的执行。通常CPU的运算速度、主频、缓存、核心数，这几个参数就决定了CPU的好坏，一般情况下，CPU的主频越高、缓存越大、核心数越多，这样的CPU运转速度就很快，处理图形图像文件起来，速度就越快，这种CPU的价格就比较贵。

除了上面的一些定义和常识外，我们还需要明白一些特殊名词的含义。

物理CPU

主板上实际插入的cpu数量；这个是物理存在的设备。打开主板，我们是可以肉眼看到的。在Linux服务器上，我们可以通过以下命令查看物理CPU个数：cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l

CPU核数

核数就是指CPU上集中的处理数据的cpu核心个数，单核指cpu核心数一个，双核则指的是两个。通常每个CPU下的核数都是固定的，比如你的计算机有两个物理CPU，每个CPU是双核，那么计算机就是四核的。在Linux服务器上，我们可以通过以下命令查看CPU核数：cat /proc/cpuinfo | grep "cpu cores" | wc -l

逻辑CPU

一般情况下，逻辑CPU=物理CPU个数×每颗核数，如果不相等的话，则表示服务器的CPU支持超线程技术（HT：简单来说，它可使处理器中的1颗内核像2颗内核那样在操作系统中发挥作用。这样一来，操作系统可使用的执行资源扩大了一倍，大幅提高了系统的整体性能，此时逻辑CPU=物理CPU个数×每颗核数x2）；可以通过以下命令来查看逻辑CPU个数：cat /proc/cpuinfo | grep "processor" | wc -l

CPU过高会带来哪些问题

我们收到CPU过高的告警，我们一般都需要紧急对应的。我们都知道，CPU是用来运行各种程序，做各种计算的，一旦CPU处于高负荷状态，容易引起服务响应速度变慢，进而导致整个服务不可用，特别是在业务高峰期可能导致雪崩效应，最终整个系统出现瘫痪。所以，一旦出现CPU过高的告警，我们一定要谨慎、认真对待。

如何检查CPU健康状态

我们都知道复制文件通常占用较少CPU，因为大部分工作是由DMA完成，只是在完成复制以后给一个中断让CPU知道复制已经完成；科学计算通常占用较多的CPU，大部分计算工作都需要在CPU上完成，内存、硬盘等子系统只做暂时的数据存储工作。要想监测和理解CPU的性能需要知道一些操作系统的基本知识，比如：中断、进程调度、进程上下文切换、可运行队列等。这里我们用个例子来简单介绍一下这些概念和他们的关系，CPU很无辜，是个任劳任怨的打工仔，每时每刻都有工作在做（进程、线程）并且自己有一张工作清单（可运行队列），由老板（进程调度）来决定他该干什么，他需要和老板沟通以便得到老板的想法并及时调整自己的工作（上下文切换），部分工作做完以后还需要及时向老板汇报（中断），所以打工仔（CPU）除了做自己该做的工作以外，还有大量时间和精力花在沟通和汇报上。

CPU也是一种硬件资源，和任何其他硬件设备一样也需要驱动和管理程序才能使用，我们可以把内核的进程调度看作是CPU的管理程序，用来管理和分配CPU资源，合理安排进程抢占CPU，并决定哪个进程该使用CPU、哪个进程该等待。操作系统内核里的进程调度主要用来调度两类资源：进程（或线程）和中断，进程调度给不同的资源分配了不同的优先级，优先级最高的是硬件中断，其次是内核（系统）进程，最后是用户进程。每个CPU都维护着一个可运行队列，用来存放那些可运行的线程。线程要么在睡眠状态（blocked 正在等待 IO）要么在可运行状态，如果CPU当前负载太高而新的请求不断，就会出现进程调度暂时应付不过来的情况，这个时候就不得不把线程暂时放到可运行队列里。我们在这里要讨论的是性能监测，而上面谈了一堆都没提到性能，那么这些概念和性能监测有什么关系呢？关系重大。如果你是老板，你如何检查打工仔的效率（性能）呢？我们一般会通过以下这些信息来判断打工仔是否偷懒：