[TOC]

0x00 前言简述

描述:本文主要记录了DELL服务器相关运维操作与配置,及其故障的解决;

DELL服务器产品命名规则

  • R:Rack,机架式服务器
  • T:Tower,塔式服务器
  • M:Modular,模块化的意思,实际上就是刀片服务器
  • C:是戴尔为数据中心解决方案部门提出的高密度服务器,也被称为云计算服务器。

例如:戴尔 PowerEdge R730数字含义

  • 第一个数字:
    • 2、3代表了入门级单路服务器,一般来讲价格比较低廉,虽也是至强处理器,但是通常为至强E3,;十分适合小型企业和初创企业的应用场景。
    • 3、4、5代表了中高端单路服务器和入门级双路服务器,性价比相对较高,能够实现冗余备份,可选高级功能,适合于远程站点和较大公司部门使用,也适用于中小型企业的核心业务。
    • 6、7、8属于中高端双路服务器和入门级四路服务器,往往拥有强大的计算能力、大容量内存和高速存储;适合需要卓越虚拟化能力,同时高效节能的服务器机房、企业数据中心和远程站点等。
    • 9系列则代表了高端四路服务器产品,一般服务器内部存储和内存可扩展性强,可以优化应用程序性能;适用于企业关键业务。
  • 第二个数字:即该服务器维代尔第几代产品。如笔者介绍的第13G(代)产品的第三个字母就统一为数字“3”。
  • 第三个数字:一般有两种数字0和5。其中,0代表英特尔处理器,如果是5则代表服务器采用了AMD的处理器。

戴尔存储系列的类别:

  • 分类 中文解释 戴尔目前在售产品
  • DAS 直连式存储 MD1000、1200、1220、3200、3220
  • NAS 网络附加存储 NX200、300、3100、3000、3500
  • SAN 存储区域网 Equallogic PS4000、PS6000、PS6010、PS4100、PS6100;SCv 2000 / 2020;Compellent


服务器外部尺寸分类

U是一种表示服务器外部尺寸的单位,是unit的缩略语,一般只有机架服务器使用该单位。服务器的厚度以4.445cm为基本单位。所谓“1U的PC服务器”,就是外形满足EIA规格、厚度为4.445cm的产品。

  • 1U就是4.445cm,2U则是1U的2倍为8.89cm ,4U则是2U的两倍;


单路和双路服务器的区别?
单路服务器和双路服务器区别为:CPU不同、内存不同、执行效率不同。

  1. CPU不同
  • 单路服务器:单路服务器主板上只有一个CPU在运行。
  • 双路服务器:双路服务器主板上有两个CPU同时在运行。
  1. 内存不同
  • 单路服务器:
    • intel平台,单路服务器用的内存可以是ECC (型号后带有E或者芯片数是3的倍数),非ECC
    • AMD平台,单路服务器的内存可以是ecc,非ECC,REG ECC
  • 双路服务器:
    • intel平台,双路服务器用的内存只能是FB-DIMM ECC
    • AMD平台,双路服务器只能上REG ECC
  1. 执行效率不同
  • 单路服务器:单路服务器单线程,执行效率更低。
  • 双路服务器:双路服务器双线程,执行效率更高。


Dell 服务器快捷功能按钮:

1
2
3
4
5
6
7
8
9
10
#此处以DELL的PowerEdge R710为例
F2 - System Setup|系统BIOS
F10 - System Service|系统服务
F11 - UEFI Boot Manager|UEFI Boot Manager
F12 - PXE BOOT

<Ctrl><E> #进入底板管理控制器 (BMC) 或 iDRAC 配置公用程序,从中可访问系统事件日志 (SEL) 和对系统进行远程访问的配置
<Ctrl><C> #进入 SAS 配置公用程序。
<Ctrl><R> #进入 RAID 配置公用程序。
<Ctrl><S> #进入公用程序,为PXE 引导配置 NIC 设置。

以 PowerEdge™ R210为例进行说明:

image-20191225170656941

image-20191225170656941

前面面板说明:

  1. 通电指示灯/电源按钮:注意(两分钟以上显示图形,具体时间取决于系统安装的内存容量,注: 对于兼容 ACPI 的操系统,使用电源按钮关闭系统可以在系统电源关闭前执行正常有序的关机操作。)
  2. NMI 按钮:使用某些操作系统时排除软件和设备驱动程序错误;
  3. VGA视频链接
  4. 硬盘活动指示灯
  5. 诊断指示灯
  6. 系统状态指示灯(正确蓝色、问题呈琥珀色亮起)
  7. 系统识别按钮 (前面板和背面板上的系统识别按钮可用于查找机架中的特定系统)
  8. USB连接器
  9. 系统识别面板 (快速服务标签、嵌入式 NIC MAC 地址、iDRAC6 Enterprise 卡 MAC 地址)
  10. 光盘驱动器(可选)

背部面板说明:

  1. iDRAC6 EnterPrise 专用管理端口
  2. VFlash 介质卡槽 : 为iDARC6 卡提供外部SD内存卡
  3. PCIe扩展卡插槽
  4. 串行连接器
  5. VGA
  6. eSATA 存储设备
  7. USB x 2
  8. 以太网连接器 x 2 (1000NIC自适应)
  9. 系统状态指示灯(同上面的6)
  10. 系统识别按钮

NIC 接口指示灯左链右活动:

image-20191225172923516

image-20191225172923516

诊断指示灯:

  • 全灭:系统处于关闭或者正常运行状态
  • 1:未检测到内存模块
  • 2:扩充卡可能出现故障
  • 3:处理器可能出现故障
  • 4:已检测到 BIOS 校验和故障;系统处于恢复模式

  • 12:系统资源配置错误

  • 13:内存配置错误
  • 14:系统板出现故障
  • 23:硬盘驱动器故障
  • 24:视频可能出现故障
  • 34:内存故障
  • 123 :其他故障
  • 134:系统板资源和/或系统板硬件可能出现故障。
  • 234:USB 可能出现故障

root/calvin

0x01 基础配置

(1) 初始化之RAID配置

描述: 主要针对于DELL服务器下RAID对磁盘的管理配置演示,因实践设备有限不一定是通用的但大多数是一致的;

环境说明:

1
2
服务器: PowerEdge R710
RIAD卡: PERC H700


实际流程:

  1. 在DELL服务器启动显示进度条时候,按下Ctrl键+R键进入RAID配置界面

  2. 其实LVM原理与RAID是差不多的,进入后最下有操作提示F2=Operations

    WeiyiGeek.

    WeiyiGeek.

  3. 切换到PD Mgmt(物理磁盘管理),可以看见所有硬盘的盘位、容量、使用情况等信息

    WeiyiGeek.

    WeiyiGeek.

  4. 切换回VD Mgmt(虚拟磁盘管理),选中到RAID卡,按F2可以新建VD

    WeiyiGeek.

    WeiyiGeek.

  1. 选中磁盘→ 选择RAID模式(1块硬盘可组RAID0、2块硬盘可组RAID0和RAID1、3块硬盘可组RAID0和RAID5、更多的硬盘有更多的组合方案)→ 设置容量(同一张RAID卡组多个RAID时且容量相同时推荐将容量设置细微差异为不同,不然使用的时候你可能分不清楚哪个盘是哪个RAID的只能通过容量来分辨)
    WeiyiGeek.

    WeiyiGeek.

  1. 建议对新创建的逻辑驱动器进行初始化,除非您试图重新创建以前的配置并恢复数据,简单的说为了保证数据的安全性推荐初始化,初始化时间一般较长
    WeiyiGeek.

    WeiyiGeek.

  1. RAID创建完成
    WeiyiGeek.

    WeiyiGeek.


(2) 错误信息之日志收集

通过iDRAC收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305282/zh
通过Lifecycle收集TSR日志的操作方法(12/13G):www.dell.com/support/article/sln305280/zh
Windows收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln304629/zh
RH Linux收集DSET日志的方法-V3.7 : www.dell.com/support/article/sln305293/zh
ESXi5.0通过DSET远程收集日志-V3.7 : www.dell.com/support/article/sln272599/zh


(3) BIOS 固件升级

描述:本章节主要针对于Dell R730 "BIOS iDRACK+Lifecycle Controller"固件进行升级;
BIOS更新地址:https://www.dell.com/support/home/zh-cn/drivers/DriversDetails?driverId=6YDCM
固件更新地址:https://downloads.dell.com/FOLDER05590166M/1/iDRAC-with-Lifecycle-Controller_Firmware_40T1C_WN64_2.63.60.61_A00.EXE
环境准备:默认管理IP地址为192.168.0.120,默认用户名、密码为root/calvin

1
2
3
4
5
6
7
8
# 原始环境
BIOS 版本 2.3.4
固件版本 2.40.40.40
Lifecycle Controller 固件 2.63.60.61
# 更新环境
文件格式: MS Windows(64位)的更新包 BIOS_6YDCM_WN64_2.4.3.EXE
文件格式: 应用程序 iDRAC8_2.41.40.40_A00.exe
iDRAC-with-Lifecycle-Controller_Firmware_40T1C_WN64_2.63.60.61_A00.EXE

更新方式:

  • (1) 通过服务器BIOS BOOT Manager方式

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    # 1.EFI的Dell Update包说明
    下载安装
    您可以使用UEFI shell可引导介质(例如USB闪存盘)更新BIOS。
    1. 利用UEFI shell将该文件复制到可引导设备。
    2. 使用可引导设备将系统引导至UEFI shell。
    3. 在UEFI shell下运行可执行文件(.efi)。按照更新实用程序提供的说明执行操作。

    # 2.您还可以直接从BIOS Boot Manager加载此可执行文件,而无需使用UEFI shell可引导介质。
    1. 将该文件复制到USB设备
    2. 插入USB设备,并在POST期间按F11以进入BIOS Boot Manager
    3. 浏览至“System Utilities”(系统实用程序)菜单,并选择“BIOS Update File Explorer”(BIOS更新文件资源管理器)
    4. 选择USB设备并浏览目录内容,以查找可执行文件(.efi)
    5. 启动可执行文件,并按照更新实用程序提供的说明执行操作。
  • (2) 通过服务器IDRAC方式

    • 2.1 登陆Idra后可在服务器中查看服务器信息、然后切换到iDRAC设置中进行更新文件的上传、并进行安装与重新引导;
      WeiyiGeek.更新
    • 2.2 之后会提示您到作业队列中进行BIOS更新进度查看;
      1
      2
      3
      4
      5
       Firmware :BIOS Download
      Reboot: Graceful OS shutdown with powercycle on timeout Reboot Completed
      Firmware Update: BIOS Scheduled (0%)
      Firmware Update: BIOS Running
      Firmware Update: BIOS Complte
      WeiyiGeek.
    • 2.3 升级期间会重启几次以及黑屏(注意升级时候请勿切断电源和暂停)
      WeiyiGeek.l
  • (3) 升级iDRAC固件版本到2.63.60.61固件上传位置:iDRAC设置->更新和回滚然后在Firmware Update: DriverPack等等Complete完成;

    WeiyiGeek.Firmware Update

    WeiyiGeek.Firmware Update

  • (4) 升级后的效果:

    1
    2
    3
    4
    5
    电源状态 	打开
    系统型号 PowerEdge R730
    BIOS 版本 2.4.3
    固件版本 2.63.60.61
    Lifecycle Controller 固件 2.63.60.61


(4) iDRAC的OS部署升级与使用

描述: 访问 http://www.dell.com 绑定快速服务编码,然后在“支持”里找到“驱动程序和下载”,在选择类别为用于操作系统部署的驱动程序
此处以R730为例: https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r730/drivers

更新与使用:

  • 1.登录iDRAC,在“iDRAC设置”里找到“更新与回滚”,选择刚才下载过的文件后,点击“上载Drivers-for-OS-Deployment_Application_WP3PH_WN64_18.12.04_A00_01固件;

    WeiyiGeek.固件

    WeiyiGeek.固件

  • 2.安装后重启进入Lifecycle Controller 选择OS部署便可选择操作系统;

WeiyiGeek.OS部署

WeiyiGeek.OS部署


(5) 内存卡槽插法

描述:Poweredge 12G r720、r730 是dell的机架式服务器俗称刀片机,当我们需要更改内存时候需要按照以下方式进行插入ECC的内存;

戴尔服务器内存模块安装原则/分布规则
此系统支持灵活的内存配置,从而使系统在任何有效的芯片集结构配置中配置和运行。

DELL R730服务器系统包含24个内存插槽分为两组(每组12个),每个处理器一组。每个12插槽组分入四个通道。
在每个通道中第一个插槽的释放拉杆以白色标记,第二个插槽的释放拉杆为黑色,第三个插槽的释放拉杆标为绿色,插入顺序先白后黑再绿,通道图示如下图:

WeiyiGeek.DELL 内存卡槽

WeiyiGeek.DELL 内存卡槽

名词解析:

  • 1.无缓冲双通道内存模块 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
  • 2.带寄存器的双列直插内存模块 (Registered DIMM ,RDIMM)
  • 3.低负载双列直插内存模块 (Load Reduced DIMM,LRDIMM)

以下是建议的最佳性能原则:

  • 1.UDIMM、RDIMM和LRDIMM不得混用基于x4和x8DRAM的DIMM可以混用。
  • 2.一个通道中最多可填充两个UDIMM
  • 3.每个通道中最多可填充两个4列RDIMM和3个双列或单列RDIMM。 一个四列RDIMM安装在带有白色释放拉杆的第一个插槽中时,无法填充具有绿色释放拉杆的信道中的第三个DIMM插槽。
  • 4.无论列数是多少,最多可以填充3个LRDIMM。
  • 5.在双处理器配置中,每个处理器的内存必须配置相同。
  • 6.大小不同的内存模块可以在一个内存通道中混用(如 2-GB、8-GB和4-GB),但所有被占用的通道的配置必须相同。
  • 7.对于优化器式,内存模块按照插槽的数字顺序安装,以 A1 或 B1开始。
  • 8.对于内存镜像模式或高级 ECC 模式离处理器最远的三个插槽不使用,内存模块首先从插槽 A2或 B2 开始安装,然后按剩下插槽的数字顺序安装(如 A2、A3、A5、A6、A8和 A9)
  • 9.高级 ECC 模式需要 x4或 x8 DRAM 设备宽度。
  • 10.每个通道的内存速度因内存配置而异

内存插法与处理器个数有关: 对于单处理器系统插槽A1至a12可用,对于双处理器系统插槽A1至a12和插槽B1至b12可用

  • (1) 当使用1个cpu(单cpu)时,32G内存的内存槽插法:
    • 2条16G内存的话,分别插在A1,A3内存槽。
    • 4条8G内存的话,分别插在A1,A2,A3,A4内存槽。
    • 8条4G内存的话,分别插在A1,A2,A3,A4,A5,A6,A7,A8内存槽。

      注意事项: 填充DIMM插槽仅如果安装了一个处理器:先填充具有白色释放卡舌的所有插槽,再填充具有黑色卡舌的插槽,最后填充具有绿色卡舌的插槽。如果在具有白色释放卡舌的第一个插槽中填充4列RDIMM,则请勿填充具有绿色释放卡舌的通道中的第3个DIMM插槽
      在以下顺序按最高列数填充插槽-首先在带有白色释放拉杆的插槽,然后黑屏,然后呈绿色亮起。
      例如如果要混用4列和双列DIMM,则填充具有白色释放卡舌的插槽中的4列DIMM,再填充具有黑色释放卡舌的插槽中的双列DIMM


  • (2) 当使用2个cpu(双cpu)时,64G内存的内存槽插法:
  • 4条16G内存的话,分别插在A1,A3和B1,B3内存槽。
  • 8条8G内存的话,分别插在A1,A2,A3,A4和B1,B2,B3,B4内存槽。
  • 16条4G内存的话,分别插在A1,A2,A3,A4,A5,A6,A7,A8和B1,B2,B3,B4,B5,B6,B7,B8内存槽。

    注意事项: 在双处理器配置中,每个处理器的内存配置应完全相同。
    例如:
    如果填充处理器1的插槽A1,则填充处理器2的插槽B1以此类推。
    如果遵循其它内存安装规则,则不同大小的内存模块可以混用(例如2GB和4GB内存模块可以混用)。每个处理器一次填充4个DIMM(每个通道一个DIMM)以最大化性能。
    如果安装不同速度的内存模块,它们将以最低或较低安装内存模块速度运行(具体取决于系统DIMM配置)。


补充知识:

  • (1)戴尔R720最小/最大内存容量(实际与处理器有非常大的关系)
    • 最小RAM:2GB含单一处理器/4GB(具有双处理器)
    • 最大RAM:LRDIMM高达768GB(PowerEdge R720XD2.5英寸硬盘驱动器配置),RDIMM高达512GB, UDIMM最高可达64GB
  • (2)戴尔R730的双路(Xeon E5-2630 v4)支持的内存容量;
    1
    2
    3
    4
    最大内存大小(取决于内存类型):1.54TB
    内存类型:DDR4支持1600/1866/2133
    最大内存通道数:4
    最大内存带宽:68.3GB/s

参考地址:


(6) R730 系统安装流程

描述:下面主要在R730设备中安装Ubuntu操作系统流程,适用于U盘安装和CD-DVD安装;

安装流程:

  • 1.准备一个写入Ubuntu镜像的U盘并且插入到R730之中然后开启服务器,通过自检后选择F11功能按键进行 BOOT Manager 之中;
  • 2.然后会自动进入BOOT Manager Main Menu之中,此时选择One-shot BIOS Boot Menu然后根据您的启动盘选择Hard Driver,此外我选择的是 DataTraveler 3.0;

    WeiyiGeek.DELL-BOOT-MANAGER

    WeiyiGeek.DELL-BOOT-MANAGER

  • 3.之后便会进入U盘安装Ubuntu引导之中然后按下F6进入以下画面选择进行安装Ubuntu 服务器版本,然后按照提示进行划分磁盘空间大小,后面根据流程操作即可此处不再累述,等待安装完成;

    WeiyiGeek.Ubuntu安装

    WeiyiGeek.Ubuntu安装


0x0n 入坑解决

(1) PowerEdge R730 内存错误导致服务器异常重启

问题描述:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 显示错误:前液晶LED显示先后提示CPU和Memory错误 
UEFI0058:Uncorrectable memory error has occurred because a dual inline memory module (DIMM) is not functioning.
UEFI0078:One or more Machine Check errors occurred in the previous boot. Check the System Event Log (SEL) to identifiy the source of the Machine Check error and resolve the issues.
UEFI0079:One or more Uncorrectable Memory errors occurred in the previous boot.
UEFI0081:Memory configuration has changed from the last time the system was started.

# 示例:该问题主要出现在 R630 和 R730 中
MEM0701 警告 DIMM_xx 可纠正内存错误率过高。
MEM0702 严重 DIMM_xx 可纠正内存错误率过高。

# LC 日志示例:
2017-03-07 23:08:02 SYS1003 系统 CPU 重置。
2017-03-07 23:08:02 SYS1001 系统关闭。
2017-03-07 23:08:02 MEM0702 DIMM_xx 可纠正内存错误率过高。

问题原因:

内存错误异常而CPU的报错大多是由于内存报错导致的;
可纠正内存错误是一种单位错误,如果在写入或读取操作过程中错误地将 1 更改为0 或将 0 更改为 1,就会出现这一错误。识别出错的特定单位后,可以通过补充错误单位的方式纠正错误。
戴尔认证的 DIMM 将自动执行此纠正在极少数情况下,当 SEL 日志中记录一个可纠正内存错误后,服务器可能会重新启动。
该问题主要出现在 R630 和 R730 中, 该问题仅出现在 2.3.x 版本的 BIOS 中

问题排查:

  • 1.在IDRAC控制台查看内存相关的配置及其状态是否存在故障报错
    1
    2
    Thu Sep 10 2020 17:49:17CPU 1 machine check error detected. Thu Sep 10 2020 17:49:17Multi-bit memory errors detected on a memory device at location(s) DIMM_B1. 
    Thu Sep 10 2020 17:49:17Multi-bit memory errors detected on a memory device at location(s) DIMM_A1. Thu Sep 10 2020 17:49:17Multi-bit memory errors detected on a memory device at location(s) DIMM_B1.
    WeiyiGeek.

    WeiyiGeek.

问题解决方式(不保证每条都OK):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
- 0.尝试释放一下静电先移除电源线,按着开机按钮大概30秒先释放一下静电,重新插入电源线后(请先等待一分钟再接通服务器电源测试)
- 1.根据IDRAC查看到的内存具体信息再对内存做交换槽位(重新拔插一下内存)、减少等操作(`注意:请按照DELL内存安装规则进行安装-与CPU个数有关`)。
- 2.为解决重新启动问题应将 BIOS 更新到最新版本。如果出于操作原因无法更新,应将 BIOS 设置为最低版本:
R430 2.4.2
T430 2.4.2
R530 2.4.2
T630 2.4.2
R630 2.4.3
R730 2.4.3
R830 1.4.2
C4130 2.4.2
C6320 2.4.2
所有模块化刀片服务器 2.4.2
- 3.安装低版本的操作系统

参考连接:


(2) PowerEdge R730 可纠正内存错误

描述: 可纠正内存错误是一种比较常见的内存错误,碰到此报错如何处理呢?

分为硬错误和软错误:

  • 硬错误表示 DIMM 出现问题。尽管硬可纠正内存错误可以由系统纠正并且不会导致系统停机或数据损坏,但它们表示硬件可能出现问题。
  • 软错误不表示 DIMM 出现任何问题。当内存数据、ECC 位或两者都不正确时发生软错误,错误条件纠正时此类错误由系统自动解决。

出现可纠正内存错误 (CME) 错误时,请尝试以下步骤:
➀ 更新BIOS(注意一定要下载最新的):https://www.dell.com/support/home/zh-cn/product-support/product/poweredge-r730/drivers
➁ 卸下并重新安装内存模块或者将模块安装到其他插槽中。
➂ 清除iDRAC并重启iDRAC卡重新获取设备硬件信息。
➃ 运行内存测试以确认故障。
➄ 如果确认硬件故障,请关注公众号“戴尔中国服务”联系我们更换故障内存。


(3) PowerEdge R730 Redhat 系统安装问题

问题描述: 机器原来安装了2012后来想改LINUX, 按照机器F10引导后安装过程中一直会报错can't get kickstart from /dev/sdb1
解决办法(注意点):

1
2
3
4
1,如有硬阵列卡,请确认BIOS下的 SATA SETTING下为AHCI模式
2,确认阵列配置好,如无数据做快速初始化地址在下方
3,如引导阵列容量大于2T,请将BIOS下的 BOOT SETTING 模式改成UEFI
4,确认redhat版本为可支持的,一般直接引导安装

WeiyiGeek.

WeiyiGeek.

参考地址:

(4)

https://www.dell.com/support/kbdoc/zh-cn/000140573/13g-poweredge-%E6%9C%8D%E5%8A%A1%E5%99%A8-pwr2262-intel-%E7%AE%A1%E7%90%86%E5%BC%95%E6%93%8E%E6%8A%A5%E5%91%8A%E4%BA%86%E5%86%85%E9%83%A8%E7%B3%BB%E7%BB%9F%E9%94%99%E8%AF%AF-%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F%E6%8E%A7%E5%88%B6%E5%99%A8%E6%97%A5%E5%BF%97%E6%B6%88%E6%81%AF

https://www.dell.com/support/home/zh-cn/product-support/servicetag/0-UTR3aWlCTVBwU0I4OEpmQmlIUXNjZz090/drivers