LiCO 5.5.0 管理员指南

83
LiCO 5.5.0 管理员指南

Transcript of LiCO 5.5.0 管理员指南

LiCO 5.5.0管理员指南

第六版 (2020 年 4 月)

© Copyright Lenovo 2018, 2020.

有限权利声明:如果数据或软件依照 GSA(美国总务署)合同提供,其使用、复制或公开受编号为 GS-35F-05925 的合同条款的约束。

目录

第 1 章 概述 . . . . . . . . . . . . . 1LiCO 简介. . . . . . . . . . . . . . . . 1LiCO 的功能. . . . . . . . . . . . . . . 1术语 . . . . . . . . . . . . . . . . . . 1先决条件 . . . . . . . . . . . . . . . . 2运行环境 . . . . . . . . . . . . . . . . 2

第 2 章 管理员首页 . . . . . . . . . 3登录管理员首页 . . . . . . . . . . . . . 4切换角色 . . . . . . . . . . . . . . . . 4获取当前版本信息 . . . . . . . . . . . . 4更改账户密码 . . . . . . . . . . . . . . 5集群状态视图 . . . . . . . . . . . . . . 6集群警报消息 . . . . . . . . . . . . . . 7

第 3 章 用户管理. . . . . . . . . . . 9用户组(使用 LDAP) . . . . . . . . . . 9

创建用户组 . . . . . . . . . . . . . . 9

删除用户组 . . . . . . . . . . . . . . 10

用户组(不使用 LDAP) . . . . . . . . . 10用户(使用 LDAP) . . . . . . . . . . . 11

创建用户 . . . . . . . . . . . . . . . 11

批量导入用户 . . . . . . . . . . . . . 12

导出用户 . . . . . . . . . . . . . . . 13

编辑用户 . . . . . . . . . . . . . . . 13

更改用户密码 . . . . . . . . . . . . . 13

删除用户 . . . . . . . . . . . . . . . 14

冻结用户 . . . . . . . . . . . . . . . 15

恢复用户 . . . . . . . . . . . . . . . 16

浏览用户详细信息 . . . . . . . . . . . 16

用户(不使用 LDAP) . . . . . . . . . . 17导入用户 . . . . . . . . . . . . . . . 17

批量导入用户 . . . . . . . . . . . . . 18

导出用户 . . . . . . . . . . . . . . . 18

编辑用户 . . . . . . . . . . . . . . . 18

更改用户密码 . . . . . . . . . . . . . 19

删除用户 . . . . . . . . . . . . . . . 20

冻结用户 . . . . . . . . . . . . . . . 20

恢复用户 . . . . . . . . . . . . . . . 21

浏览用户详细信息 . . . . . . . . . . . 21

计费组 . . . . . . . . . . . . . . . . . 22新建计费组 . . . . . . . . . . . . . . 22

编辑计费组及其队列策略或存储策略 . . . . 23

删除计费组 . . . . . . . . . . . . . . 27

拷贝计费组 . . . . . . . . . . . . . . 28

为计费组存入/提取资金 . . . . . . . . . 29

折扣 . . . . . . . . . . . . . . . . . . 29创建用户折扣 . . . . . . . . . . . . . 29

编辑用户折扣 . . . . . . . . . . . . . 30

删除用户折扣 . . . . . . . . . . . . . 31

创建用户组折扣 . . . . . . . . . . . . 32

编辑用户组折扣 . . . . . . . . . . . . 32

删除用户组折扣 . . . . . . . . . . . . 33

某些用户操作失败的解决方案 . . . . . . . 34

第 4 章 显示器 . . . . . . . . . . . . 35列表视图 . . . . . . . . . . . . . . . . 35物理视图 . . . . . . . . . . . . . . . . 36分组视图 . . . . . . . . . . . . . . . . 37GPU 视图 . . . . . . . . . . . . . . . . 38作业 . . . . . . . . . . . . . . . . . . 38报警列表 . . . . . . . . . . . . . . . . 39操作列表 . . . . . . . . . . . . . . . . 41

第 5 章 报告 . . . . . . . . . . . . . 43作业报告 . . . . . . . . . . . . . . . . 43费用报告 . . . . . . . . . . . . . . . . 43集群报告 . . . . . . . . . . . . . . . . 44报警报告 . . . . . . . . . . . . . . . . 46利用率报告 . . . . . . . . . . . . . . . 47

第 6 章 管理员 . . . . . . . . . . . . 49容器镜像 . . . . . . . . . . . . . . . . 49

创建镜像 . . . . . . . . . . . . . . . 49

编辑镜像 . . . . . . . . . . . . . . . 50

查看镜像 . . . . . . . . . . . . . . . 51

删除镜像 . . . . . . . . . . . . . . . 52

下载镜像 . . . . . . . . . . . . . . . 52

重新上传镜像 . . . . . . . . . . . . . 53

账单 . . . . . . . . . . . . . . . . . . 53VNC . . . . . . . . . . . . . . . . . . 54

在 Web 中管理 VNC 会话 . . . . . . . . 55

使用命令行管理 VNC 会话 . . . . . . . . 55

操作日志 . . . . . . . . . . . . . . . . 55系统日志 . . . . . . . . . . . . . . . . 56

第 7 章 设置 . . . . . . . . . . . . . 57调度程序 . . . . . . . . . . . . . . . . 57

创建队列 . . . . . . . . . . . . . . . 57

© Copyright Lenovo 2018, 2020 i

编辑队列 . . . . . . . . . . . . . . . 59

删除队列 . . . . . . . . . . . . . . . 59

设置队列的状态 . . . . . . . . . . . . 60

设置节点状态 . . . . . . . . . . . . . 60

报警策略 . . . . . . . . . . . . . . . . 60创建报警策略 . . . . . . . . . . . . . 61

编辑报警策略 . . . . . . . . . . . . . 62

删除报警策略 . . . . . . . . . . . . . 62

通知组 . . . . . . . . . . . . . . . . . 63创建通知组 . . . . . . . . . . . . . . 63

编辑通知组 . . . . . . . . . . . . . . 64

删除通知组 . . . . . . . . . . . . . . 64

通知 . . . . . . . . . . . . . . . . . . 65脚本 . . . . . . . . . . . . . . . . . . 65许可证 . . . . . . . . . . . . . . . . . 65

第 8 章 HPC 集群管理 . . . . . . . 67查看 HPC 集群详细信息 . . . . . . . . . 67HPC 集群软件的远程管理 . . . . . . . . . 67

界面管理 . . . . . . . . . . . . . . . 67

命令行管理 . . . . . . . . . . . . . . 68

xCAT 管理 . . . . . . . . . . . . . . 68

并行命令 . . . . . . . . . . . . . . . . 69作业调度命令 . . . . . . . . . . . . . . 69队列命令 . . . . . . . . . . . . . . . . 69作业管理 . . . . . . . . . . . . . . . . 70

附录 A 重要信息 . . . . . . . . . . . 71重新启动 LiCO. . . . . . . . . . . . . . 71LiCO 使用的端口. . . . . . . . . . . . . 71解析失败的作业提交 . . . . . . . . . . . 71使用命令行管理用户导入 . . . . . . . . . 72使用命令行查询资源使用情况 . . . . . . . 72使用命令行生成账单 . . . . . . . . . . . 73使用命令行同步对账单记录 . . . . . . . . 75批量删除数据库中的作业 . . . . . . . . . 75无法查看或删除 VNC . . . . . . . . . . . 76GPU 监控的数据源 . . . . . . . . . . . . 76通过不受 LiCO 管理的帐户提交的清理作业 . 76调度程序故障诊断 . . . . . . . . . . . . 76MPI 问题故障诊断 . . . . . . . . . . . . 77LiCO 和 Linux OS 上的不同内存使用情况 . 77声明和商标 . . . . . . . . . . . . . . . 77

ii LiCO 5.5.0 管理员指南

第 1 章 概述

LiCO 简介

联想智能超算平台(LiCO)是用于高性能计算(HPC)和人工智能(AI)的基础结构管理软件。它提供集群管理和监控、作业调度和管理、集群用户管理、帐户管理和文件系统管理等功能。

管理员可使用 LiCO 以集中方式管理和监控集群内的用户组、用户和计费组。还可以安排和监控作业、警报和报告,以及执行各种设置。

LiCO 的功能

• 集群资源监控:LiCO 提供一个仪表板,用于监控集群资源(包括 CPU、内存、存储和网络)的使用情况。

• 作业模板存储:LiCO 提供多个作业模板(包括 HPC 和 AI 作业模板),用于帮助用户通过Web 页面方便地提交作业。

• 定制模板:用户可创建自己的作业模板来为其他 HPC 和 AI 应用程序提供支持。

• 作业管理和监控:用户可直接查看和管理作业的状态和结果。支持多种常用调度程序和丰富的作业类型(包括 AI 作业,如 TensorFlow 和 Caffe)。

• E2E 训练:用户可在不撰写代码的情况下训练图片分类模型。LiCO 还为训练提供 E2E 支持,如数据集管理、网络拓扑管理和预训练模型管理。

• 用户管理和计费:LiCO 通过同一个界面管理本地用户和域用户。它支持用户充值和退款,还可以设置计费组和费用。

• 定制:支持各种定制,如企业作业模板定制、报告定制和 3D 服务器可视化。

• 容器镜像管理:LiCO 为支持的每种 AI 框架提供系统容器镜像。用户可上传专用图片和对其运行 AI 或 HPC 作业。

• 专家模式:LiCO 提供用于提交和管理作业的命令行工具。专家用户可通过其他 shell 登录到登录节点并执行命令。

术语

• 计算机集群:通常指的是服务器资源的集合,包括管理节点、登录节点和计算节点

• 作业:为了完成特定任务按顺序执行的一系列命令

• 作业状态:调度系统中的作业状态,如正在等待、队列、保持、运行中、已冻结和已完成

• 节点状态:节点的状态,如空闲、忙碌或已关闭

• 作业调度系统:用于控制作业的接收、分发、执行和注册的分布式程序,也称为操作调度程序或简单调度程序

• 管理节点:集群中运行管理程序(如作业调度、集群管理和用户计费)的服务器

• 登录节点:集群中用户可通过 Linux 登录并执行操作的服务器

• 计算节点:集群中用于执行作业的服务器

• 用户组:系统已为其定义了访问控制策略的一组用户,目的是让同一用户组中的所有用户可以访问同一组集群资源

© Copyright Lenovo 2018, 2020 1

• 计费组:同一个账户下的一组待收费的集群用户,也称为计费账户。一个计费账户中可以包含一个用户,也可以包含多个用户

• NGC 镜像:适用于 Docker 的 NVIDIA 容器运行时,也称为 nvidia-docker。它支持基于 GPU且可在多个机器之间移植的应用程序。方法是使用 Docker 容器。

先决条件

LiCO 当前支持 Slurm 充当调度程序。本指南中的 Slurm 命令不适用于其他调度程序。

运行环境

集群服务器:

Lenovo ThinkSystem 服务器

操作系统

• CentOS / Red Hat Enterprise Linux(RHEL)7.7

• SUSE Linux Enterprise server(SLES)12 SP4

客户端要求:

• 硬件:2.0 GHz 或以上的 CPU,8 GB 或以上的内存

• 浏览器:建议使用 Chrome(V 62.0 或更高版本)或 Firefox(V 56.0 或更高版本)

• 显示器分辨率:1280 x 800 或更高

2 LiCO 5.5.0 管理员指南

第 2 章 管理员首页

用户可担任三种类型的角色:管理员、操作用户和普通用户。管理员可查看整个计算机集群和所有用户的信息。操作用户只能查看自己有权访问的资源,以及自己的信息。普通用户可执行作业和运行操作,如作业监控。

通过正确的管理员用户名和密码,您可以打开管理员首页。

左侧导航窗格中显示以下元素:

• HPC.com:集群名称。鼠标悬停在其上方时,将显示当前调度和文件服务状态。要编辑集群名称,可参阅《LiCO 安装指南》。

• 首页:显示基本集群信息的当前页面。

• 用户:供管理员对用户、用户组和计费组执行基本操作。

• 监控:提供用于监控 HPC 集群的功能。

• 报告:供管理员根据作业、警报或操作类型导出 Excel、PDF 或 HTML 格式的报告。

• 管理:供管理员查看 VNC、操作日志和系统日志。

• 设置:供管理员对队列执行操作,为 HPC 集群配置警报,以及管理通知组和通知接入。

右上角显示以下图标:

• :显示当前集群中未确认警报的数量。可单击此图标进入警报详细信息页面或开启或关闭警报声音。

• 可单击此图标查看当前用户信息,编辑当前用户密码,登出,或在用户角色之间切换。

© Copyright Lenovo 2018, 2020 3

登录管理员首页

步骤 1. 打开浏览器。

步骤 2. 输入集群登录节点’的 IP 地址,如 https://10.220.112.21。

步骤 3. 输入正确的管理员用户名和密码。

步骤 4. 单击登录。

将显示管理员首页。

切换角色

管理员拥有系统中的最高权限级别,因此可以切换为操作用户或用户角色,并且重定向至相应首页。

步骤 1. 在右上角单击 。将显示一个列表,供您选择要切换至的角色。

步骤 2. 单击要切换至的角色。

单击操作员将切换至操作员角色。

单击用户则切换至用户角色。

将显示操作员首页或用户首页。

获取当前版本信息

步骤 1. 将光标放在管理员主页右上角的 上方。随后将显示用于选择用户操作的列表。

4 LiCO 5.5.0 管理员指南

步骤 2. 单击 。随后将显示一个包含当前版本信息的页面。

步骤 3. 单击菜单项获取所需信息。

单击用户协议以获取用户协议。

单击第三方许可以获取第三方许可。

更改账户密码

步骤 1. 将光标放在管理员主页右上角的 上方。将显示用户信息对话框。

步骤 2. 单击 。随后将显示“更改密码”对话框。

第 2 章. 管理员首页 5

步骤 3. 输入当前密码,然后输入新密码两次。

步骤 4. 单击确定。

将更改您的密码。

集群状态视图

管理员首页显示整个集群的基本状态。可单击 最大化或最小化导航窗格。

集群概述页面中包含以下元素:

6 LiCO 5.5.0 管理员指南

元素 描述

CPU 服务器集群中的 CPU 利用率,表示为正在使用的 CPU 核心数量占集群中的 CPU 集群总数的百分比

GPU 服务器集群中的 GPU 利用率,表示为正在使用的 GPU 核心数量占集群中的 GPU 集群总数的百分比

内存 集群中的内存使用情况,以及集群中的已用内存量和内存总大小

共享存储 集群中的存储使用情况,以及集群中的已用存储量和存储总量

网络 服务器集群中的网络容量,包括读取速度和写入速度

节点数量 计算机集群中已开机或已关机的计算机数量

节点状态 计算机集群中的节点的使用状态,包括“忙碌”、“空闲”、“关机”。确定节点使用情况的主要基础是该节点上正在运行一个或多个作业。

作业 正在运行或等待的作业的名称和运行时间。

作业状态 有关作业的过去信息,包括运行中的作业数量,等待中的作业数量和已完成作业数量。管理员可选择显示所有队列中的作业数量还是特定队列中的作业数量。可用显示可选项的时间形式包括最近 1 小时、过去一天、最近 7 天和最近30 天。可用显示可选项的作业类型形式包括未完成作业和已完成作业。

消息 显示 Web 系统的最近操作日志。如果将光标放在左侧导航窗格中的集群名称上方,将显示当前调度和文件服务状态。

调度程序和并行系统的运行状况通过下面的颜色编码系统表示。

调度程序:绿色表示调度程序工作正常;红色表示调度程序工作不正常。

文件服务:绿色表示文件服务工作正常;红色表示文件服务工作不正常。

集群警报消息

如果触发了警报,主页右上角中的 符号将生成红色数字提示,并显示未确认警报的当前数量。

要查看全部警报信息,请将光标放在 上方,然后单击所显示信息框中的全部查看。要访问此警报信息页面,也可以从左侧导航窗格中选择监控 ➙ 警报。

在此信息框中,还可以选择打开还是关闭声音。打开警报声音之后,每个新警报都会触发声音。

第 2 章. 管理员首页 7

8 LiCO 5.5.0 管理员指南

第 3 章 用户管理

用户构造有三种:用户组、用户和计费组(或计费账户),如下表中的描述。

用户构造 描述

用户组 HPC 集群中具有相似队列访问权限的用户组。

用户 HPC 集群中的用户的列表。

计费组 计费账号,可供一位或多位用户使用。当计费组的成员运行集群中的应用程序时,将根据所用 CPU 核心数量和运行该应用程序的时间量扣除计费账户中的余额。

折扣 用户或用户组的计费折扣。

用户组(使用 LDAP)

从左侧导航窗格中选择用户管理 ➙ 用户组进入用户组管理页面。

创建用户组

系统初始化期间,将自动创建一个用户组(其默认名称为 default_os_group)。但是,建议管理员创建新的用户组。

步骤 1. 在用户组管理页面上,单击新建。随后将显示“新建用户组”对话框。

步骤 2. 为用户组输入唯一的名称。

© Copyright Lenovo 2018, 2020 9

步骤 3. 单击确定。

将创建一个新用户组。

删除用户组

管理员可删除现有用户组。

步骤 1. 在用户组管理页面上,找到要删除的用户组,然后单击同一行上的 图标。将显示一个对话框,请您确认删除。

步骤 2. 单击确定。

将从系统中删除此用户组。

注:删除用户组前,应先将用户移至新组。否则,这些用户将无法提交作业。

用户组(不使用 LDAP)

从左侧导航窗格中选择用户管理 ➙ 用户组进入用户组管理页面。

10 LiCO 5.5.0 管理员指南

注:管理员不能创建或删除用户组。

用户(使用 LDAP)

从左侧导航窗格中选择用户管理 ➙ 用户进入用户管理页面。

本节中的所有操作都在此页面中执行。

创建用户

系统初始化期间,将自动创建一个管理员账户(其默认名称为“hpcadmin”)。

步骤 1. 在用户管理页面上,单击新建。将显示“新建用户”对话框。

第 3 章. 用户管理 11

步骤 2. 填写此对话框中的信息。

• 用户名中只能包含小写字母、数字、下划线和减号。必须以字母开头。

• 密码应至少包含 10 个字符,其中至少包括一个大写字母、一个小写字母,一个特殊符号和一个数字。

步骤 3. 单击确定。

用户账户即已创建,并可用于登录。

批量导入用户

步骤 1. 单击用户管理页面上的批量导入。将显示“批量导入用户”对话框。

步骤 2. 单击浏览,然后选择其中包含有关要导入的用户的信息的文件。可单击示例文件进行参考,以帮助您准备用户信息文件。

步骤 3. 单击导入。

12 LiCO 5.5.0 管理员指南

将把此文件中的用户导入系统中。

成功导入用户账户之后,用户可登录。

导出用户

步骤 1. 单击用户管理页面上的导出。浏览器将显示一个对话框,询问您所需操作,并提供 CSV 格式的用户信息文件。

步骤 2. 指定位置,然后保存该 CSV 文件。

随后将导出所有用户的相关信息,并保存到 CSV 文件中。

编辑用户

管理员可更改用户信息,如角色、用户组、计费组和电子邮件地址。

步骤 1. 在用户管理页面上找到要编辑的用户,然后选择操作 ➙编辑。将显示“编辑用户”对话框。

步骤 2. 更改此对话框中的信息。

步骤 3. 单击确定。

更改用户密码

管理员可更改操作用户或普通用户的密码,但不能更改其他管理员的密码。

步骤 1. 在用户管理页面中找到要更改其密码的用户,然后选择操作 ➙修改密码。将显示“修改用户密码”对话框。

第 3 章. 用户管理 13

步骤 2. 输入新密码并确认。

步骤 3. 单击确定。

将更改用户密码。

删除用户

管理员可删除现有用户。

步骤 1. 找到要删除的用户,然后选择操作 ➙ 删除。将显示“删除用户”对话框。

14 LiCO 5.5.0 管理员指南

步骤 2. 单击确定。

该用户将被删除。

冻结用户

管理员可冻结操作员或普通用户的账户,但不能冻结其他管理员的账户。

步骤 1. 找到要冻结的用户账户,然后选择操作 ➙ 冻结。将显示“冻结账户”对话框。

第 3 章. 用户管理 15

步骤 2. 根据需要输入冻结时间。

步骤 3. 单击确定。

将在您指定的时间内冻结该用户账户。

恢复用户

管理员可解冻已冻结的操作员用户或普通用户。

步骤 1. 找到要恢复的已冻结用户,然后选择操作 ➙ 恢复。将显示“解冻账户”对话框。

步骤 2. 单击确定。

将解冻已冻结的用户。

浏览用户详细信息

找到要浏览其详细信息的用户,然后选择操作 ➙ 详细信息。

将显示用户详细信息页面。

16 LiCO 5.5.0 管理员指南

用户(不使用 LDAP)

可从左侧导航窗格中选择用户管理 ➙ 用户进入用户管理页面。

本节中的所有操作都在此页面中执行。

导入用户

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 用户。将显示“用户”页面。

步骤 2. 单击导入。将显示“导入用户”对话框。

第 3 章. 用户管理 17

步骤 3. 根据需要填写信息。

步骤 4. 单击确定。

系统将导入用户账户。

成功导入用户账户之后,用户可登录。

批量导入用户

步骤 1. 单击用户管理页面上的批量导入。将显示“批量导入用户”对话框。

步骤 2. 单击浏览,然后选择其中包含有关要导入的用户的信息的文件。可单击示例文件进行参考,以帮助您准备用户信息文件。

步骤 3. 单击导入。

将把此文件中的用户导入系统中。

成功导入用户账户之后,用户可登录。

导出用户

步骤 1. 单击用户管理页面上的导出。浏览器将显示一个对话框,询问您所需操作,并提供 CSV 格式的用户信息文件。

步骤 2. 指定位置,然后保存该 CSV 文件。

随后将导出所有用户的相关信息,并保存到 CSV 文件中。

编辑用户

管理员可更改用户信息,如角色、用户组、计费组和电子邮件地址。

步骤 1. 在用户管理页面上找到要编辑的用户,然后选择操作 ➙编辑。将显示“编辑用户”对话框。

18 LiCO 5.5.0 管理员指南

步骤 2. 更改此对话框中的信息。

步骤 3. 单击确定。

更改用户密码

管理员可更改操作用户或普通用户的密码,但不能更改其他管理员的密码。

步骤 1. 在用户管理页面中找到要更改其密码的用户,然后选择操作 ➙修改密码。将显示“修改用户密码”对话框。

步骤 2. 输入新密码并确认。

步骤 3. 单击确定。

将更改用户密码。

第 3 章. 用户管理 19

删除用户

管理员可删除现有用户。

步骤 1. 找到要删除的用户,然后选择操作 ➙ 删除。将显示“删除用户”对话框。

步骤 2. 单击确定。

该用户将被删除。

冻结用户

管理员可冻结操作员或普通用户的账户,但不能冻结其他管理员的账户。

步骤 1. 找到要冻结的用户账户,然后选择操作 ➙ 冻结。将显示“冻结账户”对话框。

20 LiCO 5.5.0 管理员指南

步骤 2. 根据需要输入冻结时间。

步骤 3. 单击确定。

将在您指定的时间内冻结该用户账户。

恢复用户

管理员可解冻已冻结的操作员用户或普通用户。

步骤 1. 找到要恢复的已冻结用户,然后选择操作 ➙ 恢复。将显示“解冻账户”对话框。

步骤 2. 单击确定。

将解冻已冻结的用户。

浏览用户详细信息

找到要浏览其详细信息的用户,然后选择操作 ➙ 详细信息。

将显示用户详细信息页面。

第 3 章. 用户管理 21

计费组

管理员可通过 LiCO 以轻松、整合的方式管理用户计费组。

系统初始化期间,将创建默认计费组“default_bill_group”。建议管理员根据需要创建新的计费组。

新建计费组

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 计费组。将显示“计费组”页面。

步骤 2. 单击创建。将显示“新建计费组”对话框。

22 LiCO 5.5.0 管理员指南

步骤 3. 填写必填信息。

• 名称:计费组的名称,必须是唯一的。

• CPU 计费率:每单位时间使用一个 CPU 内核的费用。计费率可以按小时或分钟设置,使用 CPU 内核的实际时间以秒为单位。

• 内存计费率:每单位时间使用 1 MB 内存的费用。内存使用量的计费基于使用的最大内存。计费率可以按小时或分钟设置,使用内存的实际时间以秒为单位。

• 一般资源计费率:配置的一般资源(例如 GPU)的计费率。

• 初始金额:创建计费组时账户中的金额。

• 描述:计费组的描述。

步骤 4. 单击确定。

编辑计费组及其队列策略或存储策略

可以在计费组的详细信息页面上编辑计费组及其队列策略或存储策略,可在该页面中执行以下操作:

• 第 24 页 “编辑计费组”

• 第 24 页 “创建队列策略”

• 第 25 页 “更新队列策略”

• 第 26 页 “删除队列策略”

• 第 26 页 “创建存储策略”

• 第 27 页 “更新存储策略”

• 第 27 页 “删除存储策略”

访问计费组的详细信息页面可使用计费组的详细信息页面创建,更新或删除计费组的队列策略或存储策略。

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 计费组。将显示“计费组”页面。

步骤 2. 单击要查看其详细信息的计费组的名称。将显示计费组详细信息页面,可在此页面中创建,更新或删除队列策略或存储策略。

第 3 章. 用户管理 23

编辑计费组步骤 1. 在计费组详细信息页面中,单击默认策略部分中的编辑。

将显示“编辑计费组”对话框。

步骤 2. 根据需要编辑此对话框中的参数。

步骤 3. 单击确定。

创建队列策略可以在计费组的详细信息页面上创建队列策略。如果创建了队列策略,将根据配置的队列策略计算此计费组中的用户因使用队列而产生的费用。

步骤 1. 在计费组详细信息页面中,单击队列策略部分中的创建。将显示“创建队列策略”页面。

24 LiCO 5.5.0 管理员指南

步骤 2. 填写必填信息。

队列:可以单击添加以添加多个队列。

有关其他描述的说明,请参阅第 22 页 “新建计费组”。

步骤 3. 单击确定。

更新队列策略可以在计费组的详细信息页面上更新队列策略。

步骤 1. 在计费组详细信息页上队列策略中,找到要更新的队列策略,然后选择操作 ➙更新。将显示“更新队列策略”页面。

步骤 2. 根据需要编辑参数。

步骤 3. 单击确定。

第 3 章. 用户管理 25

删除队列策略可以在计费组的详细信息页面上删除队列策略。

步骤 1. 在计费组详细信息页上队列策略中,找到要删除的队列策略,然后选择操作 ➙删除。将显示“删除队列策略”页面。

步骤 2. 单击确定。

创建存储策略限制,LiCO 支持使用存储策略进行计费对分布式通用并行文件系统 (GPFS) 计费。可以在计费组的详细信息页面上创建存储策略。

步骤 1. 在计费组详细信息页面中,单击存储策略部分中的创建。将显示“创建存储策略”页面。

步骤 2. 填写必填信息。

• 存储:要为其付费的文件系统的名称。可以单击添加以添加多个文件系统。

• 存储计费率:每天使用 1 GB 存储的费用。

步骤 3. 单击确定。

26 LiCO 5.5.0 管理员指南

更新存储策略可以在计费组的详细信息页面上更新存储策略。

步骤 1. 在计费组详细信息页上存储策略中,找到要更新的存储策略,然后选择操作 ➙更新。将显示“更新存储策略”页面。

步骤 2. 根据需要编辑参数。

步骤 3. 单击确定。

删除存储策略可以在计费组的详细信息页面上删除存储策略。

步骤 1. 在计费组详细信息页上存储策略中,找到要删除的存储策略,然后选择操作 ➙删除。将显示“删除存储策略”页面。

步骤 2. 单击确定。

删除计费组

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 计费组。将显示“计费组”页面。

第 3 章. 用户管理 27

步骤 2. 找到要删除的计费组,然后选择操作 ➙ 删除。将显示“删除计费组”对话框。

步骤 3. 单击确定。

拷贝计费组

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 计费组。将显示“计费组”页面。

步骤 2. 找到要拷贝的计费组,然后选择操作 ➙ 拷贝。将显示“拷贝计费组”对话框。

步骤 3. 填写必填信息。

28 LiCO 5.5.0 管理员指南

• 名称:计费组的名称,必须是唯一的。

• 初始金额:新拷贝计费组的账户中的金额。

步骤 4. 单击确定。

为计费组存入/提取资金

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 计费组。将显示“计费组”页面。

步骤 2. 找到要为其存入或提取资金的计费组,然后选择操作 ➙账户操作。将显示“计费组账户操作”对话框。

步骤 3. 从操作下拉列表选择存入或提取,然后填写金额。

步骤 4. 单击确定。

折扣LiCO 的折扣功能供管理员为用户和用户组设置折扣。如果同时为特定用户及其所属用户组设置了折扣,则以为该用户设置的折扣为准。

创建用户折扣

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

第 3 章. 用户管理 29

步骤 2. 在左窗格的左上角,单击创建。随后将显示“创建用户折扣”对话框。

步骤 3. 填写必填信息。

• 折扣:折扣系数。最终成本 = 总成本 x 折扣。折扣可以设置为大于 1 的值,这意味着需要的成本高于实际成本。

• 用户:可以单击添加以添加多个用户。

步骤 4. 单击确定。

编辑用户折扣LiCO 支持修改为现有用户折扣配置的用户或折扣系数。

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

步骤 2. 找到要编辑的用户折扣,然后执行以下任一操作:

a. 如果要更新用户信息,请选择操作 ➙ 编辑用户。将显示“编辑用户折扣”对话框。

30 LiCO 5.5.0 管理员指南

b. 如果要更新折扣系数,请选择操作 ➙ 编辑折扣。将显示“编辑用户折扣”对话框。

步骤 3. 根据需要编辑信息。

步骤 4. 单击确定。

删除用户折扣

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

步骤 2. 找到要删除的折扣,然后选择操作 ➙ 删除。将显示“删除用户折扣”对话框。

步骤 3. 单击确定。

第 3 章. 用户管理 31

创建用户组折扣

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

步骤 2. 在右窗格的左上角,单击创建。随后将显示“创建用户组折扣”对话框。

步骤 3. 填写必填信息。

• 折扣:折扣系数,必须为 0 到 1 之间的数字。最终成本 = 总成本 x 折扣。

• 用户组:可以单击添加以添加多个用户组。

步骤 4. 单击确定。

编辑用户组折扣LiCO 支持修改为现有用户折扣配置的用户组或折扣系数。

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

步骤 2. 找到要编辑的用户组折扣,然后执行以下任一操作:

a. 如果要更新用户组信息,请选择操作 ➙ 编辑用户组。

32 LiCO 5.5.0 管理员指南

随后将显示“编辑用户组折扣”对话框。

b. 如果要更新折扣系数,请选择操作 ➙ 编辑折扣。随后将显示“编辑用户组折扣”对话框。

步骤 3. 根据需要编辑信息。

步骤 4. 单击确定。

删除用户组折扣

步骤 1. 从左侧导航窗格中选择用户管理 ➙ 折扣。将显示“折扣”页面。

步骤 2. 找到要删除的折扣,然后选择操作 ➙ 删除。随后将显示“删除用户组折扣”对话框。

步骤 3. 单击确定。

第 3 章. 用户管理 33

某些用户操作失败的解决方案

在以下情况下,某些用户操作可能会失败:

• 集群的服务器节点上存在网络问题。

• 在集群的服务器节点上的操作系统中创建了同名的用户组或用户账户。

• 集群的服务器节点上的操作系统中用户组或用户账户信息之间不一致。

• Slurm 运行不正常。

可根据上面的失败使用以下解决方案:

1. 确保网络连接正常,并且可以在所有服务器节点中不使用密码访问根账户。

2. 删除所有失败用户组、计费组和用户账户,并重新创建这些账户。

3. 若需技术支持,请联系 Lenovo 专业服务。

34 LiCO 5.5.0 管理员指南

第 4 章 显示器

从左侧导航窗格中选择监控。将显示以下子可选项:

• 列表视图:显示有关集群中的所有节点的详细信息,可供用户对该集群中的节点执行相应操作

• 物理视图:根据集群中所有机器的物理位置显示详细的节点信息

• 分组视图:根据集群中所有节点的功能显示有关组节点的详细信息

• GPU 视图:根据集群中所有组节点的功能显示有关每个 GPU 的监控信息

• 作业:显示集群中的当前作业的运行状态

• 报警列表:显示触发的警报的详细信息和管理这些警报的状态

• 操作列表:显示所有操作更改的日志

列表视图

“列表视图”页面中以列表形式显示集群中所有节点的信息,如下所示:

“列表视图”页面中参数的描述如下:

• 主机名:表示节点的主机名。

• 状态:表示节点的状态,可以是“空闲”、“忙碌”或“已关闭”。

• 运行状况:表示节点的运行状况,可以是“正常”、“警告”、“紧急”、“失败”或“未知”。运行状况信息来自 BMC 硬件运行状况。可以在“详细信息”页面上单击主机名获取更多详细信息。

• 电源:表示电源已开启还是已关闭。

• 类型:表示节点的类型,可以是 compute、head、login、I/O 和用户定义的其他类型。

• BMC IP:表示 head 模块 BMC 的 IP 地址。

• OS IP:表示节点的地址。

© Copyright Lenovo 2018, 2020 35

• 硬件配置:表示每个节点上的 CPU 核心数 / 每个节点上的内存总量 / 每个节点上的 GPU 数(如果无 GPU,则不显示 GPU 部分)。

• 分组:表示节点当前所属组。

• 操作:操作包括“远程控制台”、“操作系统 SSH”,“启动”、“启动设置”、“启动网络”和“启动介质”。

物理视图

“物理视图”页面显示服务器机房信息,包括机房名称和位置、节点数,以及总能耗,并提供机架数和节点位置的图形视图,如下所示。

用户可通过单击机架查看有关机架的详细信息,包括:

• 机架名称

• 机架位置(相对服务器机房)

• 机架上的节点总数

• 机架的总能耗

36 LiCO 5.5.0 管理员指南

用户可通过单击机架中的节点查看有关所选节点的详细信息。

用户可通过单击机架上方的图标切换显示温度、能耗、CPU/负载、内存利用率、硬盘利用率、网络吞吐量和作业。

分组视图

在“分组视图”页面上中,有关集群中所有节点的信息按逻辑分组排序。单击左上角的“选择组”下拉列表框,然后选择要显示的组,如下所示。

第 4 章. 显示器 37

“分组视图”页面提供以下监控类型:

• 列表:此组中所有节点的列表,其功能类似第 35 页 “列表视图”

• 趋势:显示组的趋势图,其中包括负载、CPU、内存、硬盘、网络、能耗、温度和作业使用情况

• 热图:显示热图,其中包括组中所有节点的负载、CPU、内存、硬盘、网络、能耗、温度和作业使用情况

GPU 视图

“GPU 视图”页面根据集群中所有节点的逻辑分组显示有关组中节点的 GPU 信息。单击“GPU视图”左上角的组可选项,如下所示。

此界面以图形格式显示组的实时 GPU 数据,可供用户在 GPU 利用率、内存和温度之间切换。图中的每个帧代表一个节点,并在帧的右上角显示该节点的名称。每个帧内的柱形表示一个 GPU,柱形的蓝色部分表示监控的值。柱形顶部的橙色部分描述正在使用该 GPU。用户可使用右上部分中的滑块调整柱形的颜色,以便筛选和突出显示指定数值范围内的 GPU。选择滑块右侧的颜色反转复选框将切换用于标注所指示范围内外的颜色。

作业

“作业”页面显示作业信息和状态,以及当前集群中运行的作业,如下所示。

38 LiCO 5.5.0 管理员指南

可通过改变列表顶部的条件筛选列表中的作业,其中包括:

• 队列:可筛选系统中运行的队列。

• 提交用户:可根据提交作业的用户筛选作业。可通过单击作业列表中的用户名查看该用户提交的所有作业。

• 状态:可选择运行中、等待中或已完成。LiCO V5.3.0 及更高版本支持取消状态为运行中或等待中的作业。要取消作业,请选择操作 ➙ 取消。

• 提交时间:按提交时间筛选作业。可选择最近 1 个月、最近 3 个月、最近 6 个月或全部。

在作业列表中,调度程序 ID 指示作业在调度程序中的 ID。可单击调度程序 ID 来查看调度程序中的详细作业信息,如下图所示:

报警列表

“报警列表”页面显示所有已触发警报规则的警报信息,如下所示。

第 4 章. 显示器 39

所示信息包括:

• ID:警报规则对应的警报 ID

• 名称:警报规则对应的警报名称

• 等级:致命、严重、警报或信息

• 状态:未确认、已确认或已解决

• 时间:触发警报的时间

• 选择日期:选择用于筛选警报的开始时间和结束时间,或选择 1 天、7 天或 30 天以查看从当前时间起往后的指定期间的警报。

• 节点:警报规则对应的受监控节点。当发生 GPU 警报时,GPU 序列号将增加。例如,node1:gpu0。

• 备注:警报注释

• 操作:确认、解决或删除。

警报事件分为当前事件和所有事件。当前事件仅包括未确认的事件,而所有事件包括已确认的事件。

警报事件信息包括:

• 序列号:警报事件的唯一 ID

• 报警名称:警报策略对应的名称

• 报警等级:相应警报策略的等级

• 状态:警报的当前状态:未确认、已确认或已解决

• 报警时间:警报发生的时间

• 报警节点:出现警报的节点名称

• 备注:管理员对警报的描述

警报信息可通过在页面顶部选择条件进行筛选,而且有多个状态和等级可选。警报信息可按时间筛选,如最近一天、最近三天、最近一周和最近一个月,也可手动设置时间条件,包括开始时间和结束时间。

40 LiCO 5.5.0 管理员指南

用户可通过单击操作列表中相应的按钮对所选节点执行操作,也可直接选择节点,然后单击“确认”、“解决”或“删除”进行操作。用户还可选择“操作全部”以对所有警报消息执行同一操作。操作定义如下:

• 确认:适用于未确认的警报。确认后,首页右上角即不会显示警报提醒,在执行操作后,状态将改为“已确认”。

• 解决:适用于未确认和已确认的警报。管理员处理警报后,可执行此操作,并且状态将改为“已解决”。

• 删除:适用于未确认、已确认和已解决的警报。警报删除之后将不会显示在列表中。

操作列表

“操作列表”页面记录所有用户针对系统中的所有目标执行的操作,如下所示。

操作监控页面显示以下要素:

• 操作用户:操作信息所属操作用户账户

• 模块:操作的模块,如用户或作业

• 操作:操作的特定命令,如创建或删除

• 目标:操作的目标,如用户或节点

• 时间:目标操作发生的时间

将根据筛选条件在页面顶部显示信息。可从下拉列表中选择“操作用户”以查看操作员信息。在“目标/动作”下拉列表中,用户可按目标和操作筛选操作信息。可按时间筛选警报信息,如最近一天、最近三天、最近一周和最近一个月,也可手动设置时间条件,包括开始时间和结束时间。

操作监控中记录以下目标/动作信息:

• 用户:创建、更新、删除

• 作业:创建、重新运行、取消、删除

• 节点:开机、关机

第 4 章. 显示器 41

• 报警列表:确认、解决、删除、备注

• 策略:创建、更新、删除

• 计费组:创建、更新、删除

• 计费账户:充值、扣费

42 LiCO 5.5.0 管理员指南

第 5 章 报告

报告分以下几种类型:

• 第 43 页 “作业报告”:作业、用户和计费组的统计信息和详细信息

• 第 43 页 “费用报表”:作业和存储的计费统计信息,以及用户消费排名

• 第 44 页 “集群报告”:有关集群作业运行状态的统计信息

• 第 46 页 “报警报告”:警报统计信息和详细信息

• 第 47 页 “利用率报告”:节点的运行状态、已连接用户、用户登录状态和用户存储统计信息

作业报告

在“作业报告”页面,管理员可获取作业相关报告。

报告筛选器包括:

• 数据类型:按作业、用户或计费组筛选。

• 时间:支持预定义和自定义时间段,最长不超过一年。

注:1 天、7 天或 30 天:表示最近 1 天、最近 7 天或最近 30 天。

• 筛选用户:筛选所选用户。

预览功能包括:

• 作业报告预览:支持条形图和表格。

• 用户报告预览:支持饼图、条形图和表格。

• 详细信息:饼图和条形图为默认设置,但用户还可以表格形式显示数据。单击饼图右侧以刷新当前用户/计费组作业数据。

• 计费组报告预览:支持饼图、条形图和表格。

报告导出功能包括:

• 内容:支持导出统计数据和详细数据。

• 报表格式:支持 Excel、PDF 和 HTML。

费用报告

在“费用报告”页面,管理员可获取费用相关报告。

© Copyright Lenovo 2018, 2020 43

报告筛选器包括:

• 时间:支持预定义和自定义时间段,最长不超过一年。

注:1 天、7 天或 30 天:表示最近 1 天、最近 7 天或最近 30 天。

• 筛选用户:根据所选用户名或计费组筛选用户。

预览功能包括:

• 资源:显示 CPU、内存、存储和一般资源的计费统计信息。一般资源通常包括 GPU、FPGA等。

• 队列:显示所有队列中的作业的计费统计信息,但不包括存储计费统计信息。

• 排行:按计费统计信息显示排名前十的用户,并按降序排列。

• 趋势:显示当前显示时间范围内的日计费统计信息。可以水平拖动滚动条以更改显示的时间范围。

集群报告

“集群报告”页面从各个维度分析一段时间内集群作业的运行状态。

44 LiCO 5.5.0 管理员指南

报告筛选器包括:

• 时间:支持预定义和自定义时间段,最长不超过一年。

注:1 天、7 天或 30 天:表示最近 1 天、最近 7 天或最近 30 天。

• 筛选用户:根据所选用户名或计费组筛选用户。

• 队列:过滤选定的调度程序队列。

• 排队作业阈值:将把队列时间大于或等于该阈值的作业视为排队工作,把其他作业视为未排队作业。

第 5 章. 报告 45

预览功能包括:

• 摘要:显示的信息包括已完成作业和排队作业的数量,排队作业百分比,已完成作业的最大和平均执行时间,以及排队作业的最大和平均排队时间。

• 资源:显示 GPU、FPGA 和 CPU 内核之类资源的最大和平均使用量,以及与这些资源关联的作业的数量。

• 趋势:显示一个折线图,以显示每天的未排队作业数和排队作业数的趋势。

• 时间段:显示一个条形图,以显示集群作业在不同时间段内的运行状态。

– 按一天内的小时:将一天分为 12 个时间段,每个时间段包含两个小时。将作业根据作业提交时间点分为不同段,并显示每个时间段的平均排队作业数和平均未排队作业数。

– 按一周中的天:根据作业提交时的天为作业分组。将显示每天的平均排队作业数和平均未排队作业数。

• 时间分布:显示一个折线图,以显示作业的运行时间,其中 X 轴为作业运行时间,Y 轴为作业数。

• 资源分布:显示一个折线图,以显示作业的特定资源使用量,其中 X 轴表示特定资源(如 CPU内核和通用资源)的使用量,Y 轴表示使用该资源的作业数。

报警报告

在“报警报告”页面,管理员可获取警报相关报告。支持预定义和自定义时间段,最长达一年。

可单击预览查询以直接预览警报数据,可以饼图、条形图或表格形式显示。

还可单击导出报表,然后在所示“导出”对话框中设置筛选器,以导出报警报告,如下所示。

46 LiCO 5.5.0 管理员指南

“导出”对话框中的参数描述如下:

• 内容:支持导出统计数据或详细数据。

• 风险等级:支持全部、紧急、错误、警告或信息

• 报表格式:支持 Excel、PDF 和 HTML。

注:设置筛选器和报告格式后,单击确定即可导出报告。

利用率报告

在“利用率报告”页面,管理员可获取操作相关报告,如下所示。

报告筛选器包括:

• 数据:支持 CPU、内存和网络上的数据。

• 筛选节点:筛选所选节点。单击选择,然后在节点字段中输入节点名称,并使用逗号(,)分隔多个节点名称。

可单击预览查询以在图表中预览筛选出的数据。

还可单击导出报表,然后在所示“导出”对话框中设置报告格式,以导出操作报告,如下所示。

注:设置报告格式后,单击确定即可导出报告。

第 5 章. 报告 47

48 LiCO 5.5.0 管理员指南

第 6 章 管理员

登录后,管理员可在左侧导航窗格中单击管理以访问容器镜像、账单、VNC、操作日志或系统日志。

容器镜像LiCO 可以在一个容器内运行所有 AI 作业。此系统支持 Singularity 容器平台,并且可以在不同容器镜像上运行不同 AI 作业模板。管理员可使用此功能管理系统镜像。

从左侧导航窗格中选择管理 ➙ 容器镜像进入镜像管理页面。

“容器镜像”页面中参数的描述如下:

• 名称:自定义镜像名称

• 框架:镜像所属的框架

• 类型:镜像的类型。值为系统表示镜像由系统管理员创建。

• 版本:自定义镜像版本

• 标记:自定义镜像标记

• 操作:对镜像的操作,可以是编辑、查看、删除、下载或重新上传。

创建镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 单击创建。将显示创建镜像对话框。

© Copyright Lenovo 2018, 2020 49

步骤 3. 填写必填信息。

• 名称:自定义镜像名称

• 源文件:所选的镜像文件,必须为 Singularity 镜像文件。否则,将无法创建镜像。

• 另存为:镜像文件的名称。请确保存储路径中没有名称相同的镜像文件。

步骤 4. 单击确定。

编辑镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 找到要编辑的镜像,然后选择操作 ➙ 编辑。将显示“编辑镜像”对话框。

50 LiCO 5.5.0 管理员指南

步骤 3. 根据需要编辑镜像信息。

步骤 4. 单击确定。

查看镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 找到要查看其信息的镜像,然后选择操作 ➙ 查看。随后将显示“镜像信息”窗口。

信息的描述如下:

• 镜像路径:容器镜像的绝对路径。您可以在作业文件中使用此路径。

• 描述:容器镜像的描述。如果未填写描述,则不会显示此信息。

第 6 章. 管理员 51

删除镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 找到要删除的镜像,然后选择操作 ➙ 删除。将显示“删除镜像”对话框。

步骤 3. 单击确定。

下载镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 找到要下载的镜像,然后选择操作 ➙ 下载。随后将显示“下载镜像”对话框。

步骤 3. 单击浏览,然后选择要保存该容器镜像的文件夹。请确保存储路径中没有名称相同的镜像文件。

步骤 4. 单击确定。

52 LiCO 5.5.0 管理员指南

重新上传镜像

步骤 1. 从左侧导航窗格中选择管理 ➙ 容器镜像。将显示“容器镜像”页面。

步骤 2. 找到要重新上传的镜像,然后选择操作 ➙ 重新上传。随后将显示“重新上传镜像”对话框。

步骤 3. 单击浏览,然后选择要上传的新镜像文件。

步骤 4. 单击确定。

账单LiCO 5.5.0 及更高版本可以向管理员收取作业和存储实例的费用。管理员可以下载他们在系统上自动生成的日摘要账单和月摘要账单。

从左侧导航窗格中选择管理 ➙ 账单。

这样会显示账单下载页面。

提供了以下账单类型:

• 日账单

日账单供管理员查看每个用户在特定日期的账单信息。

第 6 章. 管理员 53

• 月账单

月账单供管理员查看每个用户在特定月份的账单信息。本月的账单在下月生成。

VNC

VNC 页面显示集群中计算节点的 VNC 会话信息,用户可在此打开 VNC。

运行特定作业需要支持 VNC。运行作业之前,请创建 VNC 会话。作业完成后请删除此 VNC 会话。

以下是 VNC 作业文件示例:

cat Job.pbs

#!/bin/bash

#PBS -N short

#PBS -q batch

#PBS -j oe

#PBS -l nodes=2:ppn=4

cd /share/users_root/user1

echo current job id is $PBS_JOBID >> /share/users_root/user1/$PBS_JOBID.log

echo job start time is `date` >> /share/users_root/user1/$PBS_JOBID.log

echo `hostname` >> /share/users_root/user1/$PBS_JOBID.log

session=`vncserver 2>&1`

sessionid=`echo "$session"| grep "^New"| awk -F ":" '{print $3}'`

echo "vncsession $sessionid is created" >> /share/users_root/user1/$PBS_JOBID.log

export DISPLAY=:$sessionid.0

./prog

vncserver -kill :$sessionid

echo job end time is `date` >> /share/users_root/user1/$PBS_JOBID.log

54 LiCO 5.5.0 管理员指南

注:可使用 LiCO 接口和命令行管理 VNC 会话。

在 Web 中管理 VNC 会话

VNC 页面实时显示所有 VNC 会话,包括 VNC 会话的创建者、节点、端口号、进程 ID 和索引。

要查看 VNC 会话,请选择 VNC 会话,然后在操作列中单击打开。

注:如果 VNC 会话已锁定,则仅会话创建者可查看此会话。

用户在每个节点只能有一个 VNC 会话。但是,在作业结束时如果没有删除 VNC 会话,则可能累积过多 VNC 会话。测试显示,用户在一个节点上可以有超过 20 个 VNC 会话,但是可能不允许用户新建 VNC 会话,因此应删除不必要的 VNC 会话。

要删除 VNC 会话,请在相应的操作行单击删除,然后在弹出的对话框中单击确认并提交。

使用命令行管理 VNC 会话

在集群节点,当前用户可在 VNC 服务器上创建会话。

步骤 1. 通过命令行切换到 LiCO 用户,然后输入目录 /home/lico_5.x/cluster_monitor_project。

步骤 2. 在运行 VNC 服务器的节点上,使用以下命令行启动 lico-vnc-slave:

# service lico-vnc-slave start

步骤 3. 将 /opt/lico/vnc-slave/etc/lico-vnc-slave.ini 中的 IP 地址更改为集群头节点的 IP 地址。根据情况可能需要执行此步骤,因为如若不执行,页面无法获取 VNC 信息。

在集群中的节点上,当前用户仅可执行以下操作:

• 查看其已在 VNC 服务器 -List 上创建的 VNC 会话

• 使用 VNC 服务器 -Kill 删除其已创建的 VNC 会话

• 使用命令 ps -ef|grep Xvnc 查看节点上的所有 VNC 会话,然后利用删除过程删除 VNC 会话(使用 kill 而非 kill-9)

使用以上命令行执行的操作的结果可能显示在 LiCO 页面。用户通过命令行删除的作业将在约 30秒后从 LiCO 页面消失。用户通过命令行已新建的会话将在约 30 秒后显示在 LiCO 页面。

操作日志

以管理员身份登录,然后从左侧导航窗格中选择管理 ➙操作日志。将显示“操作日志”页面,如下所示。

第 6 章. 管理员 55

要下载操作日志,请设置时间范围,然后单击下载。

系统日志

以管理员身份登录,然后从左侧导航窗格中选择管理 ➙系统日志。将显示“系统日志”页面,如下所示。

要下载系统日志,请单击下载。

56 LiCO 5.5.0 管理员指南

第 7 章 设置

在设置菜单中,用户可管理警报规则、警报通知组、通知适配器和警报触发脚本。

以管理员身份登录后,请从左侧导航窗格中选择设置,然后选择所需的子项。

调度程序

从左侧导航窗格中选择设置 ➙ 调度程序。

将显示“调度程序”页面,管理员可在此创建、编辑和删除队列,以及设置队列状态和设置节点状态。

本节中的所有操作都在此页面中执行。

创建队列

步骤 1. 在“调度程序”页面,单击新建。将显示“新建队列”对话框。

© Copyright Lenovo 2018, 2020 57

步骤 2. 填写必填信息。

• 队列:自定义队列名称

• 节点:表示要与此队列相关联的节点。可使用“lx [10-20]”等简易节点范围表达式指定多个节点名称。请注意,一个作业在任何时间仅可与一个队列相关联。

• 默认队列:指示无指定队列的作业是否要使用队列

• 优先级:提交至较高优先级队列的作业将比较低优先级队列中的暂挂作业先进行调度,如有可能,其将预先阻止运行较低优先级队列中的作业。请注意,队列的优先级将高于作业的优先级。最高优先级是 65533,最低优先级是 1。

• 最大时限:作业的最大运行时间。如果选中此框,时限将为“UNLIMITED”。否则需要输入时限,输入格式为“<天>-<小时>:<分钟>”。例如,“2-23:59”。

• 重复订阅:指定是否可由多个作业共享此队列中的计算资源(单个 CPU)。可能的值为“YES”、“NO”、“EXCLUSIVE”和“FORCE”。可选作业数指定可分配多少作业使用每个资源。

• 状态:指定作业是否可分配至节点或排入此队列。可能的值为“UP”和“DOWN”。编辑或设置队列状态时,该值也可能是“DRAIN”或“INACTIVE”。

– UP:表示新的作业可添加到队列中,并且作业可分配至节点并从队列中运行。

– DOWN:表示新的作业可添加至队列中,但是已排队作业不能分配至节点或从队列中运行。队列中已经在运行的作业将继续运行。这些作业必须显式取消以强制终止。

– DRAIN:表示不可在队列中添加新的作业(作业提交请求将遭拒,并收到一条错误消息),但已排入队列的作业可分配至节点并运行。

– INACTIVE:表示不可在队列中添加新的作业,并且已在队列中的作业不能分配至节点或运行。

步骤 3. 单击提交。

58 LiCO 5.5.0 管理员指南

编辑队列

步骤 1. 找到要编辑的队列,然后选择操作 ➙ 编辑。将显示“编辑队列”对话框。

步骤 2. 根据需要编辑队列信息。有关参数说明,请参阅第 57 页 “创建队列”。

步骤 3. 单击提交。

删除队列

步骤 1. 找到要删除的队列,然后选择操作 ➙ 删除。将显示“删除队列”对话框。

步骤 2. 单击提交。

第 7 章. 设置 59

设置队列的状态

步骤 1. 找到要更改状态的队列,然后选择操作 ➙ 设置队列状态。将显示“设置队列状态”对话框。

步骤 2. 设置队列状态。

步骤 3. 单击提交。

设置节点状态

步骤 1. 在“调度程序”页面单击设置节点状态。将显示“设置节点状态”对话框。

步骤 2. 填写必填信息。

• 节点:一个节点、多个节点或节点表达式

• 当前状态:表示上述一个或多个节点的当前状态

• 新的状态:要设置的状态。

报警策略

从左侧导航窗格中选择设置 ➙ 报警策略。

60 LiCO 5.5.0 管理员指南

在“报警策略”页面,管理员可查看当前集群的报警策略并添加、更新或删除警报规则,如下所示。

创建报警策略

步骤 1. 在页面左上角,单击创建。将显示“报警策略”对话框,如下所示。

步骤 2. 填写警报规则。报警策略必须包含以下信息:

• 报警名称:自定义报警名称

• 监控对象:LiCO 可监控有关 CPU 使用率、温度、GPU 使用率、GPU 温度、网络状态、存储使用率、能耗和硬件问题的警报。

• 条件:设置大于、小于或等于阈值的警报触发器。

• 持续时间:对某些受监控项目设置触发条件的持续时间。默认值为 60 秒。

• 风险等级:自定义风险等级,包括致命、严重、警告和信息

• 通知组:触发报警策略后通知一组或多组用户。

• 监控节点:填写要监控的一个或多个节点的名称。如果留空,则默认监控所有节点。

第 7 章. 设置 61

• 配置脚本:选择脚本以在触发警报后自动运行。

• 通知:开启微信通知和铃声通知。

• 状态:立即启动此警报策略。

步骤 3. 单击确定。

编辑报警策略

步骤 1. 找到要编辑的警报规则,然后选择操作 ➙ 编辑。将显示“编辑策略”对话框,如下所示。

步骤 2. 在对话框中编辑警报规则。

步骤 3. 单击确定。

删除报警策略

步骤 1. 找到要删除的报警策略,然后选择操作 ➙ 删除。将显示“删除策略”对话框。

62 LiCO 5.5.0 管理员指南

步骤 2. 单击确定。

通知组

通知组为触发警报时通知的用户组。

从左侧导航窗格中选择设置 ➙ 通知组。

随后将显示“通知组”页面,管理员可在此创建、编辑和删除通知组。

创建通知组

步骤 1. 在“通知组”页面左上角,单击新建。随后将显示“创建通知组”对话框。

步骤 2. 输入通知组的组名、邮件地址和手机号。

步骤 3. 单击确定。

第 7 章. 设置 63

新建通知组将显示在列表中。

编辑通知组

步骤 1. 找到要编辑的通知组,然后选择操作 ➙ 编辑。随后将显示“编辑通知组”对话框。

步骤 2. 编辑通知组信息。

步骤 3. 单击确定。

删除通知组

步骤 1. 找到要删除的通知组,然后选择操作 ➙ 删除。随后将显示“删除通知组”对话框。

步骤 2. 单击确定。

通知组已删除。

64 LiCO 5.5.0 管理员指南

通知

从左侧导航窗格中选择设置 ➙ 通知。

随后将显示“通知”页面,管理员可在此管理外部警报 API 的邮件、短信和微信配置,如下所示。

注:

• 单击右上角的 ON 或 OFF 按钮可开启或关闭警报 API。

• 单击底部的确认后,对这些设置的所有更改才会保存。

• 单击每个区域底部的测试可测试警报通知连接。

脚本

从左侧导航窗格中选择设置 ➙ 脚本。

将显示“脚本”页面,管理员可在此管理创建警报的脚本。脚本管理页面显示的脚本有自定义警报规则。显示的信息包括脚本名、文件大小和上传时间,如下所示。

注:

• 脚本位于 /var/run/lico/core/scripts 目录。您可以在 LiCO 配置文件中更改该目录。

• 出于安全考虑,此页面不支持将上传、更新或删除脚本。应使用后台平台执行这些操作。

许可证

从左侧导航窗格中选择设置 ➙ 许可证。

随后将显示“许可证”页面,其中提供了许可证详细信息。

第 7 章. 设置 65

“许可证”页面提供以下信息:

• 许可证:该许可证允许的插槽或 GPU 的数量

• 密钥:唯一许可证密钥

• 激活时间:激活该许可证的时间

• 服务:许可证的有效服务期限

• 客户:客户姓名

• 订单:订单号

• 区域:许可证的有效区域

注意:当集群资源超过许可证的限制时,请执行以下操作:

1. 联系 Lenovo 销售人员购买新许可证。

2. 将许可证文件复制到 /etc/lico 目录并替换现有的 lico.lic 文件。

3. 运行以下命令来重新启动 LiCO 服务:systemctl restart lico

66 LiCO 5.5.0 管理员指南

第 8 章 HPC 集群管理

大多数 HPC 功能可使用该接口来完成。但是,由于 HPC 集群管理十分复杂,某些更为复杂的操作需要使用命令行或其他工具。

查看 HPC 集群详细信息

步骤 1. 从左侧导航树中选择监控 ➙ 列表视图。将显示“列表视图”页面。

步骤 2. 查看 HPC 集群信息。所示信息包括:

• 主机名:集群主机名

• 状态:空闲、忙碌、关机

• 运行状况:“正常”、“警告”、“紧急”、“失败”、“未知”

• 电源:开机、关机

• 组别:计算、管理、登录、I/O 及其他用户定义的节点

• BMC IP:管理模块 XCC 的 IP 地址

• OS IP:节点的 IP 地址

• 硬件配置:每个节点上的 CPU 核数/每个节点上的总内存/每个节点上的存储总量/每个节点上的 GPU 数

• 分组:节点当前所属组

HPC 集群软件的远程管理

界面管理

在“列表视图”页面,单击节点列表中的 “BMC IP” 链接以打开 Lenovo XCC 管理模块接口并执行远程硬件管理,包括远程开机/关机开关、远程控制台和硬件配置。

输入用户名/密码(出厂默认值:USERID/PASSW0RD)以登录 XCC 管理界面。

详情请参阅《XCC 用户手册》:http://sysmgt.lenovofiles.com/help/index.jsp

© Copyright Lenovo 2018, 2020 67

命令行管理

选择所需的节点,然后单击 或控制台以打开所选节点的控制面板。

xCAT 管理

登录到管理节点并使用 xCAT 命令执行远程管理。

远程开/关命令 rpower:

rpower <noderange> [on|onstandby|off|suspend|reset|stat|state|boot]

# rpower c[01-03],d08 reset, Restart nodes c01,c02,c03,d08

# rpower c[01-03],d08 state, View the on/off status of nodes c01,c02,c03,d08

设置引导顺序命令 rsetboot:

rsetboot <noderange> [net|hd|cd|floppy|def|stat]

# rsetboot c[01-03],d08 net, Set nodes c01,c02,c03,d08 to boot from the network

节点硬件设备资产信息命令 rinv 远程视图:

节点硬件设备日志信息命令 reventlog 远程视图:

68 LiCO 5.5.0 管理员指南

更多命令方法,请见以下链接:http://sourceforge.net/p/xcat/wiki/XCAT_Commands/

并行命令

在 SSH 登录头节点上使用并行命令时,可在集群中的若干节点上批量执行以下操作:

并行命令 PSH: PSH Use: PSH 节点名称 shell 命令

节点名称可以常规方式表示,或用逗号隔开。例如,要在节点 c01,c02,c03,d08 上运行 LS 命令:

# psh c[01-03], d08 ls

并行文件拷贝 PSCP: PSCP Use: PSCP 源文件节点名称:/目标目录

节点名称可以常规方式表示,或用逗号隔开。例如,要从计算机中将 data.txt 文件拷贝到c01,c02,c03,d08 目录:

# pscp data.txt c[01-03], d08:/opt

作业调度命令

LiCO 支持生命周期操作,如上传文件或提交、取消、重新运行和删除作业。请参阅 LiCO 用户手册。

管理员可使用命令行执行更复杂的调度管理作业。

队列命令

队列管理包含查看、创建和修改队列。在队列管理中,当前用户需要登录头节点并使用 Slurm 调度程序命令行。

头节点 SSH 登录:

• 查看队列:

第 8 章. HPC 集群管理 69

[root@mgt /]# sinfo

• 创建队列:

1. 修改 Slurm 配置文件 /etc/slurm/slurm.conf,并添加以下内容:PartitionName=test Nodes=headnode, computenode1 Default=YES MaxTime=INFINITE State=UP

2. 重新启动 Slurm 相关服务:

– 在管理节点上:[root@mgt /]# systemctl restart slurmctld

– 在计算节点上:[root@mgt /]# systemctl restart slurmd

完成上述步骤后,可在接口上查看新建的队列。

可通过更改配置文件 /etc/slurm/slurm.conf 修改队列。步骤与创建队列的相同。通过 scontrol 显示分区查看队列参数。

更多队列管理命令,请参阅 http://slurm.schedmd.com/。

作业管理

可在 LiCO 接口上执行作业管理。管理员可查看作业并通过向调度程序发出命令对作业执行操作。

头节点 SSH 登录:

• 查看作业状态:[root@mgt /]# squeue -a

JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)

428 compute zhangtes testuser R 5:19 1 testcomputenode01

429 compute zhangtes testuser R 4:49 1 testcomputenode01

430 compute mnist-pa ls-test R 4:37 1 testcomputenode01

• 查看详细作业状态:[root@mgt /]# scontrol show jobs

• 使用 jobid 查看特定作业的详细状态:[root@mgt /]# scontrol show jobs 428

• 使用 jobid 取消运行中或队列中的作业:[root@mgt /]# scancel 428

更多作业管理命令,请参阅 http://slurm.schedmd.com/。

注:通过 Slurm 命令行提交的作业在 LiCO 系统上不会启动计费。

70 LiCO 5.5.0 管理员指南

附录 A 重要信息

重新启动 LiCO

如果 LiCO 无法正常运作,请重新启动。

• 停止服务:[root@mgt lico_5.x]# systemctl stop lico

• 启动服务:[root@mgt lico_5.x]# systemctl start lico

• 查看 LiCO 状态:[root@mgt lico_5.x]# systemctl status lico

LiCO 正常启动时,屏幕上将显示以下信息:

[root@mgt lico_5.x]# systemctl status lico

lico.service - lenovo hpc project

Loaded: loaded (/usr/lib/systemd/system/lico.service; disabled; vendor preset: disabled)

Active: active (running) since Thu 2017-11-02 16:48:05 CST; 3h 59min ago

Main PID: 381046 (lico)

LiCO 使用的端口

LiCO需要将计算节点的端口分配给某些AI 作业,端口范围在 /etc/lico/目录下的 job-manager.ini文件中定义。您可以通过编辑上述 job-manager.ini 文件中的 port_range 值来更改端口范围,此更改将通过重新启动 lico-job-manager 服务生效。

解析失败的作业提交

未正确配置 Slurm 调度程序可能导致在 LiCO 接口上提交作业失败。要检查失败的原因,请尝试以下建议:

• 使用 SSH 登录管理节点,然后使用命令行“cd”重新提交作业至当前用户目录,找到作业文件,通过 sbatch jobfile.slurm 提交作业,然后检查返回的错误消息。可能已超出资源限制。例如,作业需要的核数位 100 个,但集群中仅有 80 个。

• 在头节点上运行 Slurm 命令 sinfo,然后查看集群的计算节点状态和资源状态。

如果 sinfo 未返回任何结果,则表示调度节点中未添加任何节点。打开 /etc/slurm/slurm.conf,然后使用以下格式添加计算节点:NodeName=nodename CPUs=cores State=node status

添加之后,可能需要在头节点上重新启动 Slurm 服务,添加操作才会生效。

[root@mgt lico_5.x]# sysemctl restart slurmctld

如果 sinfo 显示某些节点已关机,请检查在已关机节点上是否启动了 Slurm 服务。

© Copyright Lenovo 2018, 2020 71

[root@mgt lico_5.x]# systemctl status slurmd

在管理节点上运行 Slurm 命令 scontrol show partition 以查看队列设置。

使用命令行管理用户导入

用于创建用户的参数

所需参数:

• -u username:需要用户名

• -r {user,operator,admin}:指定用户角色

可选参数:

• -b billgroup:指定用户的计费组。此组名必须已存在。

LiCO 用户管理操作

LiCO 用户管理操作包括:

• user_import

• user_export

• user_changerole

• user_resume

使用命令行查询资源使用情况

可以在根权限下运行命令 lico query_job_billing_records,以查询用户或用户组的资源使用情况。其使用以下参数:

参数 “必需”或“非必需” 描述

-s、--startdate 是 表示查询的开始日期,格式为YYYY-mm-dd。

-e、--enddate 是 表示查询的结束日期,格式为YYYY-mm-dd。

-f、--statistical_pattern 否 表示统计 pattern,可以是 user(默认值)或 group。

-n、--statistical_name 否 表示要查询的用户或用户组的名称。如果不指定该参数,将查询所有用户的统计信息。

-u、--unit 否 指定显示存储时所用单位。该值后面必须为 M 或 G,表示 MB或 GB。

-o、--output 否 将 CSV 文件导出到本地文件。可以接受带有绝对路径的文件名。

72 LiCO 5.5.0 管理员指南

参数 “必需”或“非必需” 描述

-a、--all 否 获取所有查询用户的作业数据。默认情况下,不显示没有作业的用户。

-h、--help 否 打印命令的帮助信息。

lico query_job_billing_records 的示例

• 查询所有用户从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日 24:00 的资源使用情况:lico query_job_billing_records -s 2020-01-01 -e 2020-01-01

• 查询用户 <username> 从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日 24:00 的资源使用情况:lico query_job_billing_records -s 2020-01-01 -e 2020-01-01 -f user -n <username>

• 查询用户组 <billing_group_name> 中所有用户 2020 年 1 月 1 日 0:00 到 2020 年 1 月 10 日24:00 的资源使用情况:lico query_job_billing_records –s 2020-01-01 -e 2020-01-10 -f group -n <billing_group_name>

示例输出

使用命令行生成账单

因为停机而无法自动生成账单时,可使用命令 lico generate_bills生成日账单或月账单。如果 LiCO服务运行正常,则不需要此命令。其使用以下参数:

参数 “必需”或“非必需” 描述

-p、--period 是 表示计费期间,可以是 daily 或monthly。

-t、--type 是 表示计费报告类型,可以是cluster 或 user。

附录 A. 重要信息 73

参数 “必需”或“非必需” 描述

-u、--username 否 表示为一个还是多个用户生成账单。将其保留为空白表示为所有用户生成账单。

仅当 -t 的值为 user,才需要此参数。

--startdate 否 表示日账单的开始时间,格式为YYYY-mm-dd。

仅当 -p 的值为 daily,才需要此参数。

--enddate 否 表示日账单的结束时间,格式为YYYY-mm-dd。

仅当 -p 的值为 daily,才需要此参数。

--startmonth 否 表示月账单的开始时间,格式为YYYY-mm。

仅当 -p 的值为 monthly,才需要此参数。

--endmonth 否 表示月账单的结束时间,格式为YYYY-mm。

仅当 -p 的值为 monthly,才需要此参数。

-f、--force 否 表示强力覆盖现有账单。

-h、--help 否 打印命令的帮助信息。

lico generate_bills 的示例

• 生成所有用户从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日 24:00 的日账单:lico generate_bills -p daily -t user --startdate 2020-01-01 --enddate 2020-01-01

• 生成用户 <username01> 和 <username02> 从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日24:00 的日账单:lico generate_bills -p daily -t user -u <username01>,<username02> --startdate 2020-01-01 \

--enddate 2020-01-01

• 生成管理员从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日 24:00 的日账单:lico generate_bills -p daily -t cluster --startdate 2020-01-01 --enddate 2020-01-01

• 生成用户 <username> 的 2020 年 1 月月账单:lico generate_bills -p monthly -t user -u <username> --startmonth 2020-01 --endmonth 2020-01

74 LiCO 5.5.0 管理员指南

示例输出

使用命令行同步对账单记录

因为停机导致记账服务无法正常运行时,可使用 lico sync_billing_statement 命令与调度程序和GPFS 同步用户的对账单记录。如果 LiCO 服务运行正常,则不需要此命令。其使用以下参数:

参数 “必需”或“非必需” 描述

-s、--starttime 是 表示开始时间,格式为YYYY-mm-dd。

-e、--endtime 是 表示结束时间,格式为YYYY-mm-dd。

--job 否 仅同步作业计费。

--storage 否 仅同步存储计费。

-h、--help 否 打印命令的帮助信息。

lico sync_billing_statement 的示例

• 同步所有作业和存储从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 1 日 24:00 的计费:lico sync_billing_statement -s 2020-01-01 -e 2020-01-01

• 同步所有用户从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 2 日 24:00 的作业计费:lico sync_billing_statement -s 2020-01-01 -e 2020-01-02 --job

• 同步所有用户从 2020 年 1 月 1 日 0:00 到 2020 年 1 月 3 日 24:00 的存储计费:lico sync_billing_statement -s 2020-01-01 -e 2020-01-03 --storage

示例输出

批量删除数据库中的作业

LiCO 长时间运行后,会累积作业。可通过管理接口删除作业,也可直接从数据库批量删除作业。LiCO 使用的数据库为 postgresql。该数据库位于管理节点上,数据库名称为 postgres。相应的作业表是 webconsole_job。可使用可视化工具,并使用类似以下的命令行从数据库中删除不必要的作业。

>psql –h 127.0.0.1 –U postgres –d lico

lico=#select * from scheduler_job

lico-#\g

lico=#delete from scheduler_job where id < 3

附录 A. 重要信息 75

lico-# \g

lico-# \q

无法查看或删除 VNC

如果未能在 LiCO 页面上查看 VNC 会话,请重新启动 LiCO。

如果未能在 LiCO 页面上删除 VNC 会话,请登录到 VNC 会话节点,查看要使用命令 ps -ef|grepXvnc 删除的 VNC 会话的进程号,然后利用删除过程删除 VNC 会话。删除会话时请使用 kill 而非 kill-9。LiCO 页面上的信息将在约 30 秒后更新。

GPU 监控的数据源

LiCO 只能监控 NVIDIA 制造的 GPU。监控数据(包括 GPU 利用率、内存、温度和使用状态)可通过官方 NVIDIA API 获取。

要检查节点’操作系统上的 GPU 监控数据,请在命令行运行 nvidia-smi 来检查。

通过不受 LiCO 管理的帐户提交的清理作业

某些特殊情况下,部分客户会使用不受 LiCO 管理的帐户提交作业。在这种情况下,系统中会出现许多空白作业记录,此类记录显示为排队状态且无法通过 Web 界面删除。发生这种情况时,请以根用户身份登录系统服务节点并重新启动 LiCO。重新启动 LiCO 后,空白作业状态将自动更改为已完成,且不会对系统运行造成任何影响。

调度程序故障诊断

创建,编辑或删除队列或设置队列或节点的状态时,可能会显示以下错误:

当 slurm 主节点和 LiCO 管理节点部署在不同物理节点上时,会发生此错误。

解决方案

• 手动同步

将 slurm 主节点中的 /etc/slurm/slurm.conf 文件替换为 LiCO 管理节点中的该文件。

• 自动同步

1. 提供管理员的自动同步脚本,并使用 slurm 主节点上的 /etc/slurm/slurm.conf 文件,该文件可被 LiCO 管理节点上的该文件覆盖。

76 LiCO 5.5.0 管理员指南

2. 将脚本上传到 LiCO 管理节点的 /var/lib/lico/core/scripts/ 目录。

3. 配置 LiCO 配置文件的脚本路径(/etc/lico/lico.ini)。# The sync script must be an executable file

scheduler_config_sync_script_path = /var/lib/lico/core/scripts/sync_script

4. 运行以下命令重启 LiCO,以使配置生效:systemctl restart lico

MPI 问题故障诊断

运行 Open MPI 程序时,可能会显示以下错误:

WARNING: Open MPI accepted a TCP connection from what appears to be a another Open MPI process

but cannot find a corresponding process entry for that peer.

如果 TCP 连接被忽略,Open MPI 程序可能无法正常执行。

OpenMPI 程序使用无法路由的USB NIC时(其名称可能是“enp0s20f0u1u6”或RedHat/CentOS7 下的类似名称),可能会显示此警告。选择以下变通方法之一以解决此问题:

• 通过运行以下命令禁用所有节点上的 USB NIC:psh all ifconfig enp0s20f0u1u6 down

注:此步骤可能中断正在运行的 Lenovo 管理工具,如 OneCLI。如果要使用 OneCLI,可暂时性启用 NIC。

• 通过运行以下命令指示 Open MPI 忽略 NIC:mpirun --mca btl_tcp_if_exclude enp0s20f0u1u6

注:建议创建适用于整个系统的定制 MPI 模板。

• 通过运行以下命令永久性禁用 USB NIC:rmmod cdc_ether

注:此步骤可能永久性禁用 OneCLI 和其他 Lenovo 管理工具。

LiCO 和 Linux OS 上的不同内存使用情况

LiCO 和 Linux OS 上使用的内存不同,这是由 Ganglia 和 OS 之间的差异引起的。

• 在 Linux OS 上,可以通过运行 free 命令获取已用内存。

计算公式:已用内存 = 总计 – 空闲 – 缓冲区 – 缓存 – slab• 在 LiCO 上,所有内存度量值均从 Ganglia 获取,后者提供除 slab 以外的所有上述度量值。

计算公式:已用内存 = 总计 – 空闲 – 缓冲区 – 缓存

声明和商标

声明

Lenovo 可能不会在全部国家/地区都提供本文档中讨论的产品、服务或功能特性。有关您当前所在区域的产品和服务的信息,请向您当地的 Lenovo 代表咨询。任何对 Lenovo 产品、程序或服务的引用并非意在明示或暗示只能使用该 Lenovo 产品、程序或服务。只要不侵犯 Lenovo 的知识产

附录 A. 重要信息 77

权,任何同等功能的产品、程序或服务,都可以代替 Lenovo 产品、程序或服务。但是,用户需自行负责评估和验证任何其他产品、程序或服务的运行。

Lenovo 公司可能已拥有或正在申请与本文档内容有关的各项专利。提供本文档并未授予用户使用这些专利的任何许可。您可以用书面方式将许可查询寄往:

Lenovo (United States), Inc.8001 Development DriveMorrisville, NC 27560U.S.A.Attention: Lenovo Director of Licensing

Lenovo 按“现状”提供本出版物,不附有任何种类的(无论是明示的还是暗含的)保证,包括但不限于暗含的有关非侵权、适销和适用于某种特定用途的保证。某些管辖区域在某些交易中不允许免除明示或暗含的保修,因此本条款可能不适用于您。

此处的信息将定期更改;这些更改将编入本资料的新版本中。为提供更好的服务,Lenovo 保留随时改进和/或修改计算机随附手册中所述的产品、软件程序以及本手册内容的权利,恕不另行通知。

计算机随附手册中所述的软件界面、功能及硬件配置可能与所购计算机的实际配置不完全相同。有关产品的配置,请参阅相关合同(如有)或产品包装清单,或咨询销售产品的经销商。Lenovo 可以按它认为适当的任何方式使用或分发您所提供的任何信息而无须对您承担任何责任。

本文档中描述的产品不应该用于移植或其他生命支持应用(其中的故障可能导致人身伤害或死亡)。本文档中包含的信息不影响或更改 Lenovo 产品规格或保修。根据 Lenovo 或第三方的知识产权,本文档中的任何内容都不能充当明示或暗含的许可或保障。本文档中所含的全部信息均在特定环境中获得,并且作为演示提供。在其他操作环境中获得的结果可能不同。

Lenovo 可以按它认为适当的任何方式使用或分发您所提供的任何信息而无须对您承担任何责任。

在本出版物中对非 Lenovo 网站的任何引用都只是为了方便起见才提供的,不以任何方式充当对那些网站的保修。那些网站中的资料不是此 Lenovo 产品资料的一部分,使用那些网站带来的风险将由您自行承担。

此处包含的任何性能数据都是在受控环境下测得的。因此,在其他操作环境中获得的数据可能会有明显的不同。有些测量可能是在开发级系统上进行的,因此不保证与一般可用系统上进行的测量结果相同。此外,有些测量可能是通过推算估计出的。实际结果可能会有差异。本文档的用户应验证其特定环境的适用数据。

本文档由 Lenovo 所有,受版权保护,且不在任何开源协议涵盖范围之内,包括任何可能涵盖本产品随附的软件的 Linux 协议。Lenovo 随时可能更新本文档,恕不另行通知。

如需最新信息或有任何问题及意见,请联系或访问 Lenovo Web 站点:

https://support.lenovo.com

商标

LENOVO 、 LENOVO 徽 标 、 THINKPAD 、 THINKPAD 徽 标 、 TRACKPOINT 、ULTRACONNECT 和 Yoga 是 Lenovo 的商标。Microsoft、Windows、Direct3D、BitLocker和 Cortana 是 Microsoft 公司集团的商标。Ubuntu 是 Canonical Ltd 的注册商标。HDMI

78 LiCO 5.5.0 管理员指南

和 HDMI 高清晰度多媒体接口是 HDMI Licensing LLC 在美国和其他国家或地区的商标或注册商标。Wi-Fi、Wi-Fi Alliance 和 Miracast 是 Wi-Fi Alliance 的注册商标。USB-C 是 USBImplementers Forum 的商标。所有其他商标均是其各自所有者的财产。© 2020 Lenovo.

附录 A. 重要信息 79