稷下之光集群介绍
构成
- 一台应用节点:
app
,布署了本组内的各种应用,如GPUStat,ClearML,OpenVPN,NeZha等。 - 两台网络存储节点:
truenas
,存储空间为36TB,使用RAID1(节点镜像内)备份数据。cosmic
,存储空间为36TB. 用做备份节点,定期备份关键数据。
- 一系列GPU计算节点:配有高性能GPU,可进行深度网络的训练和测试。
- OpenVPN认证:用于在7号实验楼外访问本组服务器。
使用方式
- 账号获取:组内研究生经培训后统一分配。
- 可使用节点:将根据学生角色分配,默认组内研究生可使用全部计算节点,临时账号可使用部分节点。
- 生成ssh密钥对
ssh-keygen -b 4096
并添加公钥到authorized_keys
。 - 配置ssh
config
文件(模板后附)。 - 通过在
ssh <NODE>
登录到计算节点进行程序执行。
存储说明
集群提供海量存储空间,但以去冗余为原则,应尽量减少重复文件(如数据集)的分布存储。以下为存储模板
/home/<USER>
:用户家目录,可存储程序代码,conda环境,模型文件。/shares
:数据集存放,默认所有者为Mingliang Gao:student
,读写权限为771
。即所有学生拥有可读写的权限。/shares/softwares
:各类安装包,如conda,ubuntu,cuda和cudnn等。/scratch
:程序运行时数据集存放路径,存放缓存文件。
应用程序
主入口为:https://apps.brighten.group/
- GPU用量监控:http://10.6.176.119:6655/
- 计算节点状态监控:http://10.6.176.119:6689/
config
文件模板
文件位置为~/.ssh/config
. 通过配置 config 文件,可以简化使用流程,提高效率。
内网(7号实验楼)访问
# Group: Local Machines
Host beaver husky
User <USER>
Port 22
# IP Addresses
Host beaver
HostName 10.6.176.116
Host husky
HostName 10.6.176.112
OpenVPN
- 文件配置:配置文件位于"BVG_Public\BVG_ReadOnly\Softwares\Group VPN\BVG.ovpn"。文件配置完成后,输入’Username’以及’Password’,最后完成保存就可正常使用。
- 应用介绍:本组服务器正常情况下只在7号实验楼范围内可以登录使用,如要在7号实验楼以外连接使用本组服务器需要认证OpenVPN。