稷下之光集群介绍

构成

  • 一台应用节点:app,布署了本组内的各种应用,如GPUStat,ClearML,OpenVPN,NeZha等。
  • 两台网络存储节点:
    • truenas,存储空间为36TB,使用RAID1(节点镜像内)备份数据。
    • cosmic,存储空间为36TB. 用做备份节点,定期备份关键数据。
  • 一系列GPU计算节点:配有高性能GPU,可进行深度网络的训练和测试。
  • OpenVPN认证:用于在7号实验楼外访问本组服务器。

使用方式

  1. 账号获取:组内研究生经培训后统一分配。
  2. 可使用节点:将根据学生角色分配,默认组内研究生可使用全部计算节点,临时账号可使用部分节点。
  3. 生成ssh密钥对 ssh-keygen -b 4096 并添加公钥到authorized_keys
  4. 配置ssh config 文件(模板后附)。
  5. 通过在ssh <NODE>登录到计算节点进行程序执行。

存储说明

集群提供海量存储空间,但以去冗余为原则,应尽量减少重复文件(如数据集)的分布存储。以下为存储模板

  • /home/<USER>:用户家目录,可存储程序代码,conda环境,模型文件。
  • /shares:数据集存放,默认所有者为Mingliang Gao:student,读写权限为771。即所有学生拥有可读写的权限。
  • /shares/softwares:各类安装包,如conda,ubuntu,cuda和cudnn等。
  • /scratch:程序运行时数据集存放路径,存放缓存文件。

应用程序

主入口为:https://apps.brighten.group/

config 文件模板

文件位置为~/.ssh/config. 通过配置 config 文件,可以简化使用流程,提高效率。

内网(7号实验楼)访问

# Group: Local Machines
Host beaver husky 
    User <USER>
    Port 22

    # IP Addresses
    Host beaver 
        HostName 10.6.176.116

    Host husky
        HostName 10.6.176.112

OpenVPN

  • 文件配置:配置文件位于"BVG_Public\BVG_ReadOnly\Softwares\Group VPN\BVG.ovpn"。文件配置完成后,输入’Username’以及’Password’,最后完成保存就可正常使用。
  • 应用介绍:本组服务器正常情况下只在7号实验楼范围内可以登录使用,如要在7号实验楼以外连接使用本组服务器需要认证OpenVPN。