人工智能基础实验室建设规划
学校对于人工智能基础实验室的建设,规划清晰、目标明确:要在5月底上线方案,让部分学生先用起来;9月份上线整体平台,满足运维人员管理的需求。学校初次搭建人工智能实验室,从各个角度对平台进行了详细规划和明确要求:
1.运维管理
支持用户GPU配额管理
资源模板化分发,多种配置一键部署
支持与AD域联动(LDAP)
支持GPU虚拟机生命周期管理
实现“零运维“:科研老师申请计算、存储、网络、GPU等使用资源后,无需关心基础架构运维问题
2.可靠性
需要7*24小时不间断使用
规模:150人并发在线
3.兼容性
利旧部分现有的服务器及显卡(约有19台服务器可被利旧使用)
支持不同型号的显卡:P40、K80、TITAN V、RTX 2080 Ti
人工智能实验室建设难点
基于学校现有的IT架构,学校人工智能实验室平台的建设面临着以下难题:
1.运维管理复杂
学校采用传统服务器+外置存储的架构,设备众多、日志割裂,导致运维管理难度大,老师需在运维工作上耗费大量时间精力。
2.资源分配不灵活
不同研究方向的学生对资源使用要求不同,部分学生可能仅需要单卡GPU一半的计算性能,但复杂的实验环境导致资源分配不够灵活,造成资源浪费。
3.无法实现多租户管理
科研老师希望使用root权限管理计算、存储资源,运维老师出于合规性要求无法提供相应的root权限,因此需要通过多租户管理满足不同老师的需求。
4.需利旧服务器降低成本
学校原有服务器17台,如果新建实验平台,将导致成本过高,因此学校希望能够利旧服务器来节约成本。
人工智能实验室平台的价值特性
1.**管理学生账号
平台能够结合AD域批量导入用户,并进行权限管理,同时可对新增用户进行自动同步。
2.支持GPU资源配额的申请
学校用户可以自主申请GPU云主机(管理员可以定义云主机模板)。
3.灵活的资源调度与分配
支持虚拟机生命周期管理,且虚拟机到期后自动执行关机操作(虚拟机不删除,释放GPU的资源),关机之后GPU显卡可以被其他用户使用。用户可以重新申请GPU资源并开机进入下一个生命周期,该过程无需管理员介入审批。
4.贴心定制,节约资源
根据高校资源使用场景,开发匹配算法,让相同模板虚拟机尽量分配在相同主机上,避免主机剩余资源难以满足高配虚拟机需求导致资源浪费。
各大高校为培养国家人工智能人才队伍,提升我国人工智能的持续创新能力做出了巨大贡献。未来,宁波腾讯云产业基地将继续通过持续不断的信息科技创新,为学校师生提供创新的产品和解决方案,助力高校快速建设实验室,积极推动人工智能领域的学术研究和人才培养。
宁波腾讯云产业基地基于腾讯云、大数据等服务,以建设人工智能基础实验室、新工科实验室、大数据教学管理平台为目标,积极打造数字化创新生态,助力高校实现数字化。