当前位置:首页 > CN2资讯 > 正文内容

gpu服务器平台搭建 组装gpu服务器

2天前CN2资讯


一、面对一个新的GPU卡的时候,首先要查看服务器装配的cuda的版本,可以通过nvcc -V或者是去/user/local/cuda目录去看,GPU服务器的cuda版本尽量别更改,因为GPU服务器一般是公共资源,你改了的话,别人的代码可能就跑不起来,再者更改GPU服务器的cuda版本一般需要root权限,如果自己操作不当可能会有比较严重的后果。

二、知道GPU卡的型号和gpu服务器装配的cuda版本后,开始配深度学习框架,记得下载的框架版本一定一定要和gpu服务器装配的cuda对应!!这个直接去网上查()。tensorflow我用的不太多具体自己可以百度百度,pytorch的直接去官网——链接(Previous PyTorch Versions | PyTorch),直接按照里面提供的命令行下载整套的框架,这个时候要注意pytorch里面有一个cudatoolkit(我也不太清楚这个使pytorch独有的,还是conda独有的,反正这个一般要装),一般要和gpu服务器的cuda版本对应,不对应的话编译可能会失败。

现在拿你的rtx3090举例:你的显卡rtx3090,装配cuda:11.0,在网上一查,cuda11.0可以使用pytorch1.7系列的,我们就到pytorch官网查询pytorch1.7的下载指令:

pip install torch==1.7.1+cu110 torchvision==0.8.2+cu110 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

三、但是如果遇到代码环境要求(一般github的readme里面都有环境要求的)和自己的的gpu服务器不一致的话,一般pytorch1.X系列一般可以适配,python3.X系列一般可以适配,但是如果代码要求什么需要pytorch0.4呀,python2.1呀基本就可以放弃这个代码了。

四、后面就按照github代码的流程安装即可,之后遇到什么问题见招拆招就行了,一般的问题在该github代码的issue、百度、CSDN可能可以找到解决方法,如果找不到的推荐使用google、stackflow、代码有关插件(一般问题可能就处在这里,因为这些插件更新比较频繁,我们这次安装apex的问题占了一大半)的github的issue上面。

五、本次安装流程截图以及问题解决方法

1、安装anaconda2021版本,问题:显示UTF-8的编码问题,解决:修改.bash_profile文件

2、搭建pytorch1.7+cudatoolkit11.0的环境,并安装相关的依赖包

3、下载三个所需的插件和代码,并进行编译

问题1:编译apex失败,经过溯源,问题出在两个地方:

  • 没有配置cuda11.0的环境变量

vim ~/.bashrc   添加export CUDA_HOME=/usr/local/cuda-10.0          source  ~/.bashrc

  • Gcc版本太低,升级gcc即可

问题2:编译apex失败。算力不匹配,添加变量解决

export TORCH_CUDA_ARCH_LIST="7.5"

问题3:编译mega.pytorch失败,由于代码是根据pytoch1.3编写的,需要对一些变量进行改变,以适应pytoch1.7版本

#ifndef AT_CHECK #define AT_CHECK TORCH_CHECK #endif

4、代码运行时失败,原因是之前把算力设置成75,但是rtx3090并不适配算力75,把算力设置成80,这样子apex可编译通过,代码也成功运行

算力这个问题的话,可以参考一下

或者官网:

https:///wiki/CUDA#Supported_GPUs

    你可能想看:

    扫描二维码推送至手机访问。

    版权声明:本文由皇冠云发布,如需转载请注明出处。

    本文链接:https://www.idchg.com/info/23535.html

    分享给朋友:

    “gpu服务器平台搭建 组装gpu服务器” 的相关文章

    注册域名的全面指南:选择合适域名的重要性和流程

    在当今数字化的时代,注册域名对企业和个人来说都是至关重要的。域名不仅是一个网站的名字,更是一个在网络空间中的唯一标识符。它能帮助用户快速记住你的品牌,提升他们对你的信任度。如果没有一个合适的域名,用户可能会在茫茫互联网中迷失方向,导致潜在客户流失。 我个人在选择域名时,充分意识到其独特的价值。一个好...

    2023年美国服务器市场分析与未来展望

    在美国,服务器市场一直以来都具有举足轻重的地位。到了2023年,这个市场依旧保持着强劲的增长势头。根据IDC的分析报告,2023年第一季度,美国的服务器市场规模达到了2212亿美元,相比去年增长了2%。这不仅显示了市场的健康发展,也奠定了美国在全球服务器市场的领导地位,全球市场份额约为30%。 随着...

    选择合适的SSH连接工具以提升远程管理效率和安全性

    在当今的网络环境中,SSH连接工具扮演着重要角色。简单来说,SSH连接工具是一种应用程序,用于通过SSH协议安全地连接和管理远程服务器。想想看,当我们需要与服务器进行交互、执行命令或者上传文件时,这些工具就变得尤为重要。 我记得第一次使用SSH连接工具的时候,是为了管理一台远程服务器。能够通过简单的...

    最优秀的IP检测工具,提升网络安全与性能的选择

    IP检测工具是一种极为重要的网络资源,旨在帮助用户识别和分析IP地址信息。像我们在日常上网时,需要了解自己的网络状态,了解与其他用户的连接关系,这时候IP检测工具就显得尤为重要。无论你是网络管理员、开发者,还是只是单纯的网络用户,这类工具总是能够给你带来实用的信息与帮助。 了解IP检测工具的工作原理...

    香港低价服务器:经济实惠的选择与优势解析

    在如今数字化迅猛发展的时代,香港低价服务器凭借其独特优势,吸引了无数创业者、站长和企业用户的青睐。何为香港低价服务器?这类服务器主要是指在香港地区提供的,价格相对较低的服务器租用服务。由于其经济实惠的特性,许多小型企业和个人用户在选择服务器时,都会优先考虑这种选项。 在选择网络服务时,速度和价格往往...

    /16子网掩码的配置与应用指南 | 实现高效网络管理

    为什么选择/16的子网掩码 选择/16的子网掩码常常让人感到有些陌生。对我来说,这个数字不仅仅是一个技术参数,它蕴含着网络设计的深刻意义。首先,子网掩码的基本概念就如同我们在城市中划分区域,/16实际上表示有65536个可用IP地址。这么广阔的空间对于需要大量设备联网的环境,如企业或大型组织,尤其重...