40万 - 80万 上海 | 3年以上 | 本科及以上 | 全职
职位福利:五险一金,年终奖金,成长空间大,技术领先
发布时间:2021-12-14 发布者:Tracy Wu 投递简历
岗位职责:
我们的目标
推动算法、核心加速软件库及GPU体系结构协同优化,在高速发展及多变的深度学习算法与GPU硬件体系结构之间建立桥梁,并研发先进的软硬件协同的加速计算解决方案。
团队职责
NVIDIA中国计算架构团队历经CUDA并行编程模型从起步至今的所有阶段,参与了几乎所有的通用GPU计算架构的研发工作,包括:Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere,以及面向未来GPU架构。
团队从高性能计算,深度学习,自动驾驶等计算应用领域出发,跟踪学界、工业界最前沿算法,并掌握其发展方向;通过对前沿算法(比如:神经网络结构)的深入理解,分析并提出芯片架构的需求:指令集、编程模型、计算能力、访存带宽、片上存储、片上网络及网络互联等。
团队同时承担基于架构优化的软件栈的开发及产品化工作:自底层加速核心算子开发及优化;TensorRT、cuDNN等核心加速库;直到上层训练框架,编译优化;混合精度、稀疏矩阵训练及量化方法开发。
基于硬件架构开发软件、算法实现,通过算法、软件开发实践反馈并推动硬件架构提升,形成闭环,最终实现软硬件协同优化,达到极致计算加速的目标:
• 建立下一代芯片性能模型, 搭建芯片性能分析平台,调研下一代芯片新特性;
• 研发及设计新的加速指令,开发原型代码,并通过迭代优化下一代芯片架构;
• 跟踪下一代芯片新特性在应用中的落地实现(编程模型、软件栈等);
• 开发集成最终软件产品库 - TesorRT, cuDNN;
• 优化训练框架(MLPerf 各项优化);
• 开发混合精度、稀疏矩阵及量化方法;
其他成果包括:若干GTC talks、学术论文、专利,公司内部技术大会报告
职位介绍:
主要方向
• 通用Accelerator芯片架构
• 基于架构的算子开发、优化、编译等
• Tensor RT
职位要求
• 计算机体系结构(通用Accelerator芯片架构方向)
• 熟练掌握C/C++编程(算子开发、Tensor RT方向)
• (加分项)掌握CUDA编程及性能优化
工作地点: 上海、北京、新竹