昇腾入职
Jul 01, 2024 7:30 pm UTC+8
上海青浦
目录
为了明年入职华为,顺利跟上AI的进度。
1 入职准备
- 学习
- 昇腾训练营
- 可行度测试(leetcode)
- 入职体检
- 租房(员工宿舍可能租不到)
2 相关的能力
- 数理基础
- AI system https://github.com/chenzomi12/DeepLearningSystem/
- AI模型训练(以docker模型画图入手)
- transformer等模型基础学习
- AI训练热点分析。
- AI训练优化尝试
The Landscape of Compute-near-memory and Compute-in-memory: A Research and Commercial Overview
https://github.com/chenzomi12/DeepLearningSystem/blob/main/02Hardware/02ChipBase/05.gpu.pdf
2.1 硬件设计
2.2 AI模型
现在LLM 的大小为什么都设计成6/7B、13B和130B几个档次?解析大模型中的Scaling Law
2.3 瓶颈与性能分析(成本)
Memory Wall in Neural Network Inference
mike: https://le.qun.ch/en/blog/2023/05/13/transformer-batching/
mike: Dissecting Batching Effects in GPT Inference 一个blog你们可能会感兴趣,有GPT inference的内存墙分析
mike: https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
2.4 国内产品的硬件差距
- 国产GPU新势力摩尔线程
- 国产GPU,可堪大用吗?系列之二:神秘的910B
- 英伟达 vs. 华为海思:GPU性能一览 昇腾910B 达芬奇 gpuScratchpad 思元690 深水4号
2.5 国外先进制程
2.6 工作内容
- 算子底层npu异常检测,内存踩踏,越界。
- 高层模型层级,提高精度,算法强相关。
- (传统内容的创新)基于性能建模,推理和训练加速。
2.7 团队
- 百度编译器 晓光
- 10几个人,后端上海,前端北京。
- 尖酸小黄鸭:T9 - 半年
- T5 -清华的硕士:AI编译器前端,OP → 机器码→kernel。循环融合。
2.8 工作内容
- 鲁棒性(容忍输入扰动的稳定性,处理出错情况的可靠性),正确性,AI原生的思维。
- 后端 code阵列,
2.8.1 AI 编译器
- 中间理论:代数结构,形式化下来。多个op循环融合,map ADT(Abstract Data Type",即抽象数据类型?)
- TVM autotune op规则
- torch 负优化 - 形式化定义,算子以及约束。 A B op融合