Weekly Summary 5
Jan 14, 2024 12:30 pm UTC+8
科大高新区
1 本周的工作
- Mon: Utopia的汇报PPT,花了很多时间在PACT的Overview画图上。更新完了.
- Tues:
- 处理PPT切换和动画, 重新润色语句逻辑。
- 晚上给蔚来汇报。
- Wed:
- cuda执行基础知识。
- 总结yfy的GPU performance model。
- 并阅读了CPU Interval Model的论文,理解了大部分
- Thurs:
- 眼睛疼,困
- 写iwara file classifier
- Fri:
- 聚焦于Overleaf第一章
- 尝试了m-team RSS select free bitorrent
- Sat:
- PIM CPU GPU 调度:basic Idea.
- Social science
- future work: to learn little about FPGA.
- Sun:
- email set
- ACSA web info collect
- Weekly report : target to my thesis
| metrics | Monday | Tuesday | Wednesday | Thursday | Friday | Saturday | Sunday |
|---|---|---|---|---|---|---|---|
| Get up | 11:50 | 11:48 | |||||
| Exercise | x | x | x | ||||
| Release | x | x | x | x | |||
| Fall Sleep | 4:00 | 11:40 | |||||
| Night Think | 3:00~5:00 | ||||||
| Resleep | 6:00 |
- 打乱作息。
- 思考完后大脑活跃,但是身体已经扛不住了。
- 需要看relax视频,转移大脑注意力
2 下周任务优先级
- 考虑到繁重的任务量,后续有限的两个月围绕毕业论文展开:敲定了更general的题目后,但是当前对于arch64的设计工作过少,支持不起来题目。
- 时间安排:
- 需要在快速填充完论文主体内容(一个月)。
- 之后着手进一步来提升精度和Arch64的设计,最终画出more accurate by each step的图(一个月)。
- 最后半个月写PPT。准备答辩。
- AI for system 5:调研华为DaVinci架构, 国内架构和NV的区别。阅读更多的基础微信公众号。
- ACSA Lab website(Before 240131): 创建低配版的网站,收集更多人信息,放假前上线(安老师要求)
- 应该没有时间参与到 Workload Priority的工作里了。
3 AI 相关的拓展阅读
3.1 AI模型
现在LLM 的大小为什么都设计成6/7B、13B和130B几个档次?解析大模型中的Scaling Law
3.2 瓶颈与性能分析(成本)
Memory Wall in Neural Network Inference
3.3 国内产品的硬件差距
- 国产GPU新势力摩尔线程
- 英伟达 vs. 华为海思:GPU性能一览 昇腾910B 达芬奇 gpuScratchpad 思元690 深水4号
3.4 国外先进制程
拆掉英伟达护城河,细节曝光!世界最快超算用3072块AMD GPU训完超万亿参数LLM
3.5 任务评估与时间分配
| 紧急性(3) | 重要性(3) | 喜好(1) | 工作量(3) | 总分 | 分配 | 要求 | |
|---|---|---|---|---|---|---|---|
| thesis | 3 | 3 | 0 | 3 | 9 | 三天多 | 3 |
| AI | 1 | 2 | 1 | 2 | 6 | 两天欠 | 1 |
| Worload | 1 | 1 | 1 | 1 | 4 | 一天多 | 1 |
| web | 1 | 0 | 0 | 1 | 2 | 一天欠 | 1 |
| Summary | 21 |
- 虽然可能会陷入上下午切换导致的效率损失。
- 但是不同于CPU,人脑可以在多进程之间提取通用的思想,融会贯通。
- 另一个好处是,任务开展后才能知道其中的难点,和大约耗时,才有助于实时调整策略应对。不会导致措手不及的狼狈下场。
3.6 工作内容
- 算子底层npu异常检测,内存踩踏,越界。
- 高层模型层级,提高精度,算法强相关。
- (传统内容的创新)基于性能建模,推理和训练加速。
3.7 团队
- 百度编译器 晓光
- 10几个人,后端上海,前端北京。
- 尖酸小黄鸭:T9 - 半年
- T5 -清华的硕士:AI编译器前端,OP → 机器码→kernel。循环融合。
3.8 工作内容
- 鲁棒性(容忍输入扰动的稳定性,处理出错情况的可靠性),正确性,AI原生的思维。
- 后端 code阵列,
3.8.1 AI 编译器
- 中间理论:代数结构,形式化下来。多个op循环融合,map ADT(Abstract Data Type",即抽象数据类型?)
- TVM autotune op规则
- torch 负优化 - 形式化定义,算子以及约束。 A B op融合
本周的工作
- 给蔚来报告Restrict Approach in Address Translation: 花了两天时间准备
- AI for system 4: 阅读完了cuda基础教程,进一步了解了CPU/GPU Interval Model
- Graduation thesis 3: 重新总结了论文的题目,并且补全了第一章的内容。
- ACSA Lab website : 设计了问卷,收集了一小部分人的信息来测试和调试。
- Workload Priority: 稍微思考了一下应用偏好的设计,有待调研与验证。
后续的工作:
- 考虑到繁重的任务量,后续有限的两个月围绕毕业论文展开:敲定了更general的题目后,但是当前对于arch64的设计工作过少,支持不起来题目。时间紧迫,方法不明, 需要专心,不容有失
- 时间安排:
- 需要在快速填充完论文主体内容(一个月)。
- 之后着手进一步来提升精度和Arch64的设计,最终画出more accurate by each step的图(一个月)。
- 最后半个月写PPT。准备答辩。
- AI for system 5:调研华为DaVinci架构, 国内架构和NV的区别
- ACSA Lab website(Before 240131): 创建低配版的网站,收集更多人信息,放假前上线(安老师要求)
- 应该没有时间参与到 Workload Priority的工作里了。
Dear Qingcai,
Below is an overview of my activities this past week and my planned tasks for the upcoming period.
Weekly Work Summary (January 8-14, 2024):
- NIO Report on Restrict Approach in Address Translation: Spent two days preparing the report.
- AI for System 4: Completed reading the CUDA basic tutorial and further understood the CPU/GPU Interval Model.
- Graduation Thesis 3: Revised and finalized the thesis title and completed the content of Chapter 1.
- ACSA Lab Website: Designed a questionnaire and collected preliminary information from a small group for testing and debugging.
- Workload Priority: Briefly considered the design of application preferences, which requires further research and validation.
Upcoming Tasks:
- Graduation Thesis Focus: Considering the heavy workload, I will mainly focus on my thesis in the next two months. After I determine a more general paper title, I need to refine the limited work on arch64 design, which currently does not sufficiently support the topic.
- Time Allocation:
- Fill in the main content of the thesis within one month.
- Then, work on improving accuracy and Arch64 design, aiming to create a more accurate by each step graph in the following month.
- The final half month will be dedicated to preparing the presentation and defense.
- Time Allocation:
- AI for System 5: Research Huawei’s DaVinci architecture and compare domestic architectures with NVIDIA’s.
- ACSA Lab Website (Before January 31, 2024): Develop a basic version of the website, collect more information, and launch it before the holiday as requested by Professor An Hong.
- Workload Priority: Likely won’t have time to participate in this task due to the pressing thesis and website deadlines.
Please let me know if there are any changes or additional instructions needed.
Best regards,
Shaojie Tan
目录