Weekly Summary 8
Feb 04, 2024 12:30 pm UTC+8
科大高新区
1 本周的工作
- Mon: 论文
- Tues:年会轰趴
- Wed:思考任务,acsa内容更新 闲着模式,小缘
- Thurs: 论文+2
- Fri: 论文+1
- Sat: 论文+1
- Sun:周报
| metrics | Monday | Tuesday | Wednesday | Thursday | Friday | Saturday | Sunday |
|---|---|---|---|---|---|---|---|
| Get up | 7:30 | 6:41 | 9:08 | 10:25 | 10:25 | 10:10 | 11:15 |
| Running | 5.8km | ||||||
| In-door Exercise(2~3) | x | xx | xx | ||||
| Go2Lab | x | x | x | ||||
| Release | x | x | xx | x | |||
| Fall Sleep | 2:07 | 4:21 | 4:15 | 4:15 | 3:20 | 4:10 | 1:27 |
| Night Think | |||||||
| Resleep |
- 室内运动: 建议每半天一次(早起和晚归)。内容仰卧起坐(包括侧卧),平板支撑,俯卧撑,Kegel
- 睡觉时间以平板时间为准。每晚睡眠在7~8小时之间,参考
- 打乱作息。
- 思考完后大脑活跃,但是身体已经扛不住了。
- 需要看relax视频,转移大脑注意力
2 下周任务优先级
- 毕业论文:考虑到繁重的任务量,后续有限的两个月围绕毕业论文展开:敲定了更general的题目后,但是当前对于arch64的设计工作过少,支持不起来题目。
- 时间安排:
- 需要在快速填充完论文主体内容(一个月)。
- Next:吸收uiCA的观点(前端和重命名寄存器),融入到Arm,重点分析与Intel平台的简化区别。
- 之后着手进一步来提升精度和Arch64的设计,最终画出more accurate by each step的图(一个月)。
- 最后半个月写PPT。准备答辩。
- 需要在快速填充完论文主体内容(一个月)。
- 论文极大参考
- Computer Architecture Performance Evaluation Methods
- 参考 Cross-Architecture Automatic Critical Path Detection For In-Core Performance Analysis
- CCF C CQA: A code quality analyzer tool at binary level
- 赵哥的论文
- 论文完善拓展的点:
- Balanced processor的概念,和实验验证kunpeng 920的设计是否是满足这一点的
- 解释Gem5 和llvm-mca 速度上的区别:一个是需要知道计算结果的,一个不需要。精度上的区别,不知道结果会导致读内存数据不知道,导致分支错误(但是llvm-mca又没分支)
- 时间安排:
- markdown-grammar-switcher: 不同的SSG的特殊功能对应不同的markdown语法,但是人们写的markdown只有一份。这个仓库的作用就是在static html生成的路径上.
- 打算学习Pandocs的IR和filter看支不支持定制化https://sspai.com/post/77206 https://geekdaxue.co/books/Pandoc-user-guide-2.18
- topdown主题后续开发
- News和Event的缩略图应该遵循limited info的原则,应该实现一种情感的导向,忌讳图片里大量文字。
- 小功能:ics的主题可以借鉴 ,
- 目录栏的实现,
- highlight color text,
- Default Subpage 3. SubHome, 75%page pic
- News:
- 改成 3-4444。 现在的 1-2-4444太不平衡了。
- Events
- Event支持长期的
pinned event,比如学期组会安排,卫生清洁安排。图钉+红色底圈 - 给模板加上Event的上下文切换的按钮
- Event支持长期的
- 照片墙: Lab Life
- 接下来我会首先考虑实现一个照片墙的功能,来分离event里的活动照片。来划分出一块没那么学术严肃的页面。
- 每个模块:任意大小设置,有名字图片两部分,图片能循环播放列表
- 点击效果,点击照片放大,点击名字进入pic列表(点击放大功能的适用区域应该现在在照片墙和single page页面)
- ACSA内容的填充
- shijun,chen的组会内容总结
- 轰趴的返图
- 夏培肃新闻
- ics的课程
- 教授校友
- 实验室资源架构整合:(安老师了解个人的工作内容,交流平台, 文档资料积累的平台)
- docs mkdocs: 运维的知识: 网站,服务器的使用
- dokuwiki(Mkdocs+额外的验证和加密功能): 内部学术经验文档,文档用的小图片
- 实验室统一的新手须知
- 注册实验室LDAP机器账号,dokuwiki账户,群晖账户
- 组织结构介绍
- 日常的个人任务(超算比赛,课程助教,学期研讨会)
- 以及如何更新自己在实验室网站的信息
- 学术研究入门指南
- 每个小组出各自的入门须知(PIM的基础知识,数据流, 医疗影像的基础知识)
- 实验室统一的新手须知
- 群晖开WebDav吧(实现网络端文件下载):存储PPT,论文PDF和视频。
- 视野的拓展:
- 乔师兄的论文
- 第一篇高引就是GPU https://scholar.google.com/citations?user=jmjRUi4AAAAJ&hl=en
- 回家准备 notion
- 当天物品和退宿请求留电:
- 软件更新(提前一天):
- 网络服务支持(提前两天测试):
- 硬件(提前两天拿回宿舍):
- 礼物:柿子饼
- 日常生活用品
2.1 任务评估与时间分配
| 紧急性(3) | 重要性(3) | 喜好(1) | 工作量(3) | 总分 | 分配 | 要求 | |
|---|---|---|---|---|---|---|---|
| thesis | 3 | 3 | 0 | 3 | 9 | 四天多 | 3 |
| AI | 1 | 2 | 1 | 2 | 6 | 三天欠 | 1 |
| Summary | 21 |
The Landscape of Compute-near-memory and Compute-in-memory: A Research and Commercial Overview
https://github.com/chenzomi12/DeepLearningSystem/blob/main/02Hardware/02ChipBase/05.gpu.pdf
2.2 硬件设计
2.3 AI模型
现在LLM 的大小为什么都设计成6/7B、13B和130B几个档次?解析大模型中的Scaling Law
2.4 瓶颈与性能分析(成本)
Memory Wall in Neural Network Inference
mike: https://le.qun.ch/en/blog/2023/05/13/transformer-batching/
mike: Dissecting Batching Effects in GPT Inference 一个blog你们可能会感兴趣,有GPT inference的内存墙分析
mike: https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
2.5 国内产品的硬件差距
- 国产GPU新势力摩尔线程
- 国产GPU,可堪大用吗?系列之二:神秘的910B
- 英伟达 vs. 华为海思:GPU性能一览 昇腾910B 达芬奇 gpuScratchpad 思元690 深水4号
2.6 国外先进制程
- 虽然可能会陷入上下午切换导致的效率损失。
- 但是不同于CPU,人脑可以在多进程之间提取通用的思想,融会贯通。
- 另一个好处是,任务开展后才能知道其中的难点,和大约耗时,才有助于实时调整策略应对。不会导致措手不及的狼狈下场。
2.7 工作内容
- 算子底层npu异常检测,内存踩踏,越界。
- 高层模型层级,提高精度,算法强相关。
- (传统内容的创新)基于性能建模,推理和训练加速。
2.8 团队
- 百度编译器 晓光
- 10几个人,后端上海,前端北京。
- 尖酸小黄鸭:T9 - 半年
- T5 -清华的硕士:AI编译器前端,OP → 机器码→kernel。循环融合。
2.9 工作内容
- 鲁棒性(容忍输入扰动的稳定性,处理出错情况的可靠性),正确性,AI原生的思维。
- 后端 code阵列,
2.9.1 AI 编译器
- 中间理论:代数结构,形式化下来。多个op循环融合,map ADT(Abstract Data Type",即抽象数据类型?)
- TVM autotune op规则
- torch 负优化 - 形式化定义,算子以及约束。 A B op融合
这周的工作还是围绕的三部分展开,下周也将继续各自的内容:
- ACSA主页开发:组会时安老师提出了一堆的需求:从网站的内容,功能和作为知识平台的定位给出了建议。但是功能越多,往往导致网站越难维护,维护成本越大。我还在权衡哪些功能是必须的。接下来的开发,我准备先从功能的细节完备性入手再考虑新模块的多样性。比如,实现‘pinned event’将长期的event固定在开头并特殊标记。点击图片可以放大仔细查看。然后再考虑新的模块:比如照片墙和新的知识平台。但是其必要性还有待讨论。
- 毕业论文:现在还在整理HPCC和THPC的内容,思考后重新组织了论文的结构和目录的顺序,内容还十分不完整,有待快速完善
- AI for System: 最近开始读 Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing 的文章。感觉Ascend作为一种类似Google TPU的Domain-specific Architecure 本身设计的思想是没问题的。当然应该是我水平不够,还看不出。Ascend和NV GPU的差距还是在AI编译器的发展不够,难以释放出硬件的性能。当然7nm的制程也限制了其性能上限。
Dear Qingcai,
This week’s efforts were centered around three main areas, which will continue to be the focus in the upcoming week:
-
ACSA Website Development:
- During our recent team meeting, Professor An suggested numerous requirements for the website, ranging from content and functionality to positioning it as a knowledge platform. However, the more features we add, the more challenging and costly it becomes to maintain the site. I am currently evaluating which features are essential. In the next development phase, I plan to focus on refining the details of existing functionalities before considering the addition of new modules. For instance, implementing a ‘pinned event’ feature to highlight and specially mark long-term events at the top of the page, and enabling image enlargement for detailed viewing. The necessity of new modules like a photo wall and a new knowledge platform will be discussed further.
-
Graduation Thesis:
- I am still organizing content from HPCC and THPC, and after some thought, I have restructured the thesis and reordered the chapters. The content is still quite incomplete and needs rapid development.
-
AI for System:
- Recently, I started reading the paper on Ascend: a Scalable and Unified Architecture for Ubiquitous Deep Neural Network Computing. Ascend, similar to Google’s TPU and designed as a domain-specific architecture, seems conceptually sound to me, though it’s possible my understanding is not deep enough to identify any shortcomings. The gap between Ascend and NV GPUs appears to be in the AI compiler’s development, which has not yet fully unleashed the hardware’s performance. The 7nm process technology also seems to limit its performance potential.
The upcoming week will see continued progress in these areas, with a particular emphasis on advancing the thesis.
Best regards,
Shaojie