时间飞快,2024年就这样过去了。365天被B站的UP主们浓缩成了不到10分钟的视频,被不同的APP制作成一份年报,被团队的小伙伴们总结成了十来页的年会PPT,也即将被我写成一篇千字的博客。接下来,我将从科研和生活两个方面总结我的2024——我读博生活的第二年。
1. 回顾2024
1.1 科研方面
科研方面,我的2024可以用一句话形容:“My research road in 2024 is like a diffusion process.”
A. 初识Agent:
2023年刚入学时,我跟着学长做图像检索相关的研究。可能是新手保护期的原因,第一篇工作就中了CVPR。这让我有了更大的野心,想做一些更有意义的事情。彼时,Agent这一概念因LLM的突然爆发变得异常火热,我也追随热点,在2024年初选择转向Agent方向。经过初期的简单调研,我对Agent有了大致的理解:简单来说,Agent是一个能够主动与“环境”交互的智能体。正是因为“主动”这一特点,使得Agent可以处理更加复杂和开放的问题,比如操控手机、电脑,甚至机器人。这也使得这个领域百花齐放,包含各种不同的topic,每个topic又有不同的setting。
B. LLM-based Agent
在学长的推荐下,一开始选择一个比较简单的LLM-based Agent:visual programming (VP) 进行研究。VP的核心思想是借助LLM生成可执行代码来调用现成的外部工具,从而解决visual-related tasks,比如Visual Grounding、VQA等。前期上手很快,我对该领域的代表性工作进行了error analysis,并发现了一些问题。于是,便计划围绕“分析+解决方法”的思路做出一篇工作。
然而接下来的几个月,我经历了长时间的痛苦期。一方面,VP需要调用ChatGPT,而第三方API存在各种不稳定的情况,时常拖延进度;另一方面,prompt的构造也总是不尽人意。几经失败,我逐渐产生动摇,不断给自己找借口拖延。原定的ECCV投稿被拖到NIPS,又拖成TPAMI,最终在下半年草草投到了《软件学报》,却被拒稿。现在又重新整理计划,准备投稿ACL。这篇工作给我带来了两个重要的教训:
- 工作立项前一定要做好项目管理
在立项前,必须充分考虑工作是否有意义、预期效果是什么,预期的可行性如何,不能“意识流”地开始。 - 一旦立项就要坚定信念,相信自己的眼光
项目一旦启动,一定要坚持到底。回想整个过程,其实我在这篇工作上起步非常早,原本是很有优势的,但中途因缺乏信念、犹豫不决,被别人赶超。同期的几篇类似工作都被接受,其中一篇还成为了MM oral。
这篇工作给我带来了两个教训:1. 立项一篇工作前一定要做好项目管理,先考虑清楚工作是否有意义,预期的效果是什么,该预期的可行性是多少,不能”意识流“。2. 一旦立项就要坚定信念,相信自己的眼光,一定要做出来,一定要做好。回想整个过程,其实我着手这篇工作的时间点是非常早的,一开始也是很有优势的,就是在这个过程中没有坚定自己的想法,被别人赶超,同期的几篇类似的工作都被接受,其中有篇还是MM oral。
在做VP这篇工作的过程中,我也尝试了一些其他LLM-based Agent相关的研究,逐渐发现这个领域的核心在于如何更好地应用和落地大语言模型。因此,工程问题往往大于科研问题。通过组内讨论,我们一致认为,只有与真实的物理世界交互,才能最大程度发挥Agent自主交互的特性。而涉及物理世界的任务也更具挑战性,不再局限于LLM本身,并有更多值得探索的科研问题。于是,我开始转向Embodied Agent——最近较为热门的具身智能领域。
C. Embodied Agent
目前,具身智能领域最火的方向是机械臂,其次是人形机器人。经过调研,我总结出机械臂领域的发展大致可以概括为:
- 最早利用强化学习造原型机;
- 谷歌RT系列通过收集数据验证了端到端模仿学习的可行性;
- 基于RT-X数据的大模型(如VLA)井喷式发展。
相比之下,人形机器人领域的进展还停留在机械臂从强化学习到端到端模型的过渡阶段。综合组内人员安排(今年我们整个小组都转向Agent方向)以及个人期望与兴趣,我选择了人形机器人这一最有意义但也最难的方向。
D. Humanoid Agent
正式决定做人形机器人相关的工作,到现在已经过去了快小半年的时间,却连一个雏形的工作产出都没有。主要原因就在于这个领域涉及大量交叉学科的知识,我们组里又没有人涉足过这一领域,缺乏很多先验信息,只能自己摸着石头过河。所以在探索的过程中就踩了许多坑,走了不少弯路,但到目前算是有了清晰的认识。
E. 其他一些杂项
除了纯粹的科研上的进展,也有一些其他和科研间接相关的结果/moments:
-
首先是去年一年,一共创作了21篇博客(公众号31篇中10篇是历史文章的同步),其中公众号收获近6万阅读量和近2000的关注,博客网站则收获16万多的访客和97万多的点击,还是比较有成就感的。
-
其次,今年6月份有幸去西雅图参加了人生第一次学术会议,第一次出国,第一次与人全程英文交流等…非常感谢团队的支持和资助,也感谢签证官的手下留情。
-
最后也是年末的一个意外之喜,就是CVPR论文获得了SCF四川计算机学会优秀学生论文提名,希望接下来的工作可以去掉”提名“二字。
F. 团队贡献
今年由于一些原因,组里的项目又多又大,我也参与5个以上的项目,其中深度参与了两个重大项目的申报。虽然过程比较艰辛,有时连着几个星期没有周末,加班到深夜,隔天又要早起。但这个过程中也有很多收获,也感受到了团队的凝聚力,找回一点本科参加ACM集训的感觉。
1.2 生活方面
A. 运动和健身
首先是去年立的flag:一年的三分之一天要去健身房锻炼,也算是做到了,全年共撸铁135天。量化来看,卧推水平从40KG涨到了70KG,正式突破一倍体重;深蹲也突破了100KG的重量。
B. 旅游和摄影
去年一共去了十来个不同的地方,拍过不少好看的照片,更爱风光摄影了,还在年末开了一个xhs账号(影途拾遗),准备开始记录摄影作品。
C. 读书与思考
23年末立了flag要在24年看至少5本书,包括心理学和金融学等,但并没有完成,约莫算是看了两本半吧,主要还是不够自律,没能坚持下来。
D. 心理与情绪
24年的心理状况总体评价是较为糟糕的,主旋律是各种原因导致的焦虑和内耗。其中最主要的焦虑来源就是长达一年没有科研产出,甚至是没有一点清晰的研究点。可能是一开始的CVPR太过于顺利,巨大的落差下无法适应,常常陷入自我怀疑之中。科研路上频频受阻,急于就成的心态和求而不得的现实相互冲击,一点点浇灭我对科研的热情。于是便时常进行短暂的放纵,再重拾快乐,push自己继续挖掘可做的工作。但不得不承认的是,24年在科研上的时间确实没有23年那么多,25年真的需要做出调整了。至于对科研产出的焦虑,就时刻提醒自己做到:”let the research be your goal,not the tools“ 吧。
除了焦虑和内耗,从很多方面也能感到自己愈发浮躁了。已经很久没有能够静下来看完一本书了,每个视频都要用倍速播放,论文也是草草看完,也不愿意追发布会而是等着第二天的各种公众号速览推送,就连五分钟的冥想也难以做到… 这带来最直接的影响就是没法接近完美的完成一项工作或者一个任务,总是快速做完,草草收尾,最后暴露出一堆问题。剖析其原因一方面是因为社会整体的浮躁,另一方面是对于各种形式落后的担忧,希望在新的一年可以慢慢找到属于我的静心之道吧。
最后,还有比较矛盾的两个心态:面对科研,有时妄自菲薄,有时又狂妄自大。前者导致我在进行一项工作的时候总是无法坚持到最后,觉得自己的想法有问题,工作不够优秀,别人比我更好。后者又导致我有时不愿采纳别人的意见,经常会固执地坚持自己的看法。对于这两点目前我还是比较苦恼,很难找到一个中庸的状态——既能接纳别人的建议,又能坚定自己的信念。
2. 展望2025
不管怎样,2024已经过去,不能沉浸在过去,还是要放眼2025,争取超越去年的自己,所以接下来展望一下我的2025。
首先,在科研上走“一个中心,两个基本点”的基础路线:
- 以“Humanoid”为中心,以建立更通用自主的人形机器人为最终目标。
- 坚持“LLM/VLM赋能”的方针,借助预训练大模型解决长距任务和逻辑推理。
- 坚持“视觉自主感知”的方针,借助视觉等模态自主获取任务目标,而不是依靠人为指定。
- 此外,对于机器人控制方面的工作,只做了解,不去深入研究,避免过多精力的浪费。
在此基础上,25年沉下心来好好做出至少两篇令自己满意的工作,并初步建立自己的科研体系,提升论文写作能力和科研思维。
其次,在生活上时刻提醒自己 slow down and be passion!!!
此外,在运动方面,希望可以建立一套科学的健身体系,而不是无脑冲重量。在博客记录上,规划产出至少3篇用心的文章。在看书方面,希望能完整的读完5本纸质书。
祝大家蛇年快乐,idea多多,投稿必中!最后,送给自己也送给大家,8个字: