回来了

我回来了。回顾了一下上次写博客,已经是1月份了。

这8个月发生了太多事情。先是前3个月因为疫情呆在家,百无聊赖。疫情期间好好准备实习,疯狂刷题,面了好多家公司,最后运气比较好来到了字节AI-Lab做NLP算法实习生,主要研究机器翻译方向。

5月开始回到上海,正式开始自己的实习之旅。新的环境新的人,对此我异常兴奋。在字节期间遇到的人和事令我耳目一新。在字节Lab我遇到了很多大佬,极大地开阔了眼界,了解到了大公司/好的团队是如何运作的,见识到了许多新鲜的事物,对初入职场的我可以说是收获满满。

前两个月是辛苦的。

第一个月刚来,按照mentor的指示将他们之前没中的论文做完善。当时距离EMNLP仅有20天左右,而在和mentor讨论之后我决定将所有的实验推倒重来,因此任务是十分艰巨的。这20天里每天夜以继日地做大量的实验,在最后一段日子里还要兼顾撰写论文。每天平均都工作到11点半。

仍然记得最后一天在公司写论文到半夜3点多,回到家后洗漱一番接着写论文,越写越兴奋。本来想小憩一两小时的,毕竟第二天还要写到晚上8点。但躺在床上仍然精神亢奋,因此又爬起来一直写。幸好第二天中午被告知EMNLP deadline推迟了2天,才终于有比较充足的时间来写论文了。即使如此,到了真正的deadline我们还是非常赶,在deadline之后还提交了好几次才罢休。

幸好我们的努力有了回报,前几天刚收到邮件,我们的论文被EMNLP接收了。

在休息了几天后,因为WMT比赛团队缺人手(仅有两人),mentor又叫我帮助他们打比赛。WMT是机器翻译的一个国际性比赛,设有几个不同的语言对的榜单,参赛队伍的目的就是将榜单刷高。当时距离比赛仅剩20来天。我分析了一下我们的进度以及我们的优势,发现团队之前的力量过于分散,只有两个人却分别负责不同的语对,并且相互之间没有交流。我们的优势是我们的卡多,而我们的劣势则是我们团队人少(我们了解到其他公司的团队的人数都远远多于我们),因此我们应该集中精力将一个语对做好,然后再将经验推广到其他语对上。我们决定先做En-De语对,在做了一周之后,将整体流程确定下来了,我们再开始做其他语对。

整个比赛过程是漫长而痛苦的,我们夜以继日调参、做实验、开会分析、再做新的实验。我们疯狂跑实验,最多时估计三个人占了400+张卡。在最后几天测试集公布后,我们更是疯狂地找问题,做试验,不断地尝试刷高榜单。在一开始我们的排名非常靠后,团队陷入低落的情绪,大家一直百思不得其解,不知道问题出在哪。终于一次不经意的尝试,我们终于找到了问题所在,原来是不能用greedy ensemble。从此我们才走上正轨。

最后结果虽然不算好,不如我们的预期,但总的来说还是马马虎虎的(1个语对第一,4个语对第二)。我们赛后分析总结了,认为我们前期浪费了太多的时间,如果再给一些时间,我们或许能够获得好很多的成绩。不过我们还是不做假设了,接受这个成绩,期冀来年再战。

一来就赶了两个deadline,让我肝得有些怀疑人生。虽然这种团队一起奋斗的感觉很好,但还是要注意身体的。

进入到7月,我终于开始恢复正常的作息了。每天工作、健身、读书、团建,按部就班。Lab的氛围很好,公司的福利也不错,因此每天过得挺开心的。我已经将我的方向换为多语言机器翻译了,因此就开始对这个领域进行全面的调研,并且每周和mentor一起讨论,思考接下来的方向。

我想着,是否要恢复博客了呢?是啊,现在是有时间写博客了,而且积攒了那么多的东西没写,看了那么多的论文也想总结一下。可是还是太懒了,就一直拖着。

而到了8月和9月,我就开始将重心偏向撰写毕业论文了。在工作方面,则是继续新方向的探索。

9月15日,我终于将毕业论文提交上去了。我近期要忙的大概也只有转正和秋招了吧。我想,或许是时候恢复写博客了。我想起之前有个读者发邮件问我怎么这么久都没写新的博客了,希望我能回归。我当时回复说是因为疫情期间没什么可写的就不写了。没想到一晃又四个月过去了。

好吧,无论如何,我还是回来了,还是每周写一点东西,回顾一下一周做了什么。受同事的启发,我以后可能还会在知乎上写点东西,大概在博客写些日常和论文笔记,而在知乎上可能会写一些survey类的总结和思考。