周五,周昀和匯金的人正式簽訂了預研項目合同,只要預研項目能夠達到預期標準,那接下來就是真正的大項目。
雙方通過一周的時間,溝通了需求還有匯金需要提供的資源。
匯金的需求很簡單,之前就已經談的差不多了,現在只是更加明確一點,
他們需要的是一個能夠預測某只單一股票的模型,消耗資源要盡可能少,準確率要盡可能高,這也是后續他們為周昀提供多少支持的重要依據。
至于資源方面,財大氣粗的匯金提供了64張H100的顯卡集群,還有相互配套的處理器和內存,其價值已經超過了千萬。
因為說是預研項目,但其實除了在數據量和模型架構上有所閹割之外,現在要做的版本和最終版本在最核心的東西上是差不多的。
畢竟只要能精準預測一支股票,就能精準預測無數支,兩者之間無非就是數據量上的差別。
匯金顯然知道其中的難度,所以才會這么大方。
在周昀的預估中,這些資源應該是綽綽有余的,因為他研究的模型在算力的消耗上本就比市面上的同類型模型要低。
匯金還支付了周昀一個月兩萬的勞務費,按照合同,他需要在一年之內完成預研項目,如果失敗了,他就要加入匯金。
按理來說,這種大項目,這樣的驗收時間并不算富裕,不過周昀有信心一年之內搞定。
實驗室里,周昀并沒有第一時間就開始設計方案,反倒是開始看起了論文。
因為不管是前世還是現在,他接觸的都是“小模型”,這里的小模型指的是LSTM、CNN、FCN這種結構單一,參數量不大的輕量級神經網絡。
而他現在要做的項目則需要用到真正意義上的多模態大模型,這種大模型現在普遍都是基于Transformer架構,
雖然Transformer非常厲害,但是也有一個缺點,因為他的主要核心Attention也就是注意力機制,
這種算法的時間復雜度復雜度是O(n^2),所以需要的計算量非常大,這也是為什么現在市面上的大模型訓練需要的顯卡都是幾千幾萬張。
大模型和小模型之間除了算力消耗和成本上有著巨大差異,在整體架構上也有著明顯的差異。
一個小模型可能只需要幾百行代碼就能完整的寫出來,然后開始運行。
而一個真正意義上的大模型想要正常運行,除了其核心代碼之外還需要各種的配套功能的代碼,這些加起來幾萬行都算是少的了。
他在這方面的,不管是經驗還是知識都很欠缺,所以第一步就是——看文獻,至少要熟知多模態大模型領域所有的先進技術之后,他才會開始計劃怎么將現有參數量不大的模型進行升級。
其實這一步應該是在談項目之前就做的,只不過周昀那個模型的性能實在太優秀了,
再加上他在和匯金的人談判的時候表現得太過淡定,這讓別人以為他在這方面有了一定的積累,這才直接敲定了項目。
不過這都無傷大雅,憑他現在的英語水平和理解能力一天刷個十幾篇論文不是問題,最多一個月,他就能把大模型領域的技術摸得差不多。
時間來到了七月底,距離周昀和匯金的談判已經過去了兩周時間。
周一,周昀照常來到實驗室。
正當他打開電腦準備刷一刷今日份的論文時,沈瑞抱著個筆記本電腦走到他身邊。
“周昀師弟,有件事我想找你幫個忙。”他有些不好意思地笑了笑。
“你說。”
“是這樣,我之前不是把論文初稿給鄧老師看了嗎?改了幾次他都不滿意,說是創新點沒有,模型性能沒有提升,工作做的再多也沒用,
但是他給的幾個建議我都試了,沒什么進展,上周組會我匯報的時候不還是被罵了一頓嗎?”
一說起這個他就頭大,也不知道自己當初為什么來讀這個研究生,和周昀相比,他感覺自己笨的就像是個草履蟲。
“行,我先看看論文?”
反正看一篇論文他也花不了多長時間,都是同門,而且平時師兄對他也都不錯,經常請他喝咖啡奶茶,還時不時請他出去吃飯。
“太謝謝你了,真是不好意思,我也知道你最近很忙,我這也是實在沒辦法了,要是再這樣下去,我感覺肯定是要延畢了。”沈瑞一邊感謝一邊打開電腦。
周昀接過電腦,快速的滾動鼠標,沈瑞的研究方向是網絡流量的概念漂移,
所謂概念漂移簡單來說就是,一年前微信的流量在網絡中的樣子是A形態,但是過了一年之后因為相關協議,軟件升級,他在網絡中的樣子變成了B形態,
這種變化導致了現有的網絡流量檢測模型無法做出準確的判斷,這個變化的過程就能大概理解成概念漂移。
這個方向他也挺熟悉,因為他前世給老師做橫向的時候也有過涉獵,所以引言和相關技術部分他掃一眼就知道是怎么回事。
因為現在的論文都有了成熟的套路,前兩部分都寫的沒什么太大問題。
不過當他看到方法部分的時候,知道了問題所在。
說實話沈瑞的方法發個CCFC或者SCI二區的期刊都是夠了,但是鄧老師的要求比較高,被噴也是無可厚非的事情。
看著論文,周昀不由得搖頭笑了笑。
這模樣看的沈瑞心臟不爭氣地一跳:“周昀,我這論文問題很大嗎?”
對于周昀,他現在是完全信任的,其地位在他心里和鄧永華沒什么區別,要是連他都搖頭的話,豈不是說明自己這論文完全沒救了?
“沒事,問題不大.....”周昀翻閱著論文解釋了一句。
他笑是因為他在沈瑞身上看到了曾經的自己,也是一樣,沒什么天賦,**文只能靠著對別人的模型修修改改,加點模塊。
沒辦法,天才終究是少數,大多數的研究生甚至博士生所謂的科研,也不過就是做著“學術裁縫”的事情罷了。
“如果只是想發文章的話,你只需要增加一個模塊就好,現在你的模型對概念漂移的檢測準確率不高是因為它無法準確識別其中的魯棒性特征,你只需要......”
周昀還貼心的幫忙找到了相應的論文和github代碼鏈接,只要沈瑞照著別人的代碼把相應的模塊縫到自己的模型上,那不管是創新點還是性能提升就都有東西能寫了。