周一,剛上完課的周昀吃完中飯甚至沒有休息,就直奔鄧永華辦公室。
無他,他要提前畢業!
上午這種水課簡直是在浪費他的時間,睡覺還能養足精神呢,上這種水課完全就是精神和**的雙重折磨。
“老師,我想提前畢業。”周昀眼神異常堅定地看著鄧永華。
后者對周昀的想法并不感到奇怪,畢竟提前畢業這事情還是他提出來的。
“決定了?”
“決定了!”
“好,學分上的事情我幫你問問,雖然不符合規矩,但是規矩是死的,人是活的,別人的話我不好說,但是你的話,學校這邊應該沒什么問題,
不過既然想要提前畢業,畢業論文肯定要寫的,你可以想一想,如果你想快一點,就直接跳過開題,和這一屆研三的學長一起,
如果不著急就先開題再寫論文,和明年邱彥他們一起畢業,怎么選看你自己。”
稍作思考,周昀當場就給出了自己的決定:“我要和這一屆研三學長一起畢業,這課他真的是一節都不想再多上了!”
鄧永華點點頭:“既然你決定了,我肯定是支持的。”說著他拿出幾張紙:“不過該有的程序還是要有的,這是開題的表格,你先填好,到時候走程序也能方便一些。”
“那平時的課還要去上嗎?”
“不用了,這段時間你專心搞你的畢業論文就好,不過十二月份咱們要去溫哥華參會,最好是在這段時間內搞完,等開完會回來估計就是最終的答辯了,一個月的時間會不會太緊了?”
“不會!我肯定會在開會前弄完的。”
“對了,就算是畢業論文也別想著蒙混過關,你想要提前畢業,要求只會更加嚴格,而且畢業論文以后是會跟你一輩子的東西,一定要認真對待!”
鄧永華很是嚴肅地提醒了一下,他是怕周昀為了趕緊畢業,水一篇質量一般的論文出來。
“好,我明白的。”
拿著幾張紙,回到實驗室。
周昀坐在位置上思考著畢業論文的選題,手指無意識地敲打著桌面。
寫過論文的都知道,一個月從零搞一篇畢業論文幾乎就是不可能的事情。
所以他如果想要完成,從現有的工作出發算是一種方法。
他現在做的工作不多,能選的只有倆——模型壓縮,多模態大模型。
多模態大模型肯定不行,跑個實驗一個月就過去了,更別說什么畢業論文了。
模型壓縮?其實也不太好做,跑實驗也要不少時間。
那他剩下的只有一條路——搞理論。
他說的搞理論也不是純理論,而是那種只需要小型驗證性實驗的模型基礎架構方面的研究,比如提出Transform的《Attention Is All You Need》,實驗部分其實并不算多。
直接提出一種全新的技術模型架構?
說實話,這個問題他想過,而且時間很久,久到可以追溯到上輩子。
雖然上輩子周昀沒這么聰明,但是當他第一次接觸到Transform的時候就在想,他能不能研究出一種更加厲害的基礎架構。
當然了,這在上輩子完全就是幻想。
所以平時有空的時候他就會抽出時間思考這個問題,所以邱彥他們經常能看到周昀獨自一個人坐在位置上發呆,而且一坐就是幾個小時。
但哪怕他覺得自己現在已經足夠聰明,可是經過近半年的思考,他還是沒能想到什么全新的架構,終究還是被束縛在Transform的框架之下。
不過他也沒有氣餒,畢竟這東西要是研究出來,說一句名垂千古都不為過。
更何況他還年輕。
既然新的架構不行,就只能從他熟悉的兩個領域入手了。
他的手指一頓,突然想到了一個非常好的選題,如果能做出來,貢獻也絕對是巨大的。
這個選題就是——多模態融合中的最優傳輸理論。
多模態學習的核心是如何將不同模態(視覺、語言)的特征空間對齊,當前的方法通常使用的是交叉注意力機制,甚至是更為簡單的點積或余弦相似度。
而最優傳輸(Optimal Transport, OT)是一種數學理論,致力于尋找將質量或概率從一種構型轉移到另一種構型的最有效方式,從而最小化給定的成本。
他的想法就是將對齊問題建模為OT問題,當然,這個OT問題肯定會非常難,因為每一個特征的維度都是非常高的,而多模態的特征又非常多。
所以他就聯想到了人類的大腦,人腦在處理不同感官信息(視覺、聽覺、觸覺)時,似乎在底層存在著一種統一的“意識流”,
各種模態的信息涌入后,被映射并在這個流中進行交換、融合和理解,比如聞著榴蓮吃西瓜,就會產生一種通感。
而他要做的就是,如何將這個所謂的‘意識流’用數學的方法表現出來,他能想到的最為接近的理論就是OT理論。
至于為什么一定要將信息融合其實也很好理解,打個比方,你要向一個來自外星系、完全不懂地球文化的外星人解釋什么是“蘋果”,
你不能只給它看一張蘋果的圖片,或者只給它一個蘋果吃。
因為這些信息對它來說都是割裂的、無法理解的,所以我們需要將每種信息變成一種感覺,比如蘋果可能是甜的,酸的,可能是綠的,紅的......
而人在學習一個陌生的事物時候也是差不多的流程,比如神農嘗百草,先了解這個草藥不同的特性,然后再給它下一個定義。
同理,要讓AI理解世界,這個步驟也是需要的,你得先讓AI理解,蘋果的一些基本特性,這也是很多大模型都在做的一個步驟。
接下來的一步便是信息融合,也就是告訴AI一個更加高級的統一語義空間,告訴它,雖然信息的模態不同,但他們描述的都是同一種東西,這就是融合的步驟。
這也是現代多模態大模型能同時處理不同模態信息的原理。
只不過在將不同模態信息納入這個統一語義空間的語義空間時,現在的方法仍然有很多的不足。
這個問題也是真正實現AGI路上的一塊絆腳石。