文生視頻模型Pika創(chuàng)始人郭文景(Demi Guo ),“Mobile Aloha”全能家務機器人研發(fā)團隊成員符梓鵬 (Zipeng Fu)、趙子豪 (Tony Zhao)以及史瀟洋 (Lucy Shi)……斯坦福大學人工智能實驗室里年輕的華人研究者身影頻頻引發(fā)關注。
史瀟洋三人同屬于斯坦福IRIS (Intelligence through Robotic Interaction at Scale)Lab,導師為Chelsea Finn。史瀟洋最新的研究成果是名為“Yell At Your Robot”(簡稱YAY Robot)的系統(tǒng)。有了這個系統(tǒng),可以通過“喊話”來訓練機器人。澎湃科技(www.thepaper.cn)近日專訪了她。
史瀟洋
23歲的史瀟洋,2019年畢業(yè)于中國人民大學附屬中學后進入南加州大學就讀計算機專業(yè)。其間,她曾在英偉達研究多模態(tài)大模型,并曾與知名AI學者Chelsea Finn, Sergey Levine, Jim Fan博士合作,也曾受谷歌DeepMind邀請發(fā)表過演講。
以學生研究員身份加入斯坦福大學人工智能實驗室的史瀟洋,最大的感受是斯坦福自由的學術氛圍。在這里,可以得到更多人工智能、 計算機領域的人脈以及研究資源的支持。同時,她也能感受到硅谷AI創(chuàng)業(yè)氛圍的熱烈,可謂機遇與風險并存。身邊會有人工智能創(chuàng)業(yè)團隊,甚至還沒有正式的企業(yè)名字和商業(yè)計劃,就吸引了7000萬美元的投資資金。
作為年輕的技術理想主義者,史瀟洋的研究目標是,創(chuàng)造聰明的機器人,流暢地執(zhí)行人類日常的復雜、長期的任務,“從家庭到工廠,幫助人處理乏味和危險的事情。”她堅信人類的聰明才智和人工智能的潛力。
以下是澎湃科技與史瀟洋對話實錄:
“家務場景讓機器人可以更深度學習”
澎湃科技:之前出圈的Mobile Aloha是一款家務機器人,這次的Yell at Your Robot系統(tǒng)。實驗很多場景也是建立在家務場景中。為什么會瞄準家務場景?
史瀟洋:傳統(tǒng)的機器人方法通過程序規(guī)定了一系列機械的動作。但我們更偏向于通過深度學習(Deep Learning)的方法來訓練機器人,讓機器具備泛化的能力,希望能夠在無限的場景里,機器人都能知道該如何應對。
家務場景可能每天甚至每個小時都會出現(xiàn)各種各樣的變化。在家務場景中,可以讓機器在從來沒有見過的場景中探索、學習。這是算法和數(shù)據(jù)的問題。我們希望給機器一些簡單的自然語言的指令,它就可以完成一些沒有做過、不太會的事情。
工廠學習的場景比較固定,特定情況下傳統(tǒng)的機器也可以做到。家務場景則比較復雜,傳統(tǒng)機器人很難做到,但機器學習是有可能的。當我們給相當量級的模型和數(shù)據(jù),機器就有可能通過深度學習達到像人一樣泛化的能力。
YAY Robot實驗場景
澎湃新聞:為什么會給這個系統(tǒng)取名為Yell At Your Robot?
史瀟洋:我們原本還有一個相對學術的名字,考慮到可能大家都不知道在說什么,最后決定反其道而行之,取了一個比較通俗易懂的名字。
做機器人的都知道,讓機器人去學習是非常痛苦的事情。有時候,機器人就像一個小孩子,譬如在訓練機器人做飯這類復雜任務過程中,可能就差“手往左挪半厘米”就完成了,這時我們想到的最簡單、最直接的方法就是說話,“往左挪一點”,或者“用勺子把袋子撐得再開一點”這類非常日常的語言都是我們的指令。在模型的一個輸入層,我們用了大語言模型,使得機器對于日常語言有比較好的理解。這就像是有大模型去把我們說的話翻譯成機器人聽得懂的語言。
澎湃科技:你們花了多久時間研發(fā)?
史瀟洋:這個項目本身做了將近半年時間。我們在這個項目上比較拼,做挺快的。
項目團隊一共有8個人,以博士生和研究員為主,此外有兩個教授和兩個博士后。
我們基本每周都會開組會。因為我們做的是一個系統(tǒng),從更底層的軟件硬件到整個數(shù)據(jù)收集系統(tǒng)、數(shù)據(jù)質量評估,所有的工作都是我們自己來完成,系統(tǒng)搭建好后,還需要不斷迭代算法和模型,讓機器人在真實世界中做訓練和評估。
澎湃科技: 對于這個系統(tǒng),你們后續(xù)還會有哪些計劃?
史瀟洋:后面還會有更多工作。包括讓YAY Robot系統(tǒng)能處理更復雜的問題,比如我們可以用很簡單的自然語言指令,加上一些簡單的教導,讓機器人完成一個從未做過的家務活,讓機器人可以根據(jù)用戶的意愿服務。這里可能會涉及更多技術問題,比如我們在收集數(shù)據(jù)過程中,如何通過一套算法來分辨數(shù)據(jù)的優(yōu)劣,將無用的數(shù)據(jù)變成有用的數(shù)據(jù),如何利用大語言和多模態(tài)視頻模型,以及讓機器人學習該如何更好地學習等,這可能是后面幾個月我們要繼續(xù)探索的事情。
我們會和一些院校和企業(yè)合作,校內項目的所有代碼都會開源。跟企業(yè)合作的好處是可以獲得更多的計算資源,但是能不能把所有的技術細節(jié)都開放,雙方還需要再談。
無論高校還是公司,“訓練數(shù)據(jù)成本高”都是難題
澎湃科技:這款系統(tǒng)發(fā)布后,收到了哪些反饋?
史瀟洋:其實我們發(fā)布之后,除了社交平臺上的評論和學術圈的反饋外,還收到了很多企業(yè)和風險投資公司的郵件。人工智能企業(yè)主要是詢問我們能否幫他們訓練模型,比如訓練機器人訂機票,或者用在人形機器人上,還有想了解算法細節(jié)的,風險投資公司則很直接,就問我們想不想創(chuàng)業(yè)。
這些反饋讓我對人工智能有了更多希望。很多科技的進步和發(fā)展都需要資本力量的推動,也需要人才。在這個過程中我見到了很多非常有才華的人,如果有了資本和市場的加持,人工智能在后面幾個月或幾年時間里,會出現(xiàn)更多突破性成果,會有更多有影響力的產品,這很重要。
澎湃科技:所以真的可以訓練機器人幫忙訂機票嗎?
史瀟洋:在理論上是可以的,但在實操上最難的一個問題是數(shù)據(jù)從哪里來?需要知道人們訂機票的時候有哪些步驟。現(xiàn)在大語言模型的優(yōu)勢是互聯(lián)網給它提供了相當多的語料作為訓練數(shù)據(jù),但包括訂機票、做家務這類需要做決策的事情,是沒有數(shù)據(jù)的。現(xiàn)在很多公司項目科研和大學的科研都面臨同樣的情況,即訓練數(shù)據(jù)成本很大。
斯坦福的科研環(huán)境整體是蠻好的,當然這也取決于研究領域和具體的實驗室。我個人非常喜歡這里自由的學術氛圍,導師鼓勵大家去探索從來沒有探索過的話題。
這里也有很多計算機領域的人脈資源,很多人工智能公司都在硅谷,斯坦福也有相當不錯的校企合作的氛圍。在人工智能的發(fā)展上,資本很重要。深度學習為什么能騰飛?是因為有顯卡、有計算資源。顯卡的發(fā)展在某種程度上得益于游戲界。世界上太多人打游戲,造就了這些游戲公司,然后有了越來越好的硬件和顯卡,有了更好的顯卡,就能訓練更大的模型。這些大模型越來越好,就有了今天的人工智能。
資本熱度非常高,機器人將會高速發(fā)展
澎湃科技:你剛剛說斯坦福的學生和硅谷AI公司聯(lián)系非常緊密。現(xiàn)在硅谷創(chuàng)業(yè)的氛圍是怎樣的?
史瀟洋:硅谷現(xiàn)在最受關注的創(chuàng)業(yè)方向主要有兩類,一是AI,還有一個是Web3。也有很多以往做電商平臺的,重心開始往AI方向上轉。
硅谷AI創(chuàng)業(yè),只能說資本非常熱。比如我知道的一家人工智能創(chuàng)業(yè)公司,在都沒有名字和任何商業(yè)計劃時,就拿到了7000萬美元的投資。現(xiàn)在創(chuàng)業(yè)公司像雨后春筍一樣出來了,但競爭也相當激烈。
澎湃科技:你會考慮去創(chuàng)業(yè)嗎?
史瀟洋:會考慮,但也會考慮風險以及技術有沒有到一個正確的時間點。我覺得商業(yè)上的成功是非常需要天時、地利、人和的,哪一點沒有滿足都很難。我覺得我還是蠻學術的一個人,當前還是想要深入探索一些學術問題,比如機器人或者人工智能體有沒有辦法實現(xiàn)自主提升和高效利用數(shù)據(jù)等。
澎湃科技:你對機器人的興趣是什么時候開始有的?
史瀟洋:對機器人的興趣可能來自于對航天的興趣。讀高三時,我對航天產生了興趣,因為航天領域有很多不太安全的工作,需要通過機器人來解決。但是整個世界上還沒有多少聰明的機器人,所以我想造聰明的機器人。
我現(xiàn)在做人工智能科研,相信人工智能對社會的進步非常重要,不管是對于科技還是對于社會。但我同時也很確定世界上有很多也同樣重要,比如新聞媒體,我也曾做過學生記者,大學時也學過哲學、社會學,后來跨界到航天工程,也在商學院待過。我一直都是不太安分的類型,不停地提出問題,也在尋找答案,現(xiàn)在我很堅定地在做人工智能。
我覺得科技需要快速發(fā)展,但同時也要確保其中的安全性,而且要確保科技最大化地覆蓋最大的群體,而不是只針對一些精英階層。尤其是在人工智能領域,還有很多社會問題,比如法律規(guī)范問題、公眾教育問題,和社會公平,這些都需要更多的思考。
澎湃科技:你理想中,未來人工智能發(fā)展理想的情況是什么樣?
史瀟洋:用一個詞來概括的話,就是IA(Intelligence Augmentation),智能增強,現(xiàn)在人工智能是AI(Artificial Intelligence)。未來的人工智能不僅可以解決我們物理上的需要,比如回家后機器人已經做好飯、打掃了衛(wèi)生,給我們更多自由的時間和空間,另外也可以推動創(chuàng)新和科學發(fā)展。我希望智能系統(tǒng)可以幫助我們解決很多這樣的問題。
澎湃科技:具身智能概念在2024年討論度非常高。在你看來,2024年機器人的發(fā)展趨勢會是怎樣的?
史瀟洋:整體應該會往更功能、適用的方向發(fā)展,比如家務場景的機器人今后可能會更多。也會有一些機器人公司會往更細分的領域走。
機器人將會受到更多的關注。之前人們關注的人工智能子領域近些年有突破性發(fā)展,幾乎快被解決了。機器人可以算是最難解決的一個硬骨頭。現(xiàn)在越來越多的人試著去參與,啃這塊硬骨頭,所以會有大量的人才、資金涌入,機器人將會進入一個高速發(fā)展的階段。這也許會引發(fā)第四次工業(yè)革命。
《中國城市報》社有限公司版權所有,未經書面授權禁止使用
Copyright ? 2015-2025 by www.yktax-zh.com. all rights reserved