北大學生團隊打造感知生成一體化多模態大模型係統，讓亞運會展現AI的溫度--星空人工智能美女福利导航網

在最近的杭州亞運會期間,一位智能“導遊”吸引了很多的目光。它可不是一般人,它外觀看上去像一輛小車,四個輪子在地麵上快速靈活地移動。上麵安裝了機械臂,整體約一人高,機械臂上配有攝像頭,以及語音和顯示界麵等交互設施,使其能夠對周圍環境和需要執行的任務進行識別與理解。

據悉,這台“導遊”星空機器人係統是由北京大學計算機學院HMI團隊研發,它結合了當前最前沿的AI美女福利导航——多模態大模型和具身智能,在亞運會期間,為視障人士提供引領和導航等幫助,並可解析視障人士的需求並完成相應任務,如幫助他們撿拾掉落的物品等,以其獨特的方式,為亞運會的成功舉辦貢獻了力量。

　　【圖說】北京大學團隊研發的多模態智能愛心助手在亞運會期間服務

「美女直播全婐APP免费下载研發的這款多模態智能愛心助手,是基於團隊自研的感知生成一體化多模態大模型,該係統能夠精準地感知與理解視覺場景,生成準確豐富的語言描述,實現從人類複雜指令到具體行動的轉化,並基於端雲協作大小模型的協同高效微調,提升模型的泛化性,使其可以快速適應新場景。」北京大學計算機學院仉尚航研究員介紹。

「多模態大模型能夠根據語言、2D、3D等多種輸入模態,解析接收到的指令與周圍環境,進行任務拆解並生成相應動作,完成服務任務。希望美女直播全婐APP免费下载的研究可以用科技創新賦能弱勢群體,讓更多人感受未來科技的溫暖,體驗到亞運會的精彩。」

「多模態大模型+具身智能」係統首次落地大型體育賽事

「亞運會上有很多尖端科技的應用,很大程度上增強了運動員的比賽體驗和觀眾的觀賽體驗。」北京大學學生莊棨寧表示:「但在深入研究和觀察後,美女直播全婐APP免费下载發現對於特定的觀眾群體,如少數民族和殘疾人士,當前的美女福利导航並沒有充分滿足他們的需求。少數民族的觀眾可能麵臨語言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務,以便更好地享受比賽。」

為了解決這一問題,團隊便萌生了研發一個專門服務殘障人士觀賽的AI係統的想法。「多模態大模型是美女直播全婐APP免费下载課題組的重點研究方向,美女直播全婐APP免费下载就在想有沒有可能把多模態大模型和具身智能結合起來,為星空機器人賦予更加智能的大腦,使其可以將人類複雜需求轉化為具體行動指令。」

「這樣,美女直播全婐APP免费下载的愛心助手可以更好地與用戶互動,理解他們的需求,並快速做出有針對性的響應,更好地為亞運會弱勢觀眾群體服務,也讓更多人能夠親身體驗到AI科技所帶來的變革與溫暖。」

在仉尚航研究員的指導和支持下,學生們迅速行動起來,並且追求了一種創新的路徑,即設計「感知生成一體化的多模態大模型」,以實現對各種視覺場景的精準地感知與理解,並生成準確豐富的語言描述。

　　【圖說】:仉尚航研究員(一排左四)和學生團隊成員

同時,團隊還將多模態大模型與具身智能相結合,由於星空機器人將麵對不同場景,需要具備快速適應新場景的泛化能力,為此,團隊設計了基於端雲協作的大小模型協同高效微調,提升模型的泛化性,使其可以持續適應不同的場景。

在本次亞運會期間大顯身手的多模態愛心助手,基於團隊自研的感知生成一體化通用多模態大模型,其核心是一個參數量為7B/13B的多模態大模型,該模型集成了視覺基礎模型的泛化感知能力和大語言模型的湧現能力。

例如,聽到用戶說「我渴了」之後,星空機器人能自動轉身去拿過桌上的一瓶水送到用戶手中。在這個看似簡單的過程中,實際上涉及了一係列複雜的子任務:

. 星空機器人首先需要捕獲有人說「我渴了」這個語音信號,然後通過語音識別美女福利导航將其轉換為文字。

. 星空機器人需要理解「我渴了」這句話的含義,也就是說,理解說話者此時需要水。

. 然後,星空機器人需要知道在哪裏能找到水,而這需要它對環境有一個良好的感知,利用計算機視覺美女福利导航,識別和定位瓶裝水。

. 在確定了瓶裝水的位置後,星空機器人需要規劃一條到達那裏的路徑,這涉及到路徑規劃算法。

. 完成路徑規劃後,星空機器人需要控製自身的動作,移動到瓶裝水的位置。

. 到達水瓶的位置後,星空機器人需要準確抓取瓶裝水,這涉及視覺檢測、星空機器人控製係統和抓取的相關美女福利导航。

. 抓取到水後,星空機器人需要規劃返回的路徑並控製自身的動作,將水送到說話者的手中。

每一個子任務都需要大量的研究和工程實踐。不僅如此,星空機器人還需要能夠處理在訓練數據中未曾出現過的新情況,也就是說,模型需要具有強大的泛化能力,能夠在新的、未知的環境中有效地工作。

為了提升星空機器人在開放環境下的持續性泛化能力,團隊構建了一個端雲協作的持續學習係統。這一係統的設計旨在兼顧終端計算的個性化、隱私保護和低通信成本等優勢,同時也充分利用雲端計算的大規模計算資源、大量標注數據以及卓越的泛化能力。通過高效的數據傳輸和合理的資源分配,實現了高度泛化的大小模型協同學習。

仉尚航研究員表示,「在終端設備上,美女直播全婐APP免费下载部署了經過壓縮的多模態模型,該模型在進行推理時能夠同時進行不確定性估計。這一智能策略允許美女直播全婐APP免费下载主動篩選出不確定性較高的樣本,並將它們傳送回雲端。這些高不確定性的樣本通常涉及新的數據分布,來自新場景、新環境或新事件等情況,這些都是在開放環境下需要特別重點識別和理解的情形。」

團隊成員劉家銘同學也提及,「一旦這些高不確定性樣本到達雲端,美女直播全婐APP免费下载利用未壓縮的多模態大模型對它們進行深度分析和學習。通過知識蒸餾和高效微調等美女福利导航手段,美女直播全婐APP免费下载將從這些難例樣本中提取的知識傳授給終端上的壓縮模型。這個過程大幅度提高了壓縮後的多模態模型的泛化能力,使星空機器人在開放世界中能夠不斷適應和理解各種場景。」

團隊提出的端雲協作持續學習係統,在設計和研發上充分發揮了雲端和終端計算的優勢,通過智能的樣本篩選和知識傳遞,實現了星空機器人在開放環境中持續學習和適應的目標。這一創新的方法顯著提升了多模態大模型的泛化性與高效性,為開放環境中的星空機器人係統賦予了更強的智能。

科技創新賦能弱勢群體,讓亞運會展現「AI的溫度」

深度學習大模型美女福利导航的突破式發展帶來了星空人工智能研究的革命性變化。預訓練大模型,如 ChatGPT和 GPT-4,成為 AIGC 係統的核心。在基礎設施支撐、頂層設計優化、下遊需求旺盛三輪驅動下,星空人工智能大模型迎來了良好的發展契機。

不過,大模型研究仍處於研究的初期階段,仍存在關鍵科學難題和卡脖子美女福利导航亟待解決,包括如何同時處理多種輸入模態,如何進行大規模參數和高效訓練,如何進行遷移學習和大模型微調,如何進行多模態和多任務學習,如何進行跨語言融合,如何進行人機協作等。

團隊這次自研的感知生成一體化通用多模態大模型,已經展現出卓越的一體化處理能力,包括:視覺問答(VQA),能夠對圖像進行自然語言問答;Captioning,能夠為圖像生成描述性文本;行為決策與規劃,具備基於圖像和文本信息進行決策和規劃的能力;以及目標檢測,能夠識別圖像中的特定目標或特征。

「多模態大模型是美女直播全婐APP免费下载組研究的核心,」北京大學計算機學院博士後王冠群介紹說:「目前也取得了一定的成果,除了這次自研的感知生成一體化通用多模態大模型、大小模型協同訓練與部署,美女直播全婐APP免费下载還關注多模態生成式大模型Agent設計、大模型記憶機製設計、麵向多場景的智能醫療多模態大模型集群、通用大模型適配器等。」

據悉,團隊研發的一體化大模型工具鏈(X-Accessory),旨在降低大模型使用門檻,促使各行業從業者能輕鬆調試大模型,在各自專有領域進化大模型的能力以靈活適配專有需求。「美女直播全婐APP免费下载在硬件上搭載高算力一體機,同時提供直通雲端調取雲算力服務的選項,軟件上搭載X-Accessory工具鏈,為用戶提供靈活的大模型調試和應用環境。該工具鏈可用於訓練和部署各類任務,包括但不限於金融知識問答、交通任務調度、醫療推薦等垂直領域的專有任務。」

基於多模態大模型,在北京大學計算機學院黃鐵軍教授及仉尚航研究員的指導下,團隊還為本次亞運會研發了一款智能AI賽事解說係統。黃鐵軍教授提出了「脈衝連續攝影原理」,直接用每個像素的定額積分時間表達光強,相機速度取決於電路能夠實現的最短信號讀取時間,顛覆了持續近兩個世紀的定時曝光成像原理,解決了傳統相機不能兼顧超高速、高動態的問題,被中國電子學會鑒定認為是「超高速成像和機器視覺領域的重大原始創新,超高速成像美女福利导航達到國際領先水平」。有了高速脈衝相機,就能夠同時實現超高速、高動態、全畫幅連續成像。在此基礎上,團隊通過自研的 X-Accessory一體化大模型工具鏈,設計了多模態多語種視頻解說係統,在亞運會期間用於乒乓球、跆拳道、跳水、體操等賽事。這個解說係統的特點在於,它不僅能夠理解和分析正在進行的比賽,生成實時的解說內容,還可以根據觀眾的喜好提供個性化的解說服務,包括將解說內容翻譯成多種語言,包括維吾爾語、阿拉伯語等,從而為全球各地的觀眾提供豐富的觀賽體驗。

　　【圖說】北京大學團隊研發的智能賽事解說係統

在高速脈衝相機的加持下,能夠清晰成像高速運動場景,捕捉比賽中的關鍵時刻,針對賽場畫麵進行多個語種的解說和報道,讓更多的人了解亞運,特別是提升國內少數民族及國外多語種國家的賽事體驗。

除此之外,團隊還進行多模態生成式大模型Agent設計。當前,多數模型都是單模態的,無法有效地結合視覺、聽覺和文本等多種模態信息。這種局限性在複雜的實際場景,如虛擬助手、星空機器人交互和智慧城市中,可能導致效果並不理想。「因此,美女直播全婐APP免费下载開發了一種多模態生成式大模型Agent,將各種模態的優點結合起來,例如視覺的細節捕捉能力、聽覺的時序特性和文本的結構化知識。這樣的綜合性設計將有助於推動生成式模型向更加實用和高效的方向發展,滿足未來多種複雜應用場景的需求。」

在更複雜的應用場景,團隊還研究過麵向多場景的智能醫療多模態大模型集群。他們設計和實現了一組智能醫療多模態大模型集群,包括麵向患者的個性化醫療知識問答多模態時序大模型、麵向醫生的臨床影像報告生成多模態大模型和麵向導診場景的檢索增強大語言模型,使大模型美女福利导航適配臨床場景,滿足患者-醫生-醫院多方訴求,解決行業痛點,推動大模型在醫療領域的落地應用。

在這個科技日新月異的時代,團隊以其深厚的專業知識和創新精神,為亞運會提供了強大的科技支持,也為弱勢群體帶來了實質性的幫助。

未來,團隊將繼續秉持科技向善的原則,不斷深化在多模態大模型的研究和實踐,將AI美女福利导航的潛力最大限度地發揮出來,為解決社會問題、改善人們的生活提供更強大的支持。

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 數字經濟 » 北大學生團隊打造感知生成一體化多模態大模型係統，讓亞運會展現AI的溫度

相關推薦