Back to Blog
December 28, 2023

【阿里雲】擁有圖文理解能力的視覺語言模型 Qwen-VL & Qwen-VL-Chat

阿里雲是中國阿里巴巴集團旗下的雲計算和人工智能科技公司,在全球各地擁有多間數據中心,為客戶提供穩定高效的雲計算服務,包括計算、存儲、數據庫、網絡、安全、人工智能和大數據分析等。(按此了解阿里雲如何從「三無」成為龍頭以及如何開如上雲。)

強大的視覺語言模型

擁有眾多業務的阿里雲,早前再推出新研發。今年8月尾阿里雲公佈推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,具中英文圖文識別、描述、問答對話和多模態訊息理解功能,同時支持中英文圖文輸入。

什麼是視覺語言模型?

視覺語言模型是一種結合計算機視覺,和自然語言處理技術的人工智慧模型。 它能夠理解圖像內容,並生成與之相關的自然語言描述。 這項技術在圖像標註、圖像搜索、視覺問答等領域有廣泛應用,為圖像和語言之間建立了橋樑。

Qwen-VL和Qwen-VL-Chat 更是在訓練過程中增強了對視覺訊號的細粒度感知和理解能力。比起其他模型一般只支持224分辨率,Qwen-VL則高達448的圖像輸入分辨率。

視覺語言模型的應用及對企業的幫助

這兩個視覺語言模型都可用作知識問答、圖像問答、文件問答、細粒度視覺定位等。例如只要拍下樓層導覽圖,問Qwen-VL-Chat想去的地點在那一樓層,便可以獲得文字回覆。不難想像企業能利用這些功能進行更快捷的文件準備、技術及知識支緩、推廣服務等,無論是透過 Qwen-VL 和 Qwen-VL-Chat 創建一致和獨特的品牌風格,還是以視覺化或拆解圖像的功能,助團隊即時理解、獲得大數據和複雜資訊的結果,都有效增強員工間、甚至企業間的溝通和效率,提升公司的形象和競爭力。

對英文輸入的效果會較弱嗎?

提及市面上暫時最流行的AI對答工具,一般都會認為對中文的支援較緩慢,對英文輸入往往更精準。那麼對於中文為母語,由國企阿里雲出品的視覺語言模型,會相對地更專注於中文語言發展,不適合以英文主為主要語言的企業嗎?

據阿里雲官方資訊:「……對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。」由此可見,阿里雲了解到英文作為很多企業的第二或主要語言,在研發過程並沒有忽略對英文輸入的投入,可以說兼具中英支援的 Qwen-VL-Chat 在市面上具相當大的競爭力。

如何開始使用? 適合您的企業嗎?價錢?

現時人工智能已成為全球趨勢,相信有關技術對各團隊崗位都有莫大幫助。同一時間,若在科技發展快速深遠的時代不緊貼步伐,將會在轉眼間就被追得上時代進程的競爭對手大幅拋離。現時阿里雲可向月活躍用戶少於1 億的公司免費提供該模型,超出數量的企業也可通過我們向阿里雲申請許可證。Multisoft是阿里巴巴的良好合作夥伴,多次獲得Alibaba Awards,歡迎按此聯絡我們 ,獲得更多相關或其他阿里巴巴的產品/服務的資訊和報價。

當然,一間企業要選擇最適合應用的工具和服務,可以考慮到公司規模、客源、行業類型、原有配套等,從而獲得最高效又合乎效益的方案。Multisoft是一站式的IT企業解決方案服務商,有多於60家合作夥伴,歡迎按此聯絡我們獲取免費咨詢,我們會盡快回覆您!

More blog posts

Contact us today to get a free consultation

Contact Us