【阿里雲】擁有圖文理解能力的視覺語言模型 Qwen-VL & Qwen-VL-Chat

October 12, 2023

News

阿里雲是中國阿里巴巴集團旗下的雲計算和人工智能科技公司,在全球各地擁有多間數據中心,為客戶提供穩定高效的雲計算服務,包括計算、存儲、數據庫、網絡、安全、人工智能和大數據分析等。(按此了解阿里雲如何從「三無」成為龍頭以及如何開如上雲。)

強大的視覺語言模型

擁有眾多業務的阿里雲,早前再推出新研發。今年8月尾阿里雲公佈推出兩款大規模視覺語言模型 Qwen-VL 及 Qwen-VL-Chat,具中英文圖文識別、描述、問答對話和多模態訊息理解功能,同時支持中英文圖文輸入。

什麼是視覺語言模型?

視覺語言模型是一種結合計算機視覺,和自然語言處理技術的人工智慧模型。 它能夠理解圖像內容,並生成與之相關的自然語言描述。 這項技術在圖像標註、圖像搜索、視覺問答等領域有廣泛應用,為圖像和語言之間建立了橋樑。

Qwen-VL 和 Qwen-VL-Chat 更是在訓練過程中增強了對視覺訊號的細粒度感知和理解能力。比起其他模型一般只支持224分辨率,Qwen-VL 則高達448的圖像輸入分辨率。

視覺語言模型的應用及對企業的幫助

這兩個視覺語言模型都可用作知識問答、圖像問答、文件問答、細粒度視覺定位等。例如只要拍下樓層導覽圖,問Qwen-VL-Chat想去的地點在那一樓層,便可以獲得文字回覆。不難想像企業能利用這些功能進行更快捷的文件準備、技術及知識支緩、推廣服務等,無論是透過 Qwen-VL 和 Qwen-VL-Chat 創建一致和獨特的品牌風格,還是以視覺化或拆解圖像的功能,助團隊即時理解、獲得大數據和複雜資訊的結果,都有效增強員工間、甚至企業間的溝通和效率,提升公司的形象和競爭力。

對英文輸入的效果會較弱嗎?

提及市面上暫時最流行的AI對答工具,一般都會認為對中文的支援較緩慢,對英文輸入往往更精準。那麼對於中文為母語,由國企阿里雲出品的視覺語言模型,會相對地更專注於中文語言發展,不適合以英文主為主要語言的企業嗎?

據阿里雲官方資訊:「……對 Qwen-VL-Chat 及其他模型進行對比測試,Qwen-VL-Chat 在中英文的對齊評測中均取得開源LVLM最好結果。」由此可見,阿里雲了解到英文作為很多企業的第二或主要語言,在研發過程並沒有忽略對英文輸入的投入,可以說兼具中英支援的 Qwen-VL-Chat 在市面上具相當大的競爭力。

如何開始使用? 適合您的企業嗎?價錢?

現時人工智能已成為全球趨勢,相信有關技術對各團隊崗位都有莫大幫助。同一時間,若在科技發展快速深遠的時代不緊貼步伐,將會在轉眼間就被追得上時代進程的競爭對手大幅拋離。現時阿里雲可向月活躍用戶少於1 億的公司免費提供該模型,超出數量的企業也可通過我們向阿里雲申請許可證。Multisoft是阿里巴巴的良好合作夥伴,多次獲得Alibaba Awards,歡迎按此聯絡我們 ,獲得更多相關或其他阿里巴巴的產品/服務的資訊和報價。

當然,一間企業要選擇最適合應用的工具和服務,可以考慮到公司規模、客源、行業類型、原有配套等,從而獲得最高效又合乎效益的方案。Multisoft 是一站式的 IT 企業解決方案服務商,有多於60家合作夥伴,歡迎按此聯絡我們獲取免費咨詢,我們會盡快回覆您!

Got questions for us?

Get in touch with us today to learn more!
Pattern background

Got questions for us?

Get in touch with us today to learn more!
Pattern background

Got questions for us?

Get in touch with us today to learn more!
Pattern background

Continue Reading