優惠與公告
賴傳媒有限公司
2025-03-31
AI真的會看了!Google Gemini開啟視覺模式 手機畫面一掃就能回答你

【賴傳媒 王俊勝/綜合報導】Google 又有新突破,AI 現在不只會聽、會說,還「長眼睛」了!Google 證實,旗下 AI 系統 Gemini 正式啟用新功能,能透過手機鏡頭或螢幕畫面「看見」使用者所處的環境,並即時回應提問,宣告智慧助理邁入「視覺互動」新時代。

 

根據《The Verge》報導,Google 發言人 Alex Joseph 表示,這項技術目前已在 Gemini Live 測試上線,讓 AI 能即時辨識鏡頭畫面中的物件或內容,例如:看到一頁文件、一道數學題或房間裡的裝飾,使用者只需開口詢問,AI 就能即時理解並作出回應。這項功能的基礎源自 Google 去年展示的 Project Astra 計畫,當時便提出讓 AI 具備「視覺推理」能力。

 

除了視覺辨識,Gemini Live 還內建多項通訊功能,例如智慧背景模糊、降噪處理、自動調整畫質,並支援最多 50 人的多方通話。用戶無須安裝額外軟體,只要登入 Google 帳號即可一鍵加入會議,非常適合遠端開會或線上教學使用。

 

更厲害的是,Gemini 還充當「會議小幫手」,可在會議中即時翻譯語音、整理摘要、甚至協助會議紀錄,大幅提升跨語言交流與會議效率。Google 表示,這項功能目前已率先於美國和歐洲地區推出,未來幾個月內將陸續拓展至全球更多市場,用戶可透過 Google 官網或應用商店下載使用。

 

外界普遍認為,Gemini 的這波更新不僅拓展 AI 助理的實用場景,更可能重新定義人機互動的方式。從單純的「打字問答」,進化到「畫面感知+語音對話」,Google 可說是替 AI 通訊應用開啟了全新的篇章。

根據The Verge報導,Google發言人亞歷克斯·喬瑟夫(Alex Joseph)在一封電子郵件中證實,Google已經開始在Gemini Live上推出新的AI功能,可以讓人工智能「看到」用戶設備的螢幕或手機鏡頭上的內容,並即時回答用戶的問題。近一年前,Google首次展示了「阿斯特拉計劃」( Project  Astra),這項計劃為現在這些新功能奠定了基礎。

[廣告] 請繼續往下閱讀 ...
 
 
 

Gemini即時視訊服務的推出代表著Google在通訊領域的一大步。這項服務利用AI技術,能夠自動調整視訊品質,確保在不同網路環境下都能提供穩定清晰的視訊通話。Gemini還具備智能背景模糊和噪音消除功能,提升用戶的視訊體驗。

▲視訊會議。(圖/取自免費圖庫Unsplash)

▲視訊會議在疫情後成為人們開會的替代方案。(圖/取自免費圖庫Unsplash)

此外,Gemini即時視訊還支持多方通話,最多可同時容納50人參與。這一功能特別適合遠端工作和在線學習的使用,讓團隊協作和課堂互動變得更加便捷。用戶通過Google帳戶便可輕鬆加入會議,無需額外下載應用程式。Gemini還具備了AI助理功能,能夠在會議中提供即時翻譯、會議記錄和自動摘要等服務。這些功能不僅提高了會議效率,還使得跨語言交流變得更加順暢。Google表示,Gemini即時視訊服務將首先在美國和歐洲市場推出,並計劃在未來幾個月內逐步擴展到全球其他地區。用戶可以通過Google的官方網站和應用商店下載並使用這項服務。

總結來說,Google的Gemini即時視訊服務憑藉其先進的AI技術和豐富的功能,將為用戶帶來全新的通訊體驗。這一創新技術有望在遠端工作、線上學習和日常交流中發揮重要作用。