AI視覺(jué)邁入“大模型時(shí)代”:從“觀察”到“理解”的巨大飛躍!
發(fā)布時(shí)間:2023-11-20 09:36:50
大到天地傳感,小到社區(qū)“最后一公里”,在新技術(shù)的助力下,我們所居住的城市正在加速向“智慧城市”轉(zhuǎn)變,計(jì)算機(jī)視覺(jué)(CV)作為人工智能領(lǐng)域最大的應(yīng)用領(lǐng)域,在人臉識(shí)別、視頻監(jiān)控、門禁卡、防盜報(bào)警等智慧安防領(lǐng)域率先實(shí)現(xiàn)了商業(yè)化。
“相比于傳統(tǒng)的社區(qū)管理模式,‘智慧社區(qū)’更加以人為本,以不斷滿足居民的幸福感和滿意度為核心,為居民提供更便捷、安全的社區(qū)環(huán)境,讓孩子茁壯成長(zhǎng),讓老人盡享天倫。”之前的攝像頭只是“看得見(jiàn)”,而智能視頻分析系統(tǒng)可以“看得懂”。
據(jù)了解,智能視覺(jué)分析通過(guò)對(duì)采集社區(qū)中的人、車、公共設(shè)施等管理對(duì)象的視覺(jué)數(shù)據(jù)進(jìn)行智慧化的數(shù)據(jù)洞察,實(shí)現(xiàn)“入侵”“攀高”“自行車/電動(dòng)自行車違停”“亂丟垃圾”“高空拋物”“水域入侵”“占道堆物”等方面的識(shí)別需求,在事件發(fā)生后,系統(tǒng)能夠在3秒內(nèi)通過(guò)AI應(yīng)用對(duì)圖像進(jìn)行識(shí)別并判斷該事件是否違規(guī),并在5分鐘內(nèi)處置完成,從而營(yíng)造更智能、安全、舒適的社區(qū)和公共環(huán)境。
攝像頭我們已經(jīng)用很多年了,最大的感觸就是無(wú)法事前報(bào)警。比如說(shuō),有的老人在起居室里摔倒了,或者小孩爬到?jīng)]有關(guān)閉窗戶的危險(xiǎn)地帶,原來(lái)的攝像頭可能會(huì)認(rèn)出來(lái)有老人有小孩,但它不能理解畫(huà)面的語(yǔ)義;但當(dāng)攝像頭有了一個(gè)‘認(rèn)知性大腦’,看到這些場(chǎng)景時(shí),自然就會(huì)聯(lián)想到這個(gè)人可能處在危險(xiǎn)之中,從而實(shí)現(xiàn)事中的監(jiān)測(cè)和預(yù)警。上海趨視科技總裁介紹了其最新的“AI視覺(jué)行為分析”技術(shù):“采用TOF(Time-of-Flight) 傳感器采集數(shù)據(jù),并通過(guò)‘智能分析儀’進(jìn)行AI推理,可以精準(zhǔn)地識(shí)別老人跌倒、久坐不起等風(fēng)險(xiǎn)因素,通過(guò)APP實(shí)時(shí)將信息發(fā)送至家人或社區(qū)服務(wù)人員手機(jī)端。”
現(xiàn)在,某街道違章停車、渣土車違規(guī)行駛、無(wú)證攤販臨時(shí)擺攤、商鋪占道經(jīng)營(yíng)、亂倒垃圾等社區(qū)問(wèn)題頻現(xiàn),對(duì)于人員缺乏的社區(qū)管理隊(duì)伍而言,會(huì)出現(xiàn)如問(wèn)題發(fā)現(xiàn)不及時(shí),協(xié)調(diào)成本高,管理缺少數(shù)據(jù)支撐等現(xiàn)象;而智能視頻行為分析技術(shù)給街道每一部攝像機(jī)都裝上‘AI 大腦’,實(shí)時(shí)分析街面情況,對(duì)違規(guī)行為自動(dòng)且及時(shí)地上報(bào)。當(dāng)偵測(cè)到指定區(qū)域內(nèi)出現(xiàn)違規(guī)行為,系統(tǒng)會(huì)生成提醒信號(hào),實(shí)時(shí)推送到管理人員隨身設(shè)備中,實(shí)現(xiàn)社區(qū)問(wèn)題處理敏捷化。
高新興科技集團(tuán)首席技術(shù)官介紹,在即將于12月24日于廣州舉行的黃埔馬拉松比賽中,通過(guò)在沿路高聳的樓宇部署的AI視頻監(jiān)控和無(wú)人機(jī),可以做到賽事的全程管控。“無(wú)論隊(duì)伍到哪里,整個(gè)隊(duì)伍都是在可視范圍內(nèi)。比如說(shuō)哪里發(fā)生擁擠或是有什么異常,AI視覺(jué)分析可以協(xié)助管理人員快速掌握全局。”
在本次CPSE安博會(huì)上,至少有六家頭部企業(yè)推出了通用或行業(yè)大模型,或是展示大模型應(yīng)用。郭威認(rèn)為,視頻大模型已成為繼自然語(yǔ)言處理(NLP)之后AI技術(shù)的下一個(gè)引爆點(diǎn)。“大模型最大的意義是讓我們從判別式AI走向深層次判別式的AI,前者主要從數(shù)據(jù)和信號(hào)中去提取特征進(jìn)行識(shí)別,完成像人臉識(shí)別語(yǔ)音識(shí)別、圖像識(shí)別這樣的任務(wù);而后者可以在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上生成文字、語(yǔ)言、圖片、視頻代碼甚至算法,完成各類專業(yè)人士的工作,在生產(chǎn)力的提升上更為直接。”
計(jì)算機(jī)視覺(jué)已經(jīng)邁入“大模型時(shí)代”,在許多領(lǐng)域都展現(xiàn)出了巨大潛力和價(jià)值,安防領(lǐng)域也不例外。目前,安防產(chǎn)業(yè)鏈上的各細(xì)分領(lǐng)域企業(yè)也推出了自己的大模型,如大華的“星漢”以視覺(jué)解析為核心;宇視科技的“梧桐”集CV行業(yè)、NLP行業(yè)等于一身,能夠滿足多樣化的任務(wù)和場(chǎng)景需求;云從科技的大模型“從容”應(yīng)用于視頻監(jiān)控、入侵檢測(cè)、人臉識(shí)別等過(guò)程中的數(shù)據(jù)分析,“行人基礎(chǔ)大模型”覆蓋了人體全局屬性(性別、年齡)、局部屬性(穿戴風(fēng)格、配飾)、攜帶屬性(手機(jī)、刀棍、手提包等)、人-物交互HOI(抽煙,持刀棍,手機(jī)拍屏幕)等,廣泛應(yīng)用于礦山、建筑工地以及特殊場(chǎng)所的安全布控,監(jiān)控作業(yè)人員穿戴合規(guī),姿態(tài)行為等異常和違規(guī)行為。
我們?nèi)祟惖闹腔垠w現(xiàn)在我們可以通過(guò)感知、思考和行動(dòng)來(lái)改變世界?,F(xiàn)在機(jī)器也擁有了‘感知’和‘思考’的能力,伴隨AI的發(fā)展,機(jī)器必須通過(guò)視覺(jué)來(lái)理解周圍的環(huán)境,做出決策。企業(yè)自研的BioCV大模型可以實(shí)現(xiàn)園區(qū)運(yùn)行安全“一屏統(tǒng)覽”。多模態(tài)AI結(jié)合了更多的感官模式,它模仿了人類感知世界的方式,能夠?yàn)槎鄻踊瘓?chǎng)景下的智能個(gè)性化應(yīng)用開(kāi)創(chuàng)全新可能。
智慧社區(qū)對(duì)于人工智能有著旺盛的需求,也是能夠?qū)崿F(xiàn)規(guī)?;l(fā)展、可復(fù)制性強(qiáng)的場(chǎng)景。記者發(fā)現(xiàn),在此次CPSE安博會(huì)上,“個(gè)人隱私保護(hù)”也被多位專家和業(yè)內(nèi)人士著重強(qiáng)調(diào)。“視覺(jué)分析系統(tǒng)涉及采集并分析一些日常生活畫(huà)面,需要平衡監(jiān)控與隱私保護(hù)之間的關(guān)系,確保合理使用和保護(hù)個(gè)人隱私權(quán)。”據(jù)了解,針對(duì)智慧社區(qū)場(chǎng)景的特點(diǎn),趨視科技、精華隆智慧感知等企業(yè)采用了可以“脫敏”的采集技術(shù),不是通過(guò)視頻監(jiān)控,而是通過(guò)僅可見(jiàn)“影子”的深度圖像,反映景內(nèi)物體的距離和角度值,不直接包含面部、身體或其他私人信息,大大降低了隱私泄露的風(fēng)險(xiǎn)。
目前部分智能安防產(chǎn)品和現(xiàn)有的基礎(chǔ)大模型還沒(méi)有掛鉤,但徐飆介紹,未來(lái),相關(guān)安防設(shè)備可以和目前一些成熟的語(yǔ)音大模型對(duì)接,感知方式從視覺(jué)延伸到紅外、雷達(dá)、光纖、聲紋等更多維度,隨著TOF類雷達(dá)傳感器的不斷應(yīng)用,除了語(yǔ)音和圖像外,第三維深度數(shù)據(jù)感知越來(lái)越豐富,基于深度數(shù)據(jù)的大模型必將把機(jī)器“認(rèn)知”世界的能力帶到一個(gè)新高度。