拍照就能識別萬物,AI是怎么看“懂”圖片的?

公眾科普,科學(xué)傳播。
收藏

歡迎來到科普中國特別推出的寒假精品欄目“給孩子的高新科技課”!

人工智能作為當(dāng)今最前沿的科技之一,正在以令人驚嘆的速度改變著我們的生活。從智能語音助手到無人駕駛汽車,從 AI 繪畫到機器學(xué)習(xí),它為我們打開了一個充滿無限可能的未來。本欄目將以通俗易懂的方式,用視頻和文字給孩子講述人工智能的原理、應(yīng)用及其對社會的深遠影響。

快跟我們一起開啟這場 AI 之旅吧!

以下為文字版本:

生活中,AI 圖像識別無處不在。

看到不認識的植物?拍張照片,分分鐘就能找到答案。自動駕駛汽車也好像長了眼睛一樣,能輕輕松松判斷出,哪里是道路,哪里是樹木。人臉識別技術(shù),也讓我們實現(xiàn)了刷臉支付。

而這一切,都離不開一項技術(shù)——卷積神經(jīng)網(wǎng)絡(luò)。這項技術(shù),就像 AI 的眼睛。

想了解 AI 的眼睛是怎么工作的,我們先要看一看動物的眼睛是怎么工作的。

從貓眼到 AI 眼:視覺神經(jīng)元的啟示

20 世紀(jì) 50 到 60 年代,大衛(wèi)·休伯爾和托斯坦·威澤爾對貓的視覺進行了研究,他們發(fā)現(xiàn),在一幅畫面進入貓的視野之后,貓大腦中負責(zé)視覺的神經(jīng)元,被不同的東西激活了。

為了方便理解,我們看個例子。比如這樣一幅畫面,有的神經(jīng)元對畫面中物體的邊緣線條非常感興趣,會著重處理這些信息,有的神經(jīng)元對大塊的顏色比較敏感,更擅長處理這些信息。這些神經(jīng)細胞一起工作,幫助生物識別各種復(fù)雜的圖像。

圖片

埃德加·德加 《去外省的賽馬場》(At the Races in the Countryside)1869

這項研究,讓大衛(wèi)和托斯坦獲得了 1981 年諾貝爾生理學(xué)或醫(yī)學(xué)獎,也啟發(fā)了人工智能領(lǐng)域一個非常重要的算法,卷積神經(jīng)網(wǎng)絡(luò)

在 1980 年代,日本科學(xué)家福島邦彥設(shè)計了一個叫做 Neocognitron 的模型,用來識別日文手寫字符,Neocognitron 中有不同的“層”,用來提取對不同的信息,最后綜合這些信息對識別到的字符進行判斷。

這啟發(fā)了一位叫做揚·樂昆的法國科學(xué)家,揚·樂昆設(shè)計出了最早的卷積神經(jīng)網(wǎng)絡(luò),并且基于卷積神經(jīng)網(wǎng)絡(luò),建立了 LeNet 模型。這個模型在當(dāng)時被很多銀行用來識別手寫字符。我們通過一個簡單的例子,來看看卷積神經(jīng)網(wǎng)絡(luò)是如何工作的。

卷積神經(jīng)網(wǎng)絡(luò):圖像識別的幕后英雄

和神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)在識別圖片的時候,多了兩個過程:卷積和匯聚。

卷積,這個過程,是由一個叫卷積核的東西完成的。

一張圖片,在計算機的眼里,其實是一個個像素點組成的矩陣,卷積核不是單獨去考慮每一個像素點上的信息,而是同時對某個區(qū)域,比如 3×3,5×5 的像素點信息進行處理。這樣可以綜合考慮相鄰像素點的信息,更好地提取出更高級特征。

你可以想象一下,卷積核就像是一個觀測員拿著有特定視野的望遠鏡去看一幅圖片,把看到的信息處理記錄下來。

而且我們可以設(shè)置有不同側(cè)重點的觀測員,以提取圖片中的不同維度信息。比如,有的觀測員著重提取顏色信息,有的著重提取物體邊緣輪廓信息,有的專門提取某個特定形狀的信息。最后綜合這些信息,幫助神經(jīng)網(wǎng)絡(luò)做出更好的判斷。

此外,卷積神經(jīng)網(wǎng)絡(luò)還有一個重要的步驟——匯聚(又稱池化)。

圖片往往是一個非常大的矩陣,匯聚能夠把一塊區(qū)域里的信息壓縮成一個信息。假如,對一個 16×16 的矩陣,可以通過匯聚的方法,提取 2×2 格子里顏色最深一格的信息,就能把它變成這樣的 8×8 的矩陣。如果再進行一次相同的匯聚,就可以把 8×8 的矩陣,變成 4×4 的矩陣。雖然圖像匯聚后會有一些變化,但是依然保留了整個圖像中的基本特征。

圖片

圖片

卷積和匯聚,讓卷積神經(jīng)網(wǎng)絡(luò)能夠非常好地對圖片信息進行提取,對于圖像的學(xué)習(xí)處理效率上有了非常大的提升。

當(dāng)然,卷積神經(jīng)網(wǎng)絡(luò)也會使用跟神經(jīng)網(wǎng)絡(luò)一樣的反向傳播算法,不斷根據(jù)已知結(jié)果逆向調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù),以做出越來越準(zhǔn)確的判斷。

那么,AI如何改變一些行業(yè)的生態(tài)?接下來的幾集中,我們將一同探究。

策劃制作

本文為科普中國-創(chuàng)作培育計劃作品

出品|中國科協(xié)科普部

監(jiān)制|中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

作者丨北京云御紀(jì)文化傳播有限公司

審核丨秦曾昌 北京航空航天大學(xué) 自動化科學(xué)與電氣工程學(xué)院 副教授

策劃丨符思佳

責(zé)編丨符思佳

本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫

轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

評論
無為通達
學(xué)士級
拍照識別萬物的技術(shù)基于深度學(xué)習(xí)和計算機視覺的核心原理,在多個領(lǐng)域展現(xiàn)出廣泛的應(yīng)用前景。然而,也面臨著一些挑戰(zhàn),需要不斷改進和完善。隨著技術(shù)的不斷發(fā)展,相信它將在未來發(fā)揮更大的作用,為我們的生活帶來更多的便利和創(chuàng)新。
2025-01-14
屈魁英
少師級
本以為原理會晦澀難懂,可讀下來,從圖像數(shù)字化、特征提取到模型訓(xùn)練與識別,每個環(huán)節(jié)都解釋得清晰直白。用拼圖類比像素,太形象了,瞬間讓我這個技術(shù)小白明白了圖像是如何被AI“拆解”的。
2025-01-14
尖刀情懷永遠跟黨走
大學(xué)士級
這都是卷積神經(jīng)網(wǎng)絡(luò)的功勞,不斷通過己知結(jié)果,逆向調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù),以做出越來越準(zhǔn)確的判斷。不得不說人工智能時代,不論認識與不認識,找人工智能都會找到答案,真的是了不起的時代!
2025-01-14