芝加哥大學新研究「隱身衣」幫你保護隱私數(shù)據(jù)
今天,在社交網(wǎng)絡平臺上分享自己的照片,已經(jīng)成了很多人的一種生活習慣。但是不知道你有沒有擔心過,那就是這些我們曬出來的生活照,很可能會被一些企業(yè)在未經(jīng)允許的情況下搜集和濫用。特別是這些年隨著AI技術的發(fā)展,識別和追蹤照片里的人像,變得越來越容易了。我們在社交平臺上發(fā)布的照片,在AI算法看起來,可能就是一個不設防的個人隱私數(shù)據(jù)庫。
那有沒有什么辦法,既能讓我們隨心所欲地曬照片,又不用擔心被AI算法發(fā)現(xiàn)呢?
8月3號,芝加哥大學計算機系的官網(wǎng)上,報道了他們近期的一項研究成果。在這項研究里,科研人員發(fā)明了一種圖片的“隱身濾鏡”。經(jīng)過這種濾鏡處理之后的圖片,人的肉眼幾乎察覺不到任何變化;但是AI算法在看到這些圖片的時候,就會突然變成了臉盲,完全沒有辦法從圖片里正確識別出你的頭像了。
科研人員在這篇論文中用自己的照片進行了測試,以100%的成功率欺騙了目前微軟、亞馬遜和曠世科技的人臉識別算法。我在文稿區(qū)附上了一張這篇論文里的圖片,左側(cè)是照片原圖,右側(cè)是經(jīng)過隱身濾鏡處理之后,AI算法無法正確識別的圖片。
左右圖,你能看出區(qū)別嗎?
其實,算法已經(jīng)悄悄給右邊的照片加了一些微小的修改。
但就是這樣肉眼根本看不出來的變化,就能100%騙過來自亞馬遜、微軟、曠視——全球最先進的人臉識別模型!
所以它的意義究竟何在?
它代表著你再也不用擔心放在網(wǎng)上的照片被某些軟件扒得干干凈凈,打包、分類,然后幾毛錢一整份賣掉喂AI了。
這就是來自芝加哥大學的最新研究:給照片加上一點點肉眼根本看不出的修改,就能讓你的臉做到成功「隱形」。
這樣一來,即使你的照片在網(wǎng)絡上被非法抓取,用這些數(shù)據(jù)訓練出來的人臉模型,也無法成功識別到你的臉。
這項研究的目的,就是為了幫助網(wǎng)友們在分享自己的照片的同時,還能有效地保護自己的隱私。
因此,「隱身衣」本身也得「隱形」,這樣才能避免對照片的視覺效果產(chǎn)生影響。
也就是說,這件「隱身衣」,其實是對照片進行像素級別的微小修改,從而蒙蔽AI的審視。
其實,對于深度神經(jīng)網(wǎng)絡而言,一些帶有特定標簽的微小擾動,就能夠改變模型的「認知」。
比如,在圖像里加上一點點噪聲,熊貓就能變成長臂猿:
Fawkes就是利用了這樣的一個特性。
用 x 指代原始圖片,xT為另一種類型/其他人臉照片,φ 則為人臉識別模型的特征提取器。
具體,F(xiàn)awkes是這樣設計的:
首先:選擇目標類型 T
指定用戶 U,F(xiàn)awkes的輸入為用戶 U 的照片集合,記為 XU。
從一個包含有許多特定分類標簽的公開人臉數(shù)據(jù)集中,隨機選取 K 個候選目標類型機器圖像。
使用特征提取器 φ 計算每個類 k=1…K 的特征空間的中心點,記為 Ck。
而后,F(xiàn)awkes會在 K 個候選集合中,選取特征表示中心點與 XU 中所有圖像的特征表示差異最大的類,作為目標類型 T。
其次:計算每張圖像的「隱身衣」
隨機選取一幅 T 中的圖像,為 x 計算出「隱身衣」δ(x, xT) ,并按照下列公式進行優(yōu)化。
其中 |δ(x, xT)| < ρ。
研究人員采用DDSIM(Structural Dis-Similarity Index)的方法。并在此基礎上進行隱身衣的生成,能保證隱身后的圖像與原圖在視覺效果上達到高度一致。
實驗結(jié)果表明,不論人臉的識別模型被訓練得多么刁鉆,F(xiàn)awkes都能提供95%以上的有效防護率,從而保證用戶的臉不被識別。
即使有一些不小心泄露的未遮擋的照片被加入人臉識別模型的訓練集,通過進一步的擴展設計,F(xiàn)awkes也可提供80%以上的防識別成功率。
在Microsoft Azure Face API、Amazon Rekognition以及曠視Face Search API這幾個最先進的人臉識別服務的面前,F(xiàn)awkes的「隱身」效果竟達到了100%。
目前,F(xiàn)awkes已開源,Windows、Mac和Linux都可使用。
這里以Mac系統(tǒng)為例,給大家簡單介紹一下軟件的使用方法。使用的筆記本是MacBook Air,1.1GHz雙核Intel Core i3的處理器。
第一步,我們從GitHub上下載壓縮安裝包,并進行解壓。
第二步,把想要修改的所有照片放入一個文件夾里,并記住其路徑。
以桌面上的一個名為test_person的圖片文件夾為例子,里面我們放了三張照片,其中一張圖片包含了兩個人。
這里的圖片路徑是~/Desktop/test_person,根據(jù)你的圖片保存的位置來確定。
第三步,打開啟動臺中的終端,進入到壓縮包所在的文件夾。
注意,如果MacOS是Catalina的話,需先修改權(quán)限,以管理員的身份運行,sudo spctl —master-disable就可以了。
這里,我們的壓縮包直接放在下載的文件夾里,直接cd downloads就可以。
進入下載文件夾后,輸入./protection -d 文件路徑(文件路徑是圖片文件夾所在的位置,這里輸入~/Desktop/test_person),運行生成圖片的「隱身衣」。
嗯?挺好,看起來竟然能識別一張圖中的2個人臉。
緩慢地運行中……
據(jù)作者的介紹說,生成一張「隱身衣」的平均速度在40秒左右,這么看速度還是比較快的。
如果電腦的配置足夠好,應該還能再快一點。
不過,雙核的電腦就不奢求了…我們耐心地等一下。
從時間上來看,處理速度還算能接受。
Done!
圖片中可看出,生成3張圖片的「隱身衣」,電腦用了大約7分鐘。
一起來看看生成的結(jié)果。
可以看見,文件夾中的3張圖片,都生成了帶有_low_cloaked的后綴名圖片。
雖然介紹中提及,生成的后綴是_mid_cloaked的圖片,不過軟件提供的模式有「low」、「custom」、「ultra」、「mid」、「high」、「custom」幾種,所以不同的模式就會有不同的后綴名。
以川普為例,來看看實際的效果。
左、右兩張圖片幾乎看不出差別,并沒有變丑,并且川普臉上的皺褶看起來還光滑了一些。
這樣一來,我們就能放心地將經(jīng)過處理后的人臉照片放到網(wǎng)上了。
即使被某些不懷好意的人拿去使用,被盜用的數(shù)據(jù)也并不是我們的人臉數(shù)據(jù),再也不用擔心隱私被泄露的問題。
不僅如此,這個軟件還能「補救」你在社交網(wǎng)站上曬出的各種人臉數(shù)據(jù)。
比如,你曾經(jīng)是一名沖浪達人,之前就將大量的生活照放到社交網(wǎng)站上——
照片可能已經(jīng)被軟件扒得干干凈凈了……
不用擔心!
如果po上這些經(jīng)過處理后的圖片以后,那些自動扒圖的人臉識別模型就會想要添加更多的訓練數(shù)據(jù),以提高準確性。
這個時候,穿上「隱身衣」的圖片在AI看來甚至「效果更好」,就會將原始圖像作為異常值放棄掉。
論文的一作是一名華人學生單思雄,高中畢業(yè)于北京十一學校,目前剛拿到了芝加哥大學的學士學位,將于今年9月入學攻讀博士學位,師從趙燕斌教授以及Heather Zheng教授。
作為芝加哥大學SAND Lab實驗室的一員,他的研究主要側(cè)重于機器學習以及安全的交互,像如何利用不被察覺的輕微數(shù)據(jù)擾動,去保護用戶的隱私。
從單同學的推特來看,他一直致力于在這個「透明」的世界中,為我們爭取一點點僅存的隱私。
論文的共同一作Emily Wenger同樣來自芝加哥大學的SAND Lab實驗室,現(xiàn)正攻讀CS博士,研究方向是機器學習與隱私的交互,目前正在研究神經(jīng)網(wǎng)絡的弱點、局限性和可能對隱私造成的影響。
▼
AI算法在識別一張圖片的時候,它的關注點跟我們?nèi)祟愖R別圖片的過程很可能是不一樣的。甚至算法關注的維度可能更多、更復雜。具體來說,在我們?nèi)搜劭磥硗耆珶o法分辨區(qū)別的兩張圖片,在AI程序的分類標準下可以是截然不同的兩組數(shù)據(jù)。在這個意義上,這款隱身濾鏡欺騙的并不是AI算法,反而是人的大腦。
按照這個思路延伸下去,這種隱身濾鏡技術,未來可能還可以變成一種信息加密的手段,用來制造出一類我們?nèi)说母泄贌o法分辨,只有AI算法能夠識別內(nèi)在區(qū)別的圖像甚至音頻數(shù)據(jù)。
關于AI到底智不智能的兩點看似矛盾的推論,正式我們推薦這項研究的原因。
今天的人工智能算法,依然處在快速發(fā)展的階段;很多類似這篇研究中暴露出的關于AI算法的新特質(zhì),正在被快速地挖掘出來。這也是AI領域吸引人的重要原因之一。
? Copyright 2013 南京奧特賽人工智能技術研發(fā)有限公司 版權(quán)所有 備案號:蘇ICP備19032300號-1 蘇公網(wǎng)安備32011602010459 技術支持:科威鯨網(wǎng)絡