<mark id="n9zld"></mark>

      <thead id="n9zld"><video id="n9zld"></video></thead>

      <ins id="n9zld"></ins>

        <b id="n9zld"></b>

            <font id="n9zld"><video id="n9zld"></video></font>
            <b id="n9zld"></b>

              <dfn id="n9zld"><video id="n9zld"></video></dfn>

                你所不知道的 AI 進展

                作者: 阮一峰

                日期: 2019年10月29日

                騰訊課堂 NEXT 學院

                人工智能現在是常見詞匯,大多數人可能覺得,它是學術話題,跟普通人關系不大。

                但是實際上,AI 突飛猛進,正在脫離實驗室,進入日常生活。僅僅是現在的技術水平,就足以模糊現實與虛擬的界限,顛覆一般民眾的認知。

                (圖1:2018年10月,世界第一幅 AI 生成的肖像畫,拍賣成交價43.25萬美元。)

                為了讓普通人了解 AI 的進展,谷歌的機器學習專家格里高利·薩普諾夫(Grigory Sapunov)寫了一篇通俗的科普文章,介紹目前的技術成果。這盤文章非常精彩,有大量的圖片,加上一些簡單的解釋,信息量很大,對于了解技術動態很有幫助。

                (圖2:谷歌的機器學習專家格里高利·薩普諾夫)

                下面就是那篇文章的翻譯,比較長,圖片很多,但是值得耐心讀完。我保證,有些內容一定會讓你感到吃驚。

                另外,插播一條活動消息。大家知道,國內最大的在線教育平臺之一的騰訊課堂,贊助了我的個人網站。他們最近啟動了,推廣優質的技術教育資源。 大家可以留意一下本文結尾的免費活動信息,幫你掌握開發網頁和手機 App,提高技術水平。

                一、圖像處理

                人工智能最早是從圖像處理開始的。圖像處理是一種常見任務,智能要求比較高,需要使用 PhotoShop 之類的軟件人工編輯,一般的算法解決不了。

                1.1 對象補全

                2017年,日本科學家提出了一種圖像的對象補全模型。經過訓練,模型可以補全圖片上缺失的部分。

                (圖3:圖像的對象補全模型)

                上圖中,左邊是原始圖片,然后把中間的花盆涂掉,輸入模型。模型會自動補全缺失的部分(右圖),由于它不知道,那里有一個花盆,所以只會根據沒有涂掉的部分,補上地板和扶手。

                下面是更多這樣的例子。涂掉的部分,模型都會補上,哪怕它根本不知道,那里原來是什么。

                (圖4:圖像的對象補全示例)

                Nvidia 公司將這個模型做成了產品,放在網上。你可以到它的網站,上傳一張圖片,然后涂掉一些部分,讓網站替你補全。

                (圖5:涂掉沙發旁邊的茶幾)

                有的圖像軟件已經應用這項技術,去除人像臉上的斑點。

                1.2 背景處理

                背景處理指的是,將前景物體從圖片分離出來,再對背景進行加工。目前,已經有很好的智能算法可以去除圖片背景。

                (圖6:圖片的背景去除)

                在模型內部,圖片會轉成像素的色塊。下圖的淺紫色塊就是前景物體,然后再把這些像素提取出來。

                (圖7:背景去除模型)

                這個模型也已經做成了線上服務,大家可以上傳圖片感受一下它的效果。

                既然可以去除背景,那當然就可以更改背景,為圖片合成打開方便之門。

                (圖8:更改圖片背景)

                1.3 樣式轉換

                人工智能還能夠識別圖片的風格樣式(即像素的變化規律),將其套用在另一張圖片。

                (圖9:原始圖片)

                上圖是兩張原始圖片,第一張是梵高的名畫《星夜》,第二張是普通的風景照。模型可以提取第一張圖片的風格,將其套用在第二張圖片。

                (圖10:套用梵高的《星夜》風格)

                其他名畫的風格,同樣可以套用。

                (圖11:圖像的風格轉換)

                1.4 圖像著色

                一旦識別出圖片中的物體,模型就可以統計不同物體的像素顏色規律,然后就能推斷黑白照片可能的顏色,從而實現照片著色

                (圖12:黑白照片的著色)

                網上也有免費的著色服務,大家可以體驗。

                二、GAN 方法

                2.1 簡介

                GAN 是"生成對抗網絡"(Generative Adversarial Networks)的縮寫,它是一種革命性的提升人工智能模型效果、生成虛擬圖像的方法。

                原理很簡單,就是兩個神經網絡互相對抗。一個神經網絡負責生成虛擬圖像,另一個神經網絡負責鑒定假圖像。理論上,如果 GAN 訓練成功,那么生成的假圖像與真圖像將無法區分。2014年,這種方法提出以后,快速發展,目前效果已經可以亂真。

                (圖13:GAN 的改進速度)

                上圖是過去幾年,GAN 生成的虛擬人像。可以發現,每過一年,圖片越來越大,細節越來越豐富,越發接近真實人像。它的工作方法也是如此,第一步生成一張低分辨率圖片,然后慢慢放大,依次修改每一個像素,確定該像素怎樣才能最大概率通過鑒定器。

                GAN 不僅能生成虛擬圖像,還能生成音頻、文本,甚至是化合物分子。AI 模型可能創造出來的任何東西,都能使用 GAN 提升效果。GitHub 有一個倉庫,專門收集不同用途的 GAN,目前已經有500多種模型。

                2.2 StyleGAN

                目前,生成虛擬人像效果最好的模型是 Nvidia 公司的 StyleGAN。下面兩張頭像,你能分辨哪張是虛擬的,哪張是真實的嗎?

                (圖14:GAN 虛擬人像)

                這是網站截圖,你可以去那個網站試試看,能猜對多少張。需要提醒的是,這是2018年底的模型產物,隨著模型進化,遲早將無法分辨真假。

                GAN 不僅能生成人像,實際上可以生成任何圖像。下面是 BigGAN 模型生成的各種圖像,圖片里的東西都是不存在的。

                (圖15:BigGAN 模型生成的虛擬圖像)

                2.3 圖像翻譯

                一種圖像通過 GAN 轉變為另一種圖像,稱為圖像翻譯。空拍照片變成地圖、黑白照片變成彩色照片,都是圖像翻譯的例子。

                pix2pix 是圖像翻譯的開源工具,它可以讓黑夜變成白天,示意圖變成實物圖。

                (圖16:圖像翻譯)

                也可以讓春天變成夏天,晴天變成雨天。

                (圖17:圖像翻譯)

                圖像翻譯的難點在于,它需要有成對的示例(源圖像和相應的目標圖像),告訴模型應該怎么翻譯,這些示例可能很難創建。但是反過來,只要有配對的示例,就可以翻譯圖像,不管這種翻譯是否合理。下面是兩只小貓翻譯成對應的豹子、獅子和老虎。

                (圖18:圖像翻譯)

                CycleGAN 模型還支持跨域翻譯,將照片翻譯成油畫,斑馬翻譯成馬。

                (圖19:圖像翻譯)

                Nvidia 開發了一個 GauGAN 軟件,可以在線試玩。用戶只需手繪一個示意圖,軟件就能生成一張對應的風景照片。

                (圖20:GauGAN 將示意圖變成照片)

                2.4 人像翻譯

                圖像翻譯用于人像,就是人像翻譯。StarGAN 模型可以翻譯面部屬性,比如頭發的顏色、性別、膚色等。

                (圖21:臉部屬性的改變)

                還可以把其他人的表情移植到你的臉上,下圖分別是憤怒、快樂、恐懼的表情翻譯。

                (圖22:表情的改變)

                SC-FEGAN 是人像翻譯的開源軟件,可以讓你編輯人像,比如加上劉海,去除墨鏡等等。

                (圖23:人像編輯軟件 SC_FEGAN)

                2.5 文本到圖像生成

                GAN 最驚人的成果之一,大概就是

                (圖24:根據文本生成圖像)

                論文甚至提到,將來存在可能,根據劇本直接生成一部電影。

                三、視頻生成

                圖像處理逐漸成熟以后,人工智能業界的關注重點就轉向了視頻。

                從一個視頻生成另一個視頻,這就叫視頻翻譯。目前比較成熟的兩個方向是運動傳遞和面部交換。

                3.1 運動傳遞

                運動傳遞指的是,將一個人的動作(包括身體、眼睛或嘴唇的動作)翻譯到另一個人身上,使得另一個人出現一模一樣的動作。

                2018的論文《Everybody Dance Now》,給出了一個模型,可以將舞者的動作移植到任何人身上。

                (圖25:動作傳遞)

                上圖中,藍衣女子的跳舞視頻完全是假的,是將左上角舞者的動作套用在她身上,自動生成的。

                NVIDIA 公司的開源軟件 vid2vid 更為強大,可以生成高分辨率的、連貫的逼真視頻。

                (圖26:vidvid 軟件)

                3.2 臉部生成

                臉部生成指的是,根據一張臉的表情和動作,重建另一張臉。最著名的例子是虛擬的奧巴馬演講。2017年,華盛頓大學的團隊發表了一段奧巴馬的演講視頻。奧巴馬其實從未做過這個演講,是將別人的表情和口型套在他臉上生成的,語音也是合成的。

                (圖27:虛擬的奧巴馬演講)

                這種偽造的視頻被稱為 Deepfake(深度偽造),具有很大的欺騙性,許多在線平臺都禁止上傳這一類視頻。

                (圖28:偽造的特朗普演講,將喜劇演員的表演變成特朗普自己在講。)

                (圖29:深度偽造的普京)

                2018年出現的《深度視頻肖像》更進了一步,生成的視頻不局限于虛擬的面部表情,還會頭部旋轉、眼睛凝視和眨眼,是 3D 的肖像重構。

                (圖29:深度視頻肖像)

                這些技術還在繼續發展,現在你可以給出任意文本,從任何你指定的對象嘴里說出來。甚至只憑一張照片,就可以生成一段表情變化的視頻。

                (圖30:一張照片生成各種表情)

                3.3 中國的實踐

                國內的人工智能視頻生成,并不落后于國外。換臉應用 ZAO 只需用戶上傳一張照片,就能把影視劇主人公的臉換掉,好像你本人在表演電影一樣。

                (圖31:換臉應用 ZAO)

                2018年,新華社與搜狗合作推出了虛擬新聞主播,具有真人的形象,帶有聲音、面部表情和動作,在電視上播報新聞,已經開通了英語、俄語、阿拉伯語的主持人。

                (圖32:虛擬新聞主播)

                3.4 視頻渲染

                除了視頻生成,人工智能在視頻渲染上也取得了很大進展。

                Nvidia 公司2018年展示了實時光線追蹤 RTX 技術。這項技術用人工智能預測光線的變化,從而不用耗費大量計算去追蹤光線,因此可以實時渲染出高畫質的 3D 動畫。這對于視頻游戲有重大意義。

                下面是使用這項技術的 Unreal Engine 4,實時渲染出的一個女子的3D 動畫,可以一邊計算生成,一邊播放,完全沒有延遲。

                (圖32:實時渲染的動畫)

                實時光線追蹤技術還可以用于自動駕駛,在白天和黑夜的不同時間,不同的路面和環境下,預測出暴雨、風雪和強烈的眩光導致的光線變化,對駕駛做出調整。

                四、文本和聲音處理

                最后,簡單提一下,人工智能在文本和聲音處理領域的進展。

                (1)語音合成

                谷歌在2018年推出了智能助手 Google Duplex,它會根據你的日程,自動打電話去餐廳訂座位。谷歌 CEO 說,這個機器人的對話能力,使得對方完全沒有發現這是機器人。

                (2)音樂合成

                OpenAI 基金會推出的 MuseNet,通過學習數十萬段 MIDI 音樂,能做到使用10種樂器,生成一段4分鐘的音樂。它的官網有這些音樂的下載,相當動聽。

                (3)自動評論

                據報道,使用 Yelp 網站的數據進行訓練的模型,可以自動生成餐廳評論。

                1. 我喜歡這個地方,一直來這里已經好多年。它是與朋友和家人相聚的好地點,我喜歡這里的食物和服務,從未有過糟糕的經歷。
                2. 我吃了烤蔬菜漢堡配薯條!哦,很好吃!
                3. 我和我的家人都是這個地方的忠實粉絲。工作人員超級好,食物也很棒。雞肉很好,大蒜醬也很完美。配水果的冰淇淋也很美味。強烈推薦!

                上面這些都是機器生成的評論。

                (4)智能郵件

                Gmail 會根據電子郵件的來信內容,自動生成三種不同的回復,讓用戶選擇。如果只是簡單回應,用戶不用自己動手寫。

                Gmail 的另一個功能是,根據用戶已經寫的內容,預測接下來會寫的句子,供用戶選擇。

                五、小結

                毫無疑問,人工智能是很酷的技術,創造出了神奇的產品,有著難以想象的巨大應用前景。

                但是,人工智能也是一把雙刃劍,模糊了現實與虛擬之間的界限,把我們帶上了一條不可預測的道路。作為個人,了解這些技術的進展和潛力,有助于保持一份清醒,享受技術之福的同時,避免它帶來的一些副作用。

                (正文完)

                前端學習資料免費送

                時間過得很快,2019年接近尾聲了。你今年有沒有達到年初設定的目標?技術水平提升了多少?是不是感嘆時間太少,永遠有學不完的東西?

                下面是前端開發的10份免費專題資料,既有基礎內容,也有進階內容,都是實戰一定會用到的東西。不管你是剛開始學習前端,還是已經從事了0~3年的開發實務,這些資料相信都會讓你有所收獲。

                • HTML 專題
                • JavaScript 進階
                • ES6 專題
                • TypeScript 深入剖析專題
                • VUE 入門到進階實戰專題
                • React 專題
                • 底層源碼剖析專題
                • Node.js 專題
                • 服務器部署專題
                • 大型實戰項目解析

                這10份專題資料,來自只要微信掃描識別下面的二維碼,就能免費獲取上面這些最新的前端資料。

                金渡教育專注于做前端進階培訓。他們在騰訊課堂這個平臺上,有一門精品課程 《Web 前端進階班試聽課》。如果你看了上面資料,想了解更多,或者想接受系統的前端培訓,還可以 0 成本得到這門課的試聽。

                目前正值"雙十一",他們提供各種優惠,是騰訊課堂上性價比非常高的一門課程。

                (完)

                留言(25條)

                到最后,ai是否可以取代人類?

                分享竟然不支持釘釘!

                看完之后,我只想到了一個詞,欺騙,完全想不到它好的地方

                很好的科普文章!????

                人工智能的發展遠遠超出了我們的想象。

                很好。。但也很可怕。。越來越真實,可能會讓人類混淆什么是客觀的真實與虛擬。。這里面也許會產生一種新的經濟利益,類似于鴉片,人類可以完全投入到這個虛擬的世界中過另外一種自己的人生。。。越來越近了。。

                感謝介紹這篇論文。

                看得如芒在背,想起蜘蛛俠英雄遠征,你將分不清你所處的環境是真實還是虛擬。那么最后將是人性善獲勝還是人性惡獲勝。

                最后這些技術游戲行業全部能用上
                哈哈哈哈哈一定要好好鍛煉,活到全息游戲上線

                此條評論由 AI 生成

                人類越來越不容易分辨真實與虛擬,未來了解真相也愈加不易。

                喜歡TensorFlow

                便利的同時也感覺人類(普通人)會越來越難,AI還真是把雙刃劍呀。

                人類社會除了往前走,似乎也無路可退。

                能力如果不能得到很好的管理,帶來幫助也將變為傷害

                請問,那個樣式轉換(梵高畫)有沒有在線玩的地方?

                有一天, 所有的攝像頭都失去了意義

                那么問題來了,30歲高齡的普通程序員如何入門AI相關技術和領域

                視頻動畫在5G時代將會有很大發展

                敢問博主,AI跟區塊鏈會有怎樣的結合??

                看完這 我發現我做前端都沒什么意義了 以后直接生成頁面就好了

                懂的人看內核的技術, 不懂的人看個熱鬧

                只想到兩個字,可怕

                假如一臺機器有了和人一樣的智力,那 “他”能獲取一個合法的社會身份嗎?

                我想知道有些技術發展的初心是什么,似乎早就忘了初心

                我要發表看法

                «-必填

                «-必填,不公開

                «-我信任你,不會填寫廣告鏈接

                99爱视频