而半九十’的,而是按照一個個技術階段分別攻克的。他們要實現的最終目標,是‘透過讓人工智慧演算法,識別出一個影片中,哪幾幀畫面才是決定全篇調性、故事主題的‘主要內容/中心思想’。

然後,再透過精讀識別這些幀的畫面上,有多少人物、什麼動作、發生了什麼故事’,最後總結出‘這影片大致是在說講怎麼樣一個故事’。”

馮見雄說到這裡的時候,稍微停頓了一下。也觀察了傑克馬的接受度,又通俗解釋了幾個點。

他的這番理論,如果都用術語表述,可能比較晦澀。

但是,舉個小學生都懂的例子,橫向對比一下,就通俗了谷歌科學家們,在調教“深度學習”型人工智慧、理解人類語言文字/影象資訊的時候,其實有點兒像老師給小學生上語文課。

相信小學生都記得,當年語文課的時候,老師會不厭其煩問你:這篇課文的主要內容是什麼?中心思想是什麼?線索是什麼?

很多小學生當初肯定是內心有一萬頭羊駝奔騰而過:尼瑪!老子知道這個課文說了啥,看懂不就好了?你問個屁的“主要內容”、“中心思想”啊!考試答錯了還扣分!

但你別說,調教機器人學語文的時候,還真得嚴格按照“主要內容”、“中心思想”這麼一步步總結下來。很多人類覺得可以靠本能繞過去、或者省略掉的步驟,機器是繞不過去的。

傑克馬很快就懂了,示意他繼續:“那麼,然後呢?”

馮見雄繼續解說:“既然知道谷歌的技術路線了,那麼我們就可以推斷:在實現最終極的目標之前,谷歌需要先解決‘讀懂一張圖裡發生的故事’的問題,然後再考慮‘如何選出一個影片中最能體現中心思想的那幾幀’。

那麼,距離‘讀懂一張圖裡的故事’這一步,谷歌目前差多遠呢?我認為大致是三年目前谷歌已經可以做到識別圖片裡是不是有一張人臉,但還沒法識別這個人到底是誰、和另一張照片裡的人是不是同一個。

谷歌還能識別出‘圖裡有沒有一隻貓’,但識別不出‘這隻貓和剛才那隻貓是否是同一只’。而大約三年之後,這些都不是問題。谷歌能做到‘從識別出圖裡有隻貓’,到‘識別這一幀在講什麼故事’。

我們如果緊跟谷歌的步伐,結合阿狸系的影象識別研發,就算留一年餘量好了。那麼2016年也能搞出‘讓機器讀懂一幀’的商用技術。當然,這裡面肯定需要與阿狸系影象識別團隊的深度合作,也需要後續的投資。

而對我來說,只要做到了‘識別出一幀’,我就能‘大致讀懂整個故事’,從而把谷歌需要用純技術手段解決的問題,用運營手段給暫時繞過去。”

技術不夠,運營補。

這一招,馮見雄用得屢試不爽了。

“怎麼補?”傑克馬的語氣已經有些急切,他覺得自己完全被馮見雄天才的腦洞給折服了。

“傑克,你看過n站的影片麼?看過優酷或者youtube的麼?”馮見雄不公佈答案,而是先反問了一句。

“都看過吧,不多。”傑克馬不明所以,回答得比較謹慎。

馮見雄終於到了揭開謎底的一刻,他傲然笑道:“那不知道你有沒有發現一個細節優酷和youtube上的影片,其實都是沒有‘封面’的,而我們n站的up主,在上傳影片時,已經養成了另外傳一張圖片作為封面的習慣了當然,說實話,這個習慣不是up主們自發養成的,是我讓天音硬逼著up主們養成的。

或許將來有人看到這一招有效之後,會跟風我。但是一個網站的內容提供者水平,是不可能一朝一夕提高的,使用者習慣也不是一朝一夕可以改變的。優酷未來即使學了,他們的up主在選封面方面的水平,也是遠遠弱於