DeepMind最近做了個(gè)新軟件它能讀懂唇語(yǔ)

2016-11-10 08:34:33 閱讀（765） 評(píng)論（0）

AlphaGo背后的DeepMind最近有了新動(dòng)向，它與哈佛大學(xué)的研究人員合作研發(fā)出了一套可以讀懂唇語(yǔ)的軟件。

在哈佛大學(xué)最新發(fā)表的論文中，他們研發(fā)的這個(gè)唇語(yǔ)閱讀軟件LipNet準(zhǔn)確率高達(dá)93.4%。這個(gè)準(zhǔn)確率遠(yuǎn)高于此前研發(fā)出來(lái)的其他唇語(yǔ)設(shè)備。

哈佛大學(xué)的研究人員稱，這是因?yàn)樗麄儾捎昧瞬煌姆椒▉?lái)訓(xùn)練LipNet的算法。為了讓它能更準(zhǔn)確的理解唇語(yǔ)，他們給計(jì)算機(jī)輸入了近3萬(wàn)個(gè)帶有情境的視頻片段，每個(gè)片段有3秒時(shí)長(zhǎng)，然后訓(xùn)練算法去匹配每個(gè)片段中每條句子對(duì)應(yīng)的唇形和發(fā)音，而不是讓其匹配每個(gè)單詞的唇形和發(fā)音。

通過(guò)這個(gè)訓(xùn)練，他們的算法就能根據(jù)上下文情境，從單個(gè)單詞的提示就能預(yù)測(cè)出整個(gè)句子。

但論文中提到如此高的準(zhǔn)確率也遭受了質(zhì)疑。因?yàn)樵谠撗芯恐校麄冇脕?lái)訓(xùn)練算法使用的視頻片段是經(jīng)過(guò)精心挑選的。

這些視頻中的人臉必須面向屏幕，說(shuō)話時(shí)唇形要很明顯，而使用的句法必須是標(biāo)準(zhǔn)的。但在真實(shí)的語(yǔ)言環(huán)境下，人們說(shuō)話時(shí)所使用的句法并不是完全標(biāo)準(zhǔn)的。

Open AI的人工智能方面的專家Jack Clark稱，如果要想將這項(xiàng)技術(shù)應(yīng)用到實(shí)際情境中，至少還需要在三個(gè)方面進(jìn)行改進(jìn)，包括增加人們實(shí)際對(duì)話場(chǎng)景的視頻片段，實(shí)現(xiàn)多個(gè)角度識(shí)別唇語(yǔ)以及讓算法能預(yù)測(cè)更多的短語(yǔ)組合或句式。

他還提到稱，如果能在實(shí)際情境下應(yīng)用，它會(huì)很有用，比如用到助聽(tīng)器中，或者被用來(lái)提高人工智能識(shí)別語(yǔ)音的準(zhǔn)確度和反應(yīng)速度上。

也有批評(píng)認(rèn)為，它的應(yīng)用也對(duì)公民的言論自由造成了威脅。

不過(guò)目前來(lái)看，這一切現(xiàn)在看起來(lái)還有點(diǎn)遠(yuǎn)。

未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明出處

上一篇：朝鮮.kp域名服務(wù)器現(xiàn)漏洞暴露全國(guó)只有28個(gè)網(wǎng)站？下一篇：后面沒(méi)有了