更/
B16 有發現別的錯誤翻譯句子
我也實驗過了,確實如此,甚至只要打前半句話就是錯誤的
https://i.imgur.com/JXBQ5Qx.jpg
這也證明了Google修正只能修正被回報的單一句子,無法一次修正整個翻譯系統的資訊來源
下方留言也補充了不少錯誤翻譯
也請大家看到一個錯誤就回報一個,幫助Google回到正確的水準上!
-
原文:
先解釋一下發生了什麼事情
昨天有人發現若在Google翻譯英文輸入“Very sad to see hong kong in this status”
中文會出現「很高興香港處於這種狀態」這種錯誤的翻譯結果
https://i.imgur.com/fq22bCF.jpg
https://i.imgur.com/yaEfp8y.png
https://i.imgur.com/58iT2sK.png
不只香港,將對象改成台灣、西藏、銅鑼灣等的地名也會是相同的錯誤翻譯結果,改成其他國家就沒事
https://i.imgur.com/Xq21Mvb.png
https://i.imgur.com/2CZieEm.jpg
也有這樣的奇怪錯誤翻譯
https://i.imgur.com/Yhhajat.jpg
https://i.imgur.com/MfThSbt.jpg
https://i.imgur.com/iqbvG0c.png
https://i.imgur.com/Y7rBqTo.png
在經過大家使用google翻譯的「意見反饋」後,現在這個問題已經不再出現
但我在這裡想再和大家說明一下為什麼必須重視這個事件
米特上也有些人認為這是Google的錯誤或是這件事沒什麼大不了
事實上,Google也是事件受害者,而事件的促使者是龐大且惡劣的
-
為什麼Google翻譯會出現這種錯誤呢?
簡單來說,Google翻譯系統使用的是他們特定的演算法及神經網路
促使者在網路上,或者特意加入Google社群後
投入大量的錯誤資訊,多次給予這個句子的錯誤翻譯結果
誘使Google在使用者輸入句子時,跑出了錯誤的翻譯結果
類似所謂的監督性學習
「給特定句子,要求吐出特定答案,在吐出特定答案後把這次結果列為正確」
-
因為Google翻譯系統的神經網路是RNN(遞歸神經網路)
「由多個節點互相連接和通過這些節點的互相判讀,去導出最終結果,也因此,要對一個結果做出影響,必須對多個節點都做出影響才能有實質效果。」
……有點複雜,手寫鍵盤的辨識判定就是這種方法
總之Google的神經網路規模一定不小,它所捕捉的資訊是極大量的,並且時間很長又完整
這種刻意輸入錯誤樣本把結果洗成目標資訊的做法
是需要非常大筆的樣本且非常持久才能成功誤導
而這樣的成果很有可能在神經網路上就造成了永久性的影響
試想促使者到底有多龐大,耗費了多少人力資金在這件事上?
我個人是覺得蠻噁心的
當這種結果今天被我們發現
代表在這之前很久已經有非常多人在刻意誤導、放出錯誤資訊
而且這不是說修正就能立刻完全修正的,甚至有可能無法修正
促使者是誰我想大家應該也心裡有底了吧
在小地方就開始做出影響到全部被改變,這種手法還看不夠多嗎?
-
米特上已有幾篇提起這件事的文章,但討論度並不高,且有不少認知錯誤
希望藉由這篇說明有讓大家理解到這次事件值得重視的原因和背後的原理
如果有任何解釋錯誤的地方還請提出來
參考資料(想看為什麼可能無法修正可以點第一個網址)
https://www.plurk.com/p/nd32pw
https://www.plurk.com/p/nd2y8f
https://zh.m.wikipedia.org/zh-tw/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C
你可能有興趣的文章...
全部留言
匿名
專業推 不過我認為中共政府不會做那麼沒有意義的事 應該是大陸民間屁孩去洗的
B9 已經修正了哦 https://i.imgur.com/J1JjEcf.jpg 之前遇到的
匿名
我是 B5 ,原po你太小看大陸翻牆的人數了,基本上能接觸到電腦跟網路的大陸民眾都會翻牆,只是他們不一定是來用PPT、FB的,他們可能來下載遊戲、看小說之類的,不是來打嘴炮
https://i.imgur.com/EoiJ3Si.jpg
https://i.imgur.com/e4aS00d.png https://i.imgur.com/186HRwh.png 我發現前面加so就會改變
這個翻譯錯誤的部分已經將神經網路連結其他輸入訊息去除,改成直接翻譯了,所以現在google也翻得有點爛。
現在好像不是用RNN了,然後直接這樣假設或許也不太正確(?