荒野悲歌作品

第2045章 AI改變世界

 

全球有一個超大型的免費的數據庫。

什麼語言都有，90%以上都是英文的語料庫，中文語料數據也就是2%左右。

全球幾乎所有的Ai模型，想要訓練都要依靠著這些公開的數據內容才行。因為都是英文數據，所以這些Ai模型，一定都是以英文為核心。

所以當百度的文心一言推出之後，就會出現很多令人難以理解的事……其實原因很簡單，文心一言使用的是英文數據，中文語料的數據實在是太少了。

別看國內人多，但網絡上真正有價值的內容實在不多，稍微出格一點，這些有價值的語料就要按法律法規給刪除了。

就剩下了一堆沒法訓練Ai的垃圾內容。

就比如，《大時代之巔》到底是一本怎樣的書？

如果有人說好，有人說不好，這些內容就都是有價值的內容，Ai模型經過一番的訓練和評估，從而給出比較客觀公正的評價。

如果作者想要維護評論區的和諧，把所有說好的內容都留下了，說差的內容都刪除了，最後只剩下了一片讚歌，那麼即便這些讚歌都是對的，這也是垃圾信息。

因為對Ai模型來說缺少了多元化的評判。

從出發點到終點，有一萬條路，Ai模型的訓練就是把這一萬條路都走一遍，然後選出最合適的那條路，這才是Ai的價值。

就像生物製藥，有一萬種選擇，Ai幫忙給出最好的那幾個選擇，就會大大地縮減研發經費、提高研發成功率。

要是一開始就只提供一條路，那還訓練個屁啊，不給Ai選擇、評判、思考和分析的機會，就只告訴他一個標準答案，Ai就會毫無意義。

德文、法文、日文、韓文的數據量太少，中文的數據量很大，可是因為環境的限制有價值的數據也很少。

所以，想訓練出世界級的Ai模型，就只能用英文語料來訓練。

這就需要一些弱勢語言的Ai模型，要有語言轉換能力，去轉換成英文。

就像使用文心一言，讓他畫一個起重機的圖片。

結果畫的是鶴。

這就很讓人費解。

其實很簡單，起重機的英文是crane，而crane在英文裡主要是指鶴。所以Ai模型就畫出了鶴的圖片。

又比如“可樂雞翅”這種，放在中文語境裡，其實很好理解，就是一道菜。可是，這裡面有一道翻譯的手續，把“可樂雞翅”翻譯成英文，在翻譯過程中就造成了信息離散，導致畫出來的可樂和雞翅。

Chatgpt一樣會遇到這樣的困境。

用英文向Chatgpt提問，回答的速度會非常快，而且準確度極高；如果用中文、日文、韓文、法文、德文等其他語言來提問，反應速度就會很慢，給出的答案也會錯誤百出。

因為其他語言的數據量太小了，訓練出的模型就不夠智能。

只有英文版最智能。

文心一言想要表達得智能一些，就不能對接中文的語料，要去對接英文的訓練數據才行，然後背後再增加一套翻譯算法和內容審查算法。

所以，想做出一款偉大的Ai產品，除了在人工智能領域的頂尖算法之外，還有很重要的一個因素，就是訓練Ai模型的數據。