荒野悲歌 作品

第2045章 AI改變世界

全球有一個超大型的免費的數據庫。

什麼語言都有,90%以上都是英文的語料庫,中文語料數據也就是2%左右。

全球幾乎所有的Ai模型,想要訓練都要依靠著這些公開的數據內容才行。因為都是英文數據,所以這些Ai模型,一定都是以英文為核心。

所以當百度的文心一言推出之後,就會出現很多令人難以理解的事……其實原因很簡單,文心一言使用的是英文數據,中文語料的數據實在是太少了。

別看國內人多,但網絡上真正有價值的內容實在不多,稍微出格一點,這些有價值的語料就要按法律法規給刪除了。

就剩下了一堆沒法訓練Ai的垃圾內容。

就比如,《大時代之巔》到底是一本怎樣的書?

如果有人說好,有人說不好,這些內容就都是有價值的內容,Ai模型經過一番的訓練和評估,從而給出比較客觀公正的評價。

如果作者想要維護評論區的和諧,把所有說好的內容都留下了,說差的內容都刪除了,最後只剩下了一片讚歌,那麼即便這些讚歌都是對的,這也是垃圾信息。

因為對Ai模型來說缺少了多元化的評判。

從出發點到終點,有一萬條路,Ai模型的訓練就是把這一萬條路都走一遍,然後選出最合適的那條路,這才是Ai的價值。

就像生物製藥,有一萬種選擇,Ai幫忙給出最好的那幾個選擇,就會大大地縮減研發經費、提高研發成功率。

要是一開始就只提供一條路,那還訓練個屁啊,不給Ai選擇、評判、思考和分析的機會,就只告訴他一個標準答案,Ai就會毫無意義。

德文、法文、日文、韓文的數據量太少,中文的數據量很大,可是因為環境的限制有價值的數據也很少。

所以,想訓練出世界級的Ai模型,就只能用英文語料來訓練。

這就需要一些弱勢語言的Ai模型,要有語言轉換能力,去轉換成英文。

就像使用文心一言,讓他畫一個起重機的圖片。

結果畫的是鶴。

這就很讓人費解。

其實很簡單,起重機的英文是crane,而crane在英文裡主要是指鶴。所以Ai模型就畫出了鶴的圖片。

又比如“可樂雞翅”這種,放在中文語境裡,其實很好理解,就是一道菜。可是,這裡面有一道翻譯的手續,把“可樂雞翅”翻譯成英文,在翻譯過程中就造成了信息離散,導致畫出來的可樂和雞翅。

Chatgpt一樣會遇到這樣的困境。

用英文向Chatgpt提問,回答的速度會非常快,而且準確度極高;如果用中文、日文、韓文、法文、德文等其他語言來提問,反應速度就會很慢,給出的答案也會錯誤百出。

因為其他語言的數據量太小了,訓練出的模型就不夠智能。

只有英文版最智能。

文心一言想要表達得智能一些,就不能對接中文的語料,要去對接英文的訓練數據才行,然後背後再增加一套翻譯算法和內容審查算法。

所以,想做出一款偉大的Ai產品,除了在人工智能領域的頂尖算法之外,還有很重要的一個因素,就是訓練Ai模型的數據。