中國錯過ChatGPT 能彎道超車嗎?
2023年3月16日,百度發布中國版ChatGPT「文心一言」產品的同時,百度港股股價一度下跌10%。圖為百度首席技術官王海峰出席「文心一言」新聞發布會。(Michael Zhang / AFP)
近半年來,ChatGPT火爆全球,但沒有對中國、北韓、古巴,俄羅斯等國開放。不過,中國的百度、阿里、科大訊飛等互聯網公司都宣布即將推出自己的GPT。號稱AI第一的中國,為何缺席這場盛宴,今後會「彎道超車」,還是「彎道翻車」?
文•齊先予
超級政治審查下的中國聊天機器人產業
去年11月正式推出的ChatGPT打響了全球聊天機器人競賽的第一炮,隔著網絡防火牆的中國大陸也被這股聊天機器人熱潮席捲。從去年底開始,騰訊、華為、字節跳動、京東、360、快手、網易等十幾家中國科技企業都相繼宣布正在研發類似ChatGPT的產品。百度、阿里巴巴和商湯科技則已推出自己的產品。
然而,中共國家互聯網信息辦公室(簡稱網信辦)4月11日發布《生成式人工智能服務管理辦法(徵求意見稿)》,就研發、利用生成式人工智能產品的限定,強調利用人工智能生成的內容,「應當體現社會主義核心價值觀」,不得含有「顛覆國家政權、推翻社會主義制度」等等。違反規定的人可能面臨罰款或刑事調查。
4月11日,阿里巴巴推出「通義千問」AI聊天機器人。阿里巴巴董事會主席兼CEO張勇表示,阿里巴巴所有產品未來將接入「通義千問」大模型,進行全面改造。前一天,商湯科技也推出了一系列新的人工智能產品,包括聊天機器人和圖像生成器。商湯科技因開發人臉識別程序協助中共監視新疆維吾爾人,2019年被美國列入貿易黑名單。
中國的AI主要集中在人臉識別等監控技術上,商湯科技因開發人臉識別程序協助中共監視新疆維吾爾人,2019年被美國列入貿易黑名單。圖為2018年北京一安保展覽會上人臉識別AI攝像頭。(Nicolas Asfouri / AFP)
與AI相關的倫理問題、洩密和假訊息,就業和教育等問題也倍受關注。台灣國防安全研究院中共政軍與作戰概念研究所助理研究員王綉雯表示,審查和限制是各國政府對AI必然發展出來的制度設計,但是西方國家主要在防止AI對國家社會安定和人民生命等基本權利的傷害,而極權政府則是以防止政權被顛覆為最高目的。
王綉雯表示,中共特別擔心AI聊天機器人會給出他們不想讓人民知道的回答,所以用「假訊息」名義來總括一切不合其價值,例如所謂社會主義規範的訊息,這樣才有監管和取締的正當性。
「中共未來會在符合其價值觀的名義下,對訊息進行最大幅度的監管和過濾。這本來就是共產主義愚民政策和用民族主義洗腦的看家本領,只不過現在是用AI監管和過濾,所以速度會變得很快。」
加拿大約克大學教授沈榮欽(Jung-Chin Shen)也指出,中共從發展網際網絡開始,就一直搞內容審查。因為它必須要控制所有國民的意識形態。而監控資訊本來就是中共利用數位極權來鞏固政權的方式的一種。在AI領域上,中共也會沿襲這個方法。而中共定義的虛假信息,通常指的是不符合中共意識形態的消息。
多年來,中共一直嚴格審查其互聯網,中國科技巨頭也謹慎行事,尤其是在中共國家主席習近平和1989年鎮壓天安門廣場民主示威等敏感話題上。
3月16日,百度首席執行官李彥宏率先發布了聊天機器人「文心一言」(Ernie Bot),並從當天開始允許用戶申請使用和測試。
路透社、《華爾街日報》等外媒,包括阿里巴巴創始人馬雲控制的《南華早報》,都有報導中國聊天機器人遇上的政治審查難題。比如,百度的「文心一言」(Ernie Bot)聊天機器人,在遇到政治類問題,諸如中共高層領導人、新疆、白紙運動,特別是涉及習近平時,均會拒答或要求改變話題,由此引發人們譏笑。
《華爾街日報》測試了四款中文聊天機器人產品,對話表現最好的聊天機器人是「吉皮Talk」(Gipi Talk)。當有人問習近平是否是一位好領導人時,得到的回應是輸入「無法通過安全審查」,然後是「我們換個話題,說點別的吧。」
中國論文最多 創新被清零
2022年斯坦福大學表示,中國論文在AI期刊被引用數、會議論文與專利申請上均排名第一,超過了美國。日本與荷蘭的研究團隊也發現,中國AI論文在數量上一直排在首位,到2021年已經增至美國的約兩倍的4萬3000多篇。
不過,中國的AI主要集中在人臉識別等監控技術上,在ChatGPT這種溝通交流的產品設計上,卻落後於美國一個小公司OpenAI。
從2017年6月,Google發布Transformer論文視為GPT的源頭,到2020年1月,OpenAI發布語言模型,5月GPT-3論文發布,到2021年11月,GPT-3 API公開發布,再到2022年底引爆英文互聯網,發展迅速。
據研究AI機器學習的專家、時事評論員傑森博士介紹,人工智能的快速發展,從「深度學習」開始算,已經有十多年的歷史了。ChatGPT的人工智能模型GPT-3.5的參數數量達到1750億個,與人腦有1000億個神經細胞同在一個數量級上了,後來推出的GPT-4已經達到100萬億個參數。
傑森表示,如果說ChatGPT的GPT-3.5達到了人類高中生的水平,而GPT-4已經提升到大學生或研究生的智力水平了。
大陸有專業人士分析說,為什麼中國缺席了GPT的盛宴?主要原因是三年的清零封城,讓中國從AI領頭羊淪為了看客。
三年的清零封城,讓中國從AI領頭羊淪為了看客。圖為2022年5月9日北京疫情高峰期間,一名檢疫人員在封鎖的住宅區牆外休息。(Noel Celis / AFP)
具體來說,要實現ChatGPT在應用層面的突破,需要至少三類人才,一類是能夠看懂OpenAI、DeepMind、Google論文的研究員;第二類是能夠使用OpenAI的API來探索模型的嘗試者,第三類經常看人們在用OpenAI的API做什麼產品的風險投資者,而這些,中國在疫情期間都沒有了。
ChatGPT是需要不斷學習的,中國嚴苛的言論環境與聊天AI誕生的基礎是矛盾的,中文互聯網不足以提供高質量的訓練數據,而在西方,維基百科、高質量的活躍論壇(Reddit論壇上收集的內容)、RealNew這樣的專業新聞存檔、學術論文、高質量代碼和開放的圖書資源等等,都成了ChatGPT成長的沃土。
中國落後的體制原因
時事評論員唐靖遠認為,中共的三年清零封城,「事實上已經打斷了早就慘澹經營的中國科技創新經脈,習近平沒能把病毒清零,但真真切切地把經濟投資、製造和消費基本上清零了,也把科技創新的資金、人才和創新機制基本上清零了。」
在一個僅僅針對習近平一個人就有多達500多個敏感詞被禁用的語言環境中,不可能誕生出真正意義上的有價值的聊天AI,即便百度、阿里這些巨頭聲稱搭上了第二班車推出了自己版本的GPT,那遲早也會變成一個智能版、擴大版的「學習強國」而已。
另外,缺乏多樣性和學習素材,也是中國落後的原因。
ChatGPT需要不斷學習,中國嚴苛的言論環境,缺乏多樣性和學習素材,中文互聯網不足以提供高質量的訓練數據。(Cfoto / Future Publishing / Getty Images)
中共不斷強調要把公司做大做強,但在創新領域,往往是一些小公司異軍突起。傑森解釋說,創新需要不斷的摸索,從犯錯中學習。比如說,你派100個人到原野裡頭去找東西有效呢,還是把100個人編成一個方隊,然後齊步走在一個原野裡面找東西方便?那肯定是100個人分散找更有效,因為這有多樣性,每個人找的角度、各方面都不一樣,才容易找到突破點。
人工智能主要靠機器學習,機器要有內容可學。西方這邊是全世界東西拿來都可以學,什麼語言都行,什麼樣的內容都行。
但在中國,所學的東西是被控制的,這樣就導致中國那邊能學到的信息質量有問題,多樣性有問題,機器學習的進度和效果就差很多。
馬雲與《少數派報告》
因為中國人用的聯想電腦和華為手機等設備,都在全方位收集每個人的數據,目前中共不但能竊聽每個人的通話留言,還能通過大數據來掌握每個人整個的思維架構和行為模式,並以此來判斷此人是否有可能對中共政權構成威脅。
唐靖遠以好萊塢科幻電影《少數派報告》為例,屆時人類發明了一套系統可以偵查出人的犯罪企圖,因此特工們可以在犯罪發生之前,就將這個人提前逮捕並判刑,男主角就是這樣的一個特工。但有一天當男主角一覺醒來,突然發現自己居然被系統判定為有殺人企圖,從而成為昔日同事的抓捕對象的時候,他只能亡命天涯去找到能夠證明自己清白的證據。
早在2016年,當時還春風得意的馬雲就曾經應中共政法委書記孟建柱的邀請,給150萬政法人員發表網路演講,當時他談及警察可以通過淘寶的大數據,如果發現一個人同時購買火藥、高壓鍋、鋼珠、鐘錶等,那麼這個人可能在計畫製造炸藥,而一個電子支付紀錄顯示一天多次乘坐公共汽車的人,可能是個小偷。當時的馬雲根本沒想到,自己在幾年之後就被當局以「政商勾結、無序擴張」的罪名給提前處理了,他自己也成為了《少數派報告》中被判定有犯罪嫌疑,或者說有「干政謀亂」嫌疑的人而被清除了。這與當年商鞅作法自斃的一幕很相似。
2016年馬雲發表網路演講談及警察可以通過大數據發現可能的小偷,沒想到幾年之後自己就被當局以「政商勾結、無序擴張」的罪名給提前處理了。圖為馬雲2016年資料照。(Munir Uz Zaman / AFP)
很難只當工具不替人決策
電子科技的發展,從機械自動化,到電腦時代成為人類的決策輔佐,再到AI代替人做決策,這個過程實際上就是人類不斷放棄主導權、把自己交給機器來控制的過程。表面上是人類享受著科技的便利,一切工作都可以交給AI去完成,而事實上是AI主宰了人的生活,它說什麼就是什麼,它讓怎麼做你就怎麼做。就像《少數派報告》故事講的那樣,人反而變成了聽命於系統的執行者。這不可悲嗎?
專家建議,使用人工智能系統,要讓它對社會的功效最大化、危害最小化,其中最關鍵的一點是,只能把AI作為工具,絕對不能把它作為一個幫你做決策的體系。但要做到這一點是非常難的。
以前人們用谷歌搜尋出很多結果時,還需要判斷挑選,而ChatGPT把它挑選的結果直接餵養給人,久而久之,人們就依賴ChatGPT來做判斷了,這個時候想著決策,所有信息都是ChatGPT提供的,思維方式也是AI培養的,決策時能不被AI控制嗎?
以上次美國大選來看,人們用的谷歌搜索、臉書等社交平台,還有郵件等,都是來自幾個大公司,一旦這些大公司不讓你傳遞什麼消息,你就沒法傳遞什麼消息了,人們已經被控制了。
有人測試ChatGPT-4時發現,當提出和中共有關話題時,不論是用中文還是英文輸入,GPT-4要麼重複中共的官方說辭,要麼嘗試轉移話題。
傑森分析說,這與中共一言堂的體制有關。OpenAI聲稱自己是中立的,比如說,你要是問它墮胎的事,它就把支持墮胎和反對墮胎的說法都列出來。
但由於中共掌控了中文世界的主要發言權,AI的機器學習,學到的都是占了絕大多數的中共的謊言話語系統,少數敢於講真相的華文問題,由於信息量占比小,所以ChatGPT給出的基本都是重複中共的說辭。
由於中共掌控了中文世界的主要發言權,AI的機器學到的都是占了絕大多數的中共的謊言話語系統,所以ChatGPT給出的基本都是重複中共的說辭。(Cfoto / Future Publishing / Getty Images)
中共將再演百度谷歌戲碼
中國做人工智能第一的公司是百度,每年投入幾百億上千億的做研究,但有用戶稱,GPT-4如果是大學生、研究生的話,那麼百度研發的「文心一言」的綜合能力只是小學高年級的狀態。
回顧歷史,當谷歌技術已經很成熟的時候,百度才剛剛起家,中共就把谷歌放進去,讓谷歌也能在中國存在。一旦百度稍微有點起色、能用的時候,中共就把谷歌想盡辦法從中國給踢出去了,於是,百度就在中國一家獨大,中國百姓也就只能用百度了。
3月16日,百度發表中國版ChatGPT「文心一言」產品的同時,百度港股股價一度下跌10%至120.1港元/股。有人分析,這次百度股票先跌後漲,就是很多投資人認為,中共官方會再次幫助百度的。
為了研發ChatGPT,OpenAI在非洲等低收入國家雇了很多人,手工標識了很多程序,但中共有很強的模仿能力,一旦別人搞出來了,它也有「驚人的技巧」去從別人那山寨過來。
ChatGPT系統是很便宜的,一旦中共利用其他途徑購買之後,就可把ChatGPT作為它的學習的素材,不斷給ChatGPT輸入問題,不斷分析結果,就可以學到OpenAI系統是如何回答問題的,很快就能找出仿製品。
屆時,中共又可以「自豪地宣稱」,自己漢語的ChatGPT,是全球首創了。然而中共其實是運用大語言模型,來強化其對AI回覆內容的監管和過濾。在不斷縮減和篩選AI回答內容之下,中國AI可能變得智力越來越減退或停頓,無法和美國AI相比較。◇
|