新紀元周刊|和您攜手,共同走進新的紀元

如何監控六億網民? 中文信息技術的隱性弱點

?"
中共的計算機技術內建有「記錄實際敲入鍵盤字元的功能」,使得實時監視用戶的做法更 為可能。圖為兩位男士在北京一家咖啡廳使用電腦。(Getty Images)

隨著惡意軟件的擴散,安裝「鍵盤記錄程序」變得更加容易。而中文計算機打字的特性更易精準確定的「實時」攔截資料。隨著雲端輸入法的普及,無數的鍵盤敲打穿梭於光纖電纜間,對鍵盤敲入的跟蹤,使得中共實時監視中國六億網民更為容易。

編譯 _ 李清怡

中共內建鍵盤記錄程序監視用戶

斯坦福大學副教授Tom Mullaney近日在《外交事務》雜誌撰文,題為「如何監控6億網民?」

3年前,發生了美國中央情報局僱員斯諾登洩密事件,曝光美國政府大面積監聽國內外電話。其實,不難猜測,各國政府都能監視你的電子郵件、臉書帖子、推特,而且,在你上傳之前,就已經被監視到了。另外,國家和私有企業能夠攔截和讀取你那些副名為.docx和.rtf的文本文件,這也不是沒有可能。

而且,這種監視可能會「實時」進行,也就是說,在你要按鍵保存文本文件或將它們上傳到雲端之前,就已經被攔截了。雖然所有這些目前只是猜想,但事實未必不是如此。

在過去的10年裡,我一直在研究現代中國信息技術的歷史,研究結果記錄在我寫的兩本書裡,明年麻省理工大學出版社將會出版。

簡而言之,中共的計算機技術內建有「記錄實際敲入鍵盤字元的功能」,該技術使得實時監視中國電腦用戶的做法成為可能。即使用戶看上去處於離線狀態,或者正在使用非傳輸性文本程序,如Word、Notepad、TextEdit等等。

我們來看一下,為什麼有必要了解鍵盤記錄程序(keylogger)及中文電腦特性,二者又有何關聯呢?

鍵盤記錄程序是一種程序,或者是一個安裝在電腦中的實體插件,常被用於惡意使用:如盜用信用卡信息、密碼或者其它個人數據,鍵盤記錄程序長久以來一直被政府用於監控。

隨著惡意軟件的擴散,安裝鍵盤記錄程序變得更加容易。中文計算機打字特性使人更加容易精準確定計算機用戶所輸入的按鍵。在中國,只要進入個人電腦或設備的鍵盤記錄程序,就可以確定計算機用戶所輸入的按鍵。從技術角度來講,針對世界各地的每一臺電腦和設備,都可以做到這一點。

在中國的計算機與美國計算機所使用的鍵盤完全相同,都是QWERTY的鍵盤。


中國的QWERTY鍵盤更加「聰明」,能快速精準的記錄讀取中文打字的按鍵資訊,更容易被 惡意使用,如監控網民、盜用信用卡信息、密碼或者其它個人數據。(Getty Images)

中文電腦的QWERTY鍵盤
更加「聰明」


但是,在中國的QWERTY鍵盤與表面看上去的可不是一回事,在中文的計算機程序中,QWERTY鍵盤上的字母的使用方法不是通常那種「敲進去什麼字母就出來什麼字母」,而是作為一種指令,發送給一個軟件,該軟件即是廣為人知的輸入法IME,這種輸入法通過鍵盤指令確定中文字符,然後呈現在電腦屏幕上。

我們看一下,用戶在輸入「誠信」時,可能會如何使用QWERTY鍵盤。如果使用業界主流的搜狗輸入法,用戶可有多種方法輸入。用戶既可以輸入完整的拼音c-h-e-n-g-x-i-n,也可以使用幾種簡潔或縮寫輸入法,只需輸入每個字拼音的首寫字母,如搜狗法輸入c-x,跳出的菜單選項除了「誠信」,還會跳出多個其它以c-x為首的詞,如「抄襲」,給出這種選項時,用戶可以很容易地選擇誠信、抄襲等等。

尤其從2000年開始,中文的電腦技術掌控了原本日益增長的個人電腦處理能力,大大加速了輸入程序的速度,所有的中文輸入法嚴重並智能性地依賴預測文字、自動完成、快捷鍵和縮寫。與那些 「敲進去什麼字母就出來什麼字母」使用字母文字的國家相比,中國的QWERTY鍵盤更加「聰明」。所有這些因素將中文變成了世界上最易快速處理的電腦輸入語言。

在過去的幾年裡,發生了進一步的變化:輸入法加入了雲端。與1980年代至2000年代輸入法不同的是,搜狗、百度、QQ、微軟及其它公司推出的所謂雲端輸入系統,已經開始控制巨大的中文字庫。2013年,微軟研發者吹捧微軟中文輸入法的強大功能;搜狗也在其公司網站上吹噓其雲端輸入法的超強準確性和卓越性能,稱其「將一長串複雜的字母轉換成準確、多個中文文字的能力從之前使用本地儲存輸入法時的62.5%提升至使用雲端輸入法時的84%。」並稱「處理短句的準確性從91.52%提升至96%。」

如果輸入法程序的核心是鍵盤記錄程序,那麼,雲端輸入法就是與網路相連接的鍵盤記錄程序。

雲端輸入法對隱私的監控

隨著無數的鍵盤敲打穿梭於光纖電纜間,對鍵盤敲入的跟蹤已經被應用於典型的監控行為中,因此,公眾對此開始表現出擔心,而且,在中國,文字提示正日益成為文本輸入的核心部分。

當然,有人也許會提出疑問:能否通過使用第三方的電腦,避開雲端輸入法的監控,沒錯,如果無法確定用戶的身分,自然就無法確定是誰輸入了那些鍵盤記錄。

作為斯坦福大學空間與文本分析中心(CESTA)數字人文亞洲項目組的一部分,我和我的團隊一直在分析鍵盤輸入記錄,我們發現,鍵盤輸入記錄之間有著驚人的差異,不同的電腦用戶在輸入中文時,似乎都有一套他們自己所依賴的獨特的輸入法和技巧,鍵盤輸入記錄對安全與隱私的影響非常深遠。

在斯坦福大學,我們請志願者使用自己偏愛的輸入法,輸入唐代詩人王維的詩《送別》,我們驚奇地發現:在前兩句詩,只有短短的十個字中,每個人的鍵盤記錄就已經開始呈現出不同的差異了。

「下馬飲君酒,問君何所之?”」輸入鍵盤記錄:

樣本#1:xiama_yinjunjiu_,wen_jun_hesuozhi2?

樣本#2:xiamayinjunjiu2,wenjunhesuozhi2?

下劃線_是用戶按下空格鍵的地方,在按下空格鍵後,用戶選擇了搜狗輸入法所跳出選字框中的第一個字,數字2表明用戶選擇了搜狗輸入法選字框中的第二個字。

我們在上述例子中看到,有些人每次只輸入一個字的拼音:輸入w-e-n,然後按空格鍵(_)選擇所要的字。而有的人則輸入與包含多個中文字相對應的一連串拼音字母,如x-i-a-m-a-y-i-n-j-u-n-j-i-u,對輸入法的聯想能力依賴度更高。

輸入法指紋可用作強大的取證技術


當把某一電腦用戶每年幾十萬(甚至幾百萬)次的按鍵結合起來,就能總結出那個人獨有 的「指紋」,交叉對比可以用作強大的取證技術。(Getty Images)

這意味著,當我們把某一電腦用戶每年幾十萬(甚至幾百萬)次的按鍵結合起來,就能總結出那個人獨有的「指紋」,而這種「指紋」的曝光度可能比打印機時代最先進的取證技術還要強。將輸入法指紋與定位數據、網頁臨時數據和其它數據獲取方法進行交叉對比,我們發現:輸入法指紋可以用作強大的取證技術。

在雲端輸入法時代,電腦用戶要想躲避監控,僅僅通過更換電腦可能還不夠,因為用戶的指紋很容易被跟蹤。如果你的每一個Word文檔都能被攔截怎麼辦?甚至是那些你從沒保存過的文檔,包括整個草稿文檔都能被攔截怎麼辦?如果你刪掉的每一段話,每一個修改過的詞語,每一次改動,都像你的最終文檔一樣被一併監控,你要怎麼辦?你已經刪除的、其實卻被保存下來的這些文本,有一天會不會被用來針對你呢?

雲端輸入法的盛行提出了一系列問題,舉例說:如果魏京生被監禁的原因主要是因為他1978年撰寫了一篇文章。那麼,在將來,異見人士在使用電腦時,是否會像被對待恐怖分子一樣,還未來得及寫東西時就已經被抓捕了?

另外,我們沒有理由認為,上述這些猜想僅限於中文輸入或中文語言,遠非如此,可以說,全球的IT公司和用戶利用和掌握智能鍵盤的作用只是個時間的問題,而中國在幾十年前就已經開始實踐了。◇

您也許會喜歡