幾乎所有語言都遵循齊夫定律,原因成謎!
你或許預料到,單詞的使用頻率各有不同。例如,你使用「the」這個單詞的頻率,遠高於「ecumenical」(普世的)或「phubbing」(低頭症)。然而,分析大型文字中單詞的使用頻率後,會發現它們嚴格遵循一條特定的統計規律。
一篇相關論文解釋道:「大約80年前,喬治·金斯利·齊夫提出一項觀察結果,即單詞的使用頻率似乎是其頻率排名的冪函式,公式為f(r) ∝ ??,其中f是單詞頻率,r是頻率排名,而?是指數。」
簡單來說,一種語言中使用最頻繁的單詞——在英語裡是「the」——其使用頻率是第二常用單詞的兩倍,是第三常用單詞的三倍,是第四常用單詞的四倍,依此類推,這種冪函式規律能持續很長時間,令人驚訝。
你可能會認為這只是英語的奇特現象,但並非如此。齊夫定律似乎適用於幾乎所有被研究過的語言。無論你說的是英語、印地語、法語、普通話還是西班牙語,單詞的使用頻率似乎都隨著其流行程度排名的上升而下降。
齊夫定律適用於維基百科上30種不同語言的前1000萬個單詞。(圖片來源:SergioJimenez/Wikimedia Commons ,CC BY - SA 4.0)更奇怪的是,它甚至適用於我們尚未解讀的語言。就連神秘的《伏尼契手稿》中的單詞似乎也遵循這一定律。而且,如果單個文字篇幅足夠長,大致也會遵循這些規律,排名第一的單詞出現的次數是排名第二單詞的兩倍,依此類推。甚至查爾斯·達爾文也無法擺脫這一定律,有分析發現,該定律相當精準地適用於他的《物種起源》。事實上,它無處不在。
這是不是很奇怪呢?一篇相關評論解釋道:「值得思考這一定律的奇特之處。人類語言中單詞頻率存在差異,這當然是一個重要特性;我們原本可能認為所有單詞的使用頻率應該大致相同。但既然單詞頻率確實存在差異,那就不清楚為什麼單詞要遵循如此精確的數學規則——尤其是一條不涉及每個單詞含義任何方面的規則。」
對於這一現象,有許多可能的解釋,從統計問題到人類記憶和詞彙量的限制都有。喬治·齊夫本人提出,該定律源於一種努力最小化的平衡,說話者(或寫作者)試圖透過使用更常用的單詞來減少自身的努力,而聽者(或讀者)則希望從不常用的單詞中獲得更清晰的語言表達。進一步來說,人類試圖以最有效的方式傳達意義,傾向於使用能傳達最多資訊的單詞。
另一種觀點認為,隨著語言的傳播和發展,更常用的單詞隨時間推移會變得更受歡迎,從而產生一種雪球效應。但這些都沒有被真正認可為最終解釋,其背後的原因仍然是個謎。
如果你真想讓自己陷入一場基於語言學的存在主義危機,甚至可以將自己的長文字、小說或論文貼上到分佈計算器中,看看它是否遵循齊夫定律。你可能不喜歡自己使用語言的方式顯得如此可預測,但別擔心,就連莎士比亞的《哈姆雷特》似乎也遵循這一定律。