從認知心理學視角分析詞類劃分論文

我們爲什麼要劃分詞類?作爲一種語法研究方法,詞類劃分體現了怎樣的哲學觀和認知觀?詞類所示意義與話語深層結構有怎樣的關係?如何才能擺脫漢語詞類劃分的困境?本文將從認知心理的視角尋求問題的答案。

從認知心理學視角分析詞類劃分論文

一、漢語詞類劃分的困境

詞類劃分一般遵循以下幾類標準。

1.詞法形態標準。具有悠久的歐洲語法學傳統,對形態豐富的印歐系語言等適用。它發生於古典希臘語地區,傳承於拉丁語地區,又主要發展成熟於法語、德語地區,這些語言都是典型的綜合語,語法意義的表達主要依靠繁複的詞形變化,詞序等句法手段則相對次要,這種語言環境下建立的語法學體系,重詞法、輕句法的取向是順理成章的。只是,形態變化少的語言不適用詞法形態標準,須從詞的外部另尋標準。

2.句法功能標準。通常,名詞充當主、賓語;動詞充當謂語;形容詞充當定語;副詞充當狀語,分工明確、職責清晰。但對漢語仍然不適用,試看:你快樂嗎?怎樣才能擁有快樂?快樂是人生的真諦。我願做一隻快樂的小鳥,快樂地面對每一天,也願你每天都過得快樂!"快樂"可以充任全部六種句子成分,這是詞的兼類?抑或詞性活用?無怪乎我們感嘆漢語詞類研究的困局:若詞有定類,則類無定職;若類有定職,則詞無定類。既然形式無法解決,就只能求助於意義了。

3.概括語義標準。通常名詞表示事物、動詞表示過程、形容詞表示性質和狀態、數詞表示數量,等等。概括語義符合人們思維意識中對詞項所表達意義的主觀感受,在跨語言對比中也有較高的接受度,這反映了詞性應該具有超越具體語言的普遍基礎,而形態變化等反倒可能僅是一種外在表象。據此標準,"學習"表過程,是動詞;"成功"表狀態,是形容詞,但它們也都有名詞性的用法,因爲我們賦予了"過程"和"狀態"被指稱的能力,它們已然演變爲一種"事物"了。可見,概括語義也不能完全解決詞類問題。

4.分佈標準。結構主義把詞類看成詞的分佈,在詞的組合和聚合中確定詞的地位和價值。實質上這是一種綜合標準:聚合關係體現的是同類個體的共性,類似於同類詞具有相同的詞法形態變化;組合關係則反映了詞的搭配成句的能力,實現的正是詞的句法功能;而詞的概括語義則隱含在這兩類關係之中。分佈在漢語界的影響力是巨大的,若干重要的語法學著作無不以此作爲詞類劃分的主要依據;然其效果卻褒貶不一,原因在於分佈綜合了太多的標準,依此分出的詞類數量往往很大,即便如此,在一個小類的內部,仍然無法保證所有成員的分佈特徵完全一致;但是,依據分佈劃出的詞類具有描寫精確、覆蓋全面的特點,這在計算機自然語言處理領域,顯示出一定的優勢。

針對漢語詞類劃分的困難,學界也不乏創見,現舉影響較廣的兩例:郭銳(2002)認爲,詞從本質上說是詞的語法意義的類型,即詞的表述功能,如陳述、指稱、修飾等大的類型以及實體、位置、計量單位、數量、指示等小的類型。語法意義有不同的層次:性、數、格、時、體等表達的是較低層次的語法意義,是對概念意義的抽象;表述功能是較高層次的語法意義,它與語言的使用者關係密切,是在使用中表現出來的功能意義。郭銳進而又將表述功能劃分爲內在和外在兩個層次,內在表述功能是詞語固有的表述功能,是歷時使用意義經約定俗成後固化的語法意義;外在表述功能是詞語在某個語法位置上所實現的表述功能,具有一定的靈活性。例如"小王黃頭髮","小王"從哪個層面看都是指稱;"黃頭髮"卻不一致,它的內在表述功能是指稱,外在表述功能則是陳述。

沈家煊(2009)提出了一種與衆不同的漢語詞類劃分方案:名詞、動詞、形容詞在印歐語中是分立關係,僅有少量的交叉;在漢語中則是包含關係,名詞包含着動詞,動詞包含着形容詞。這就很好地解釋了漢語中動詞可以充任主、賓語,形容詞可以充任幾乎所有句法成分的現象,但是包含關係卻不是分類的常規模式,名詞內部剔除動詞、形容詞之外的部分也應有相應的類屬,否則就無法構成一個平衡的分類體系。

漢語詞類劃分的困難依然無法解決,這促使我們反思,詞的定類與劃分作爲一種語法學的研究方法,其科學性如何體現?它是否真能反映語言(特別是漢語)的普遍規律?是否是我們唯一的選擇?歸結爲一個更爲本質的問題:我們爲什麼要劃分詞類?

二、詞類劃分是符號主義語言認知觀的產物

回答這個問題,要從一種長期主導語言研究(乃至科學研究)的認知心理範式--符號主義(Symbolism)說起,該範式認爲人腦的思維活動牽涉三類成員:一是源符號;二是規則系統;三是目標符號。思維過程可抽象爲:一是源符號依次進入系統;二是規則對輸入符號進行加工;三是生成並依次輸出目標符號。符號主義着重於模擬人腦的功能,運用規則和符號的串行處理,就可以實現判斷、選擇、邏輯推導等思維運算。

上世紀30年代,Turing將符號主義機制抽象爲一種架構簡單卻功能強大的數學模型--圖靈機,圖靈機的初衷是模擬人們利用紙筆進行計算的行爲:一是在紙的某個位置寫上或刪除一個符號;二是把注意力轉移到另一個位置;三是一套模擬人腦判斷能力的處理規則;四是一個模擬人腦記憶能力的狀態寄存器(佚名,1977)。圖靈機架構具有強大的包容性,現實生活的許多問題都可以改寫爲圖靈機可接受的形式,交由其處理。

之後,Kleene在圖靈機的基礎上定義了有限狀態自動機(Finite-StateAutomaton),並證明其等價於圖靈機。正則表達式(RegularExpression)是FSA的另一種實現,它由一套表達匹配規則的元字符組成,元字符的組合可以描述一系列特定模式的目標字符串。自此,圖靈機作爲處理語言現象的標準工具得到廣泛應用。

現以RE爲例,簡述其工作原理:w[a-z]*er[s]可以表示任何以"w"開頭,以"er"結尾的單詞。其中,w表示以w起始,[a-z]表示任意一個小寫字母,*表示[]中的內容可以重複0或任意多次,後面是字母er,er後的[s]意爲空字符,表示單詞結束。這就限定了一個符合特定要求的字符串,同樣,只要稍加改動,我們不難利用RE生成一個符合"SVO"或"NP+VP"的句子來。

作爲符號主義機器,圖靈機、FSA和RE的基本架構是一致的,歸結爲有限客體在有限規則控制下經歷的有限狀態的轉移,包括五個要素:一是有限的輸入符號;二是有限的系統狀態;三是狀態轉移函數(有限的規則);四是系統初始狀態;五是系統終極狀態(正常終止狀態、錯誤狀態等)。

這就是符號主義範式認知世界和模擬人腦思維的基本單元。雖然它略顯簡陋,但多個單元組合成系統後,就具有了強大的處理能力,足以解決生產生活中的大部分問題。我們編寫的計算機程序,無論多麼複雜,最終都無一例外地分解爲單一的圖靈機架構,這表明圖靈機具有強大的描述和概括能力,Turing因此被尊爲"現代計算機科學之父".

需要特別注意的是,圖靈機架構中有三處提到了"有限",即:有限的輸入符號、有限的狀態、有限的轉移規則。"有限"在符號主義範式中是十分重要的概念,其作用是把處理對象和處理過程限定在可控的範圍內。如果輸入符號是無限的,處理對象就不可控;如果狀態是無限的,則處理過程不可控;如果轉移規則是無限的,則系統將變得過於複雜而失去實用意義。

語言系統中存在若干集合,它們中大都是有限集合,例如音位集合、音節集合、聲調集合、詞法規則集合、句法規則集合、文字集合等,它們不經任何處理就能夠滿足圖靈機的輸入條件,成爲圖靈機的處理對象。但是,詞彙語義卻有些特殊,它是無限的、開放的集合(指實詞),爲了滿足符號主義處理機的要求,必須事先經過有限化改寫。於是,在符號主義幾乎一統天下的語法學界,尋求有效的語義有限化方法自然成了一項重要的基礎工作,各類方法也應運而生,其中具代表性的包括:語義場理論及義素分析法、邏輯語義分析、詞的定類及劃分、語義格分析等,它們都是符號主義語言認知觀下的最基礎的語義有限化方法。

遺憾的是,各種語義有限化的嘗試都不算成功[1],歸根結底,這都源於語義的開放性天生地與符號主義機器互不相容:完整的語義系統必須是一個無限元素的集合,而符號主義機器能接受的卻只是有限集合。這個矛盾使得任何語義有限化的嘗試都顯得捉襟見肘,左右爲難,以犧牲語義細節爲代價的有限化方法也許從根基上就是有缺陷的,我們需要尋找一種可行的替代方案。

三、聯結主義語言處理機不依賴語義分類

作爲符號主義的反撥,聯結主義(Connectionism)從人的自然生理結構出發,把人腦看成由衆多節點相互聯結組成的複雜關係網絡,認知活動就是通過激發節點間的信息傳導,引起節點狀態的改變、數量的增減和相互關係的重置,並再次達到穩定平衡的過程。聯結主義把關注的重點由規則移到了結構,認爲規則並不具體存在於符號序列,而是在信號的激發和傳導過程中從多維網絡結構中自然浮現出來。

聯結主義機制具有以下特徵。

1.節點。節點是對人腦神經細胞的模擬,是構成網絡的基本單元。人體中大約有1000億個神經細胞,每個細胞通過樹突和軸突分別與上千個其他神經細胞相連,構成一個龐大複雜的網絡。網絡的每個節點都是一個基本的信息存儲器和處理器,它從其他節點獲取信息,進行加工、存儲並繼續傳輸。每個節點都處在一定的狀態中,或者休眠,或者激活,或者某個中間活性量。當節點獲取的信息量超過一定閾值,或者一定時間沒有信息輸入時,就會引起節點狀態的改變。節點可以增殖、湮滅或合併。語言系統的詞或詞素,反映的是人腦中的思維概念,它們都可以看作聯結主義系統中的節點。

2.關係。關係由節點間的聯結狀態和聯結方式決定。聯結方式指具體與哪些節點相聯;聯結狀態指聯結的緊密程度,可以用權重來衡量,權重值可以調節,降爲零意味着聯結斷裂,升爲一意味着兩個節點的合併。符號主義是基於規則的,它依據規則對符號進行串行處理,規則是一切行動的綱領;聯結主義是基於關係的,它依據節點間關係的不同狀態來選擇處理信息的不同方式,同時依靠節點間權重的調節來存儲信息。因此,聯結主義實質就是一個研究關係和關係變化的範式,它可以很好地解釋詞或詞素之間的多維語義關係。

3.並行。也稱分佈式處理,是人腦的本質特徵之一,它使人類擁有了迅速處理複雜信息的能力,例如在一個嘈雜的環境中聽取一段話語,或者瞬間看懂一幅油畫的內容,等等。人腦的這種能力來源於它的網絡結構,即節點和聯結數量的廣泛性和平行性,由此一個電脈衝可以經由多條路徑和多個節點到達終點,這就是並行的實質。與此相對,計算機基本上是一個串行處理器,雖然它也可以模擬並行處理,但這是依靠把時間切成小片分配給不同的線程來實現的,實質上是一種僞並行。我們理解一個句子,依賴於對詞項間多維關係的並行分析,後文將進一步說明。

4.容錯性。符號主義的串行處理不能容忍錯誤的存在,前後步驟環環緊扣使得任何一環發生錯誤,都會導致不可預計的結果。聯結主義網絡實行分佈式處理,任何一個具體的節點或聯結都不是系統功能的唯一承擔者,當系統的一部分發生錯誤或阻斷時,可以激活備選節點和路徑加以替代,也就是說,網絡系統具有冗餘性的特徵。這種機制在多數情況下可以補全信息,糾正錯誤,順利完成認知任務。我們能理解斷續的話語、讀懂拼錯的生詞,進行天馬行空式的聯想和非邏輯性的推理等等,這些認知能力大都建立在腦結構的冗餘性特徵之上。

5.自學習。聯結主義建立起反饋機制對認知活動進行校驗和控制。校驗的目的是判定信息處理的正確性和認知活動的有效性。當結果發生偏差時,系統會自動調節節點的狀態、數量、聯結方式,並再次對輸出進行反饋、校驗和調節。經過多次循環,偏差達到極小,對信息的處理和認知達到最佳,系統狀態得到強化和鞏固。這就是聯結主義網絡的學習和記憶模式,它可以很好地模擬我們學習新詞和新表達方式的過程,而符號主義模型則不具備自主學習的能力。

6.遺忘。網絡需要持續的信息刺激以維持當前的狀態,如果得不到適當的信息輸入,隨着時間的推移,聯結會逐漸降低權重乃至斷裂,節點會逐漸喪失活性乃至消失,這就是遺忘。遺忘是人腦的重要特徵,適度的遺忘並不會嚴重影響認知活動的順利進行,反而對保護大腦不受垃圾信息侵擾有重要意義。符號主義範式不能容忍錯誤,更加不能容忍遺忘,其每一條規則都是確實的,任何一項規則的丟失都有可能中止系統的運行。

7.規則浮現。規則在聯結主義模式下具有"浮現特性"(EmergentProperties)。沈家煊(2004)指出,聯結主義網絡通過單元、激活、抑制、聯結等特徵能夠有效地表徵言語行爲,而這種表徵達到的有效程度使人覺得彷彿其背後有語法規則的支配。規則本身不需要在系統中明確表徵,但卻通過網絡"浮現"而出。這就如同蜜蜂築巢,主觀上並不依據六角形規則,但羣體行爲的結果是蜂巢的每一個孔格都受到多方向擠壓而呈現出六角形狀。

聯結主義範式的如上特徵使其具有了"軟處理"的能力,即輸入內容沒有嚴格的限制,處理過程沒有唯一的路徑,輸出信息沒有必然的結果。這不同於可重複驗證的非零即一的符號主義範式,而與人腦的模糊認知和模糊反應有着很多相似之處。軟處理不對處理對象做出限定,因此,聯結主義範式下的語言觀不以有限性爲前提,不以語義切分爲基礎研究方法,而是建立在無限元素、普遍聯繫的"百科知識網絡"之上。

聲音是時間上的連續,文字是空間上的連續,它們都可以進行切分。意義則不同,它佔據的是認知心理的空間,能否切分或者如何切分,就不是一目瞭然的事。

詞是能夠獨立運用的最小語言單位,作爲意義的載體,詞大致對應於概念這個認知單位。詞可以切分爲詞素,但詞義並不等於詞素義的簡單相加,因此這只是形式而非意義的切分。詞義也可以切分爲義素,但這種切分帶有很強的主觀性,而且並不能構建一個可以合成任何詞義的"義素週期表".詞義(義位)切分的困難提示我們,人腦對概念的認知和表達也許並不依賴於概念內部若干要素(語義成分)的組合,而是依賴於概念外部的要素,即概念之間的關係。

以Lakoff與Johnson爲代表的認知語言學者明確反對用形式化的方法切分語義,反對語義成分分析法,認爲人們對意義的理解並不是簡單的成分相加,而是必須建立在個人知識背景及百科知識網絡之上。以單詞"knee"爲例,我們一般不會從分析語義成分開始理解和描述它,相反,我們更容易想到的是腿、靈活性、運動性、關節、支撐等由身體經驗構建的語義知識庫。對於另一些從未接觸過的生詞,只要上下文提供足夠多的.詞義之間的關係,我們同樣可以很好地理解它,並把它納入百科知識網絡。這種自頂向下、自外而內的語義認知觀是對傳統的語義成分分析的顛覆,它完全承認了語義無限狀態的合理性,所以只把精力放在如何忠實地描述語義體系的結構和語義理解的過程,而放棄了切分提取語義單元的無謂勞動。

顯然,認知語言學關於百科知識網絡的提法與聯結主義的語言結構觀是一脈相承的,它的一個主要觀點認爲句法不是自足的系統,句法分析不能脫離語義,而語義描寫必須參照開放的知識系統(Langacker,1987)。Fillmore用"框架("Frame)描述這個開放的知識系統,建立起基於廣泛概念關係網絡的框架語義學,並於1997年起帶領團隊着手實現在線詞庫FrameNet[2].除了FrameNet,美國普林斯頓大學的WordNet[3]、國內董振東的HowNet[4](知網)以及黃增陽的HNC[5]

(概念層次網絡)也是以描寫廣泛語義關係爲主旨的詞庫工程,它們可看作聯結主義認知觀下語言學研究的基礎工程,雖然工作量巨大,且距離實際應用還有差距,卻爲語言學研究最終擺脫符號主義範式的束縛、擺脫傳統詞類劃分的困境提供了可能的途徑。

四、語法是概念多維關係經語言線性化後的補償機制

概念關係是多維的、普遍聯繫的。深層語義結構依賴立體空間表達概念關係,立體空間可以容納龐大的拓撲數據量,因此不需要語法單位的參與就可以勝任複雜關係的表達。前述聯結主義的概念網絡模型,即是一種多維關係網絡,針對每個節點,可以佈設任意多個連接來表達與其他節點的多重關係,是深層語義結構的理想模型。

從深層語義結構(概念結構)到表層句法結構,需經歷一個重要的線性化過程,也稱序列化過程(Serialization),原本立體結構的概念關係轉變爲線性結構的詞項關係。例如:我用洗衣機把牀單洗了。它的深層語義結構如圖2所示,存在這樣一些關係:一是"我"和"洗衣機"的使用被使用關係(句中已虛化爲表方式的介詞"用");二是"洗衣機"和"牀單"的洗滌被洗滌關係;三是"我"和"牀單"的處置被處置關係;四是使用、洗滌、處置等行爲與參照時間的關係(句中用助詞"了"表達);五是其他一些隱含關係,如"我"與"洗衣機""牀單"的領屬、借用關係、"牀單"清潔程度的變化關係,等等。這些關係通過立體網絡的多重鏈接加以表達,由於其關係表達十分充分,不需要額外的標記補充說明,因此深層語義結構只單純地包含實體概念和概念間的聯結。

語義結構由深層向表層轉變,無一例外地成爲線性結構,這是受到語音物理、生理屬性制約的必然結果。語音在物理上表現爲隨時間變化的物質震動,生理上表現爲氣流對發音器官的持續衝擊,因此語音與時間維度是緊密貼合的。爲了滿足時間維度的要求,深層語義結構必須將信息轉變爲適合語音特性的線性結構,這是語言序列化過程的原動力。圖2的概念語義結構經過序列化,就成爲下面的樣子:我-用-洗衣機-把-牀單-洗-了。

我們注意到,原本由多維結構承載的複雜關係信息,在序列化過程中被極大地破壞了,一維線性序列中的節點在形式上只能維持與左右相鄰單位的極近關係,這與立體網絡的關係表達能力不是一個數量級。爲了彌補這種缺失,各種語言都通過全民約定俗成的方式,來改善一維序列的關係表達,例如漢語約定爲SVO語言,日語約定爲SOV語言;漢語定中結構爲形容詞+名詞的類型,泰語定中結構則爲名詞+形容詞的類型。這樣,語序這一語法手段就正式出現在語言中,成爲對語言線性化過程中損失的關係表達機制的彌補。其他各類語法手段的發生過程及動因也莫不如此。上例表層句子所增加的三個虛詞詞項"用""把""了"以及不佔據時間軸的語序、語調、邏輯重音等,都是漢語中用於彌補關係表達能力的機制。

因此我們說,語法單位的產生有動因可循,它是受一維線性形式制約的多維關係表達機制,是言語序列化過程的必然結果。完善的語法手段可以勝任表達任何複雜的多維關係,但那只是理想狀態,真實語言中語法手段的表達能力十分有限:首先是句子長度的限制,一個場景的表達往往需要多個句子協同完成,句子過長易產生詞項關係混亂;其次是語法歧義的存在,類似於"Flying plane can be dangerous"這樣的歧義句,可以理解爲不同的深層語義結構,雖然這可以成爲雙關修辭的產生機制,豐富了語言表達方式,但現有語法手段難以區分和表達全部可能的多維語義關係,卻也是不爭的事實。

我們回到詞類問題上,與其他語法手段一樣,詞性標籤賦予詞項的語法意義也是對線性化過程中損失的多維概念關係的補償。它可以表達這樣一些關係:實體-屬性關係 名詞-形容詞 行爲-對象關係動詞-名詞實體-行爲關係 名詞-動詞 狀態-行爲關係副詞-動詞實體-數量關係 名詞-數詞 性質-實體關係形容詞-名詞行爲-時間關係 動詞-助詞……上述概念關係只是示例,並不完整。

事實上,一旦對概念關係進行分類,就立即陷入了符號主義認知觀的泥沼,因爲概念關係本質上是普遍聯繫的、無限的,分類意味着切分,意味着有限化改寫,這顯然與聯結主義原則相悖。對於概念語義這樣的無限集,分類的作用僅限於使研究變得更有條理、更便於理解和記憶,但這是以破壞語義細節爲代價的,而對於描述語義系統本身,分類絕不是最好的方法。如果能夠用其他手段(如百科知識網絡)完整表達概念語義關係,那麼詞類劃分將不再是唯一的選擇。