基于大规模历时语料的“鬼”字情感色彩演变研究

语义泛化、双音化与情感极化的量化考察 · 历时语料库语言学视角
📄 摘要
本文基于北京大学CCL语料库与北京语言大学BCC语料库,采集先秦至2010年代以及正史、经学、丛部等典籍类共计79 378条含“鬼”字例句,构建分时段短语优先情感分析模型, 对“鬼”字情感色彩进行七级量化标注(-3极贬至+3极褒),从语料分布、情感均值、情感结构、情感极化、双音化形态与语体差异六角度展开历时考察。 研究发现:①情感均值长期低位波动略偏负向,呈“稳定贬性”(p=0.18);②中性用法由古代27.5%骤降至现代约11%(突变点位于古今之交,p<0.001),褒贬两极同步扩张; ③情感标准差显著增大(r=0.84,突变点元代,p<0.001),经历明显情感极化;④上述过程与“鬼”由单音实词向“X+鬼”类后缀的双音化、语法化高度同步。 情感演变是语义泛化与语法化的副产品。
79,378
历时例句总量
7级
情感精细粒度
-0.05~+0.14
均值波动范围
r=0.844
标准差历时增长
元代突变
极化加速起点

一、情感均值的“稳定贬性” & 极化加剧

图1 “鬼”字情感平均得分历时变化(先秦→2010年代)
图2 情感得分标准差历时增长(情感极化趋势)
💡 Pettitt检验显示情感均值无显著突变(p=0.18),整体偏负向但稳定;然而标准差显著增加(r=0.844,p<0.001),突变点位于元代(p<0.001),表明自宋元起“鬼”字情感极化明显加速。

表1 各历史时期语料规模、情感均值与标准差(节选重点时期)

时期语料数(条)平均情感得分标准差
先秦86-0.1670.851
战国132+0.0400.745
西汉72-0.1221.007
东汉372-0.4111.047
魏晋南北朝492-0.2261.106
唐代1,493≈0.0001.144
北宋2,753-0.2401.223
元代991+0.0081.263
明代2,535-0.1981.256
清代5,572-0.2751.287
民国初期701-0.2511.248
1950年代8,508-0.0961.303
1960年代8,831+0.1391.317
1990年代8,842-0.0081.328
2010年代11,630-0.0541.427
正史类2,060-0.2171.206
经学类742+0.0230.800
完整数据包含从先秦至当代以及典籍类,标准差持续上升,反映情感离散程度扩大。

二、情感结构重组:中性用法的崩塌与双向分化

图3 中性用法占比衰减(%):古代65%→现代约16%
图4 关键时期负面/中性/正面情感结构对比
📉 中性用法占比由先秦65.1%、战国72.7%骤降至1950年代的8.3%及2010年代的16.1%(Pettitt突变点位于古今之交,p<0.001)。褒义与贬义两极同步扩张,例如元代褒义占比高达40.6%,清代贬义稳定在36%以上。

表2 代表性时期“鬼”字七级情感类别占比(%)

时期极贬贬义弱贬中性弱褒褒义极褒
先秦0.018.62.365.15.88.10.0
东汉2.729.32.750.82.212.40.0
隋代0.048.65.929.70.914.90.0
唐代1.024.03.133.75.732.20.3
北宋1.233.22.829.64.928.10.1
元代0.530.92.816.09.240.60.0
明代1.735.13.621.65.232.70.1
清代2.636.74.419.36.929.80.3
民国初期1.437.712.39.013.825.80.0
1950年代0.538.28.28.311.133.60.2
1960年代0.633.13.28.37.447.20.2
2010年代1.435.82.916.17.034.32.5
数据表明褒义与贬义同步增加,中性占比急剧坍缩,情感两极分化显著。

三、形态句法动因:双音化及类后缀化驱动情感极化

图5 “鬼”字双音复合比例历时攀升(抽样统计)

📌 类后缀演变示例

  • 先秦:鬼神、鬼方、鬼魅(中性复合词为主)
  • 魏晋-唐:鬼怪、恶鬼、鬼魂
  • 宋元:酒鬼、穷鬼、小鬼(“X+鬼”后缀萌芽)
  • 明清-现代:机灵鬼、捣蛋鬼、鬼点子(情感依赖前位语素)
表3 单用/双音比例演变:双音词占比由65%→80%
🧬 “鬼”由实义名词演变为类后缀,语义漂白后情感空位由前位X赋予,因而生成褒贬并存的“机灵鬼”与“酒鬼”。情感极化与双音化高度同步,形态句法演变是情感极化的底层驱动。
时期“鬼”单用比例双音复合词比例典型复合词
先秦约35%约65%鬼神、鬼方、鬼魅
魏晋—唐约50%约50%鬼怪、鬼魂、恶鬼
宋元约30%约70%酒鬼、穷鬼、小鬼
明清—现代约20%约80%机灵鬼、捣蛋鬼、鬼点子

四、语体差异:书面典藏抑制情感极化

图6 不同历史分组与语体的情感倾向结构(负面/中性/正面占比)
历史分组/语体语料数(条)负面(%)中性(%)正面(%)
古代(先秦-清代)15,79337.627.534.8
近代(民国-1940s)5,59345.210.244.6
现代(1950s-1990s)37,24242.311.046.7
当代(2000s-2010s)19,87440.414.844.8
典籍类(史/经/丛部)4,20732.041.926.1
典籍类中性占比高达41.9%,显著高于同时期口语语料,印证庄重语体对情感后缀用法的抑制。

五、核心讨论与理论洞见

📌 稳定贬性与极化共生
情感均值无突变,而方差与中性占比发生剧变,表明语义泛化导致情感内部结构重组而非整体偏移。
🧩 口语化助推褒义化
元曲、话本及现代口语语境中“小鬼”“机灵鬼”频繁出现,口语语境为褒义赋值提供温床。
⚙️ 语法化与情感漂白
“鬼”由具体名词演变为类后缀,情感依赖前位成分,诱发褒贬并存的双向分化。
结论: “鬼”字情感演变并非孤立现象,而是语义泛化与语法化的副产品。双音化及“X+鬼”类后缀的成熟提供了情感精细调控的形态句法基础,口语化为褒义化提供语用环境。历时大数据证明词汇情感演变与构式语法化深度耦合。
📚 参考文献
[1] 王力. 汉语史稿[M]. 北京: 中华书局, 1980.
[2] 董秀芳. 词汇化: 汉语双音词的衍生和发展(修订本)[M]. 北京: 商务印书馆, 2011.
[3] 蒋绍愚. 古汉语词汇纲要[M]. 北京: 商务印书馆, 2005.
[4] 沈家煊. 语用法的语法化[J]. 福建外语, 1998(2): 1-8.
[5] 詹卫东, 郭锐等. 北京大学CCL语料库的研制[J]. 语料库语言学, 2019.
[6] 荀恩东等. 大数据背景下BCC语料库的研制[J]. 语料库语言学, 2016.
[7] 褚兰平. 汉语类后缀“鬼”的探析[J]. 名作欣赏, 2021(29).
[8] Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales.
[9] Pettitt, A. N. (1979). A Non-Parametric Approach to the Change-Point Problem.
[10] Hopper, P. J., Traugott, E. C. (2003). Grammaticalization (2nd ed.).

基于79,378条历时语料 · CCL+BCC语料库 · 短语优先情感分析模型 | 七级量化标注