基于大规模历时语料的“鬼”字情感色彩演变研究
语义泛化、双音化与情感极化的量化考察 · 历时语料库语言学视角
📄 摘要
本文基于北京大学CCL语料库与北京语言大学BCC语料库,采集先秦至2010年代以及正史、经学、丛部等典籍类共计79 378条含“鬼”字例句,构建分时段短语优先情感分析模型,
对“鬼”字情感色彩进行七级量化标注(-3极贬至+3极褒),从语料分布、情感均值、情感结构、情感极化、双音化形态与语体差异六角度展开历时考察。
研究发现:①情感均值长期低位波动略偏负向,呈“稳定贬性”(p=0.18);②中性用法由古代27.5%骤降至现代约11%(突变点位于古今之交,p<0.001),褒贬两极同步扩张;
③情感标准差显著增大(r=0.84,突变点元代,p<0.001),经历明显情感极化;④上述过程与“鬼”由单音实词向“X+鬼”类后缀的双音化、语法化高度同步。
情感演变是语义泛化与语法化的副产品。
一、情感均值的“稳定贬性” & 极化加剧
图1 “鬼”字情感平均得分历时变化(先秦→2010年代)
💡 Pettitt检验显示情感均值无显著突变(p=0.18),整体偏负向但稳定;然而标准差显著增加(r=0.844,p<0.001),突变点位于元代(p<0.001),表明自宋元起“鬼”字情感极化明显加速。
表1 各历史时期语料规模、情感均值与标准差(节选重点时期)
| 时期 | 语料数(条) | 平均情感得分 | 标准差 |
| 先秦 | 86 | -0.167 | 0.851 |
| 战国 | 132 | +0.040 | 0.745 |
| 西汉 | 72 | -0.122 | 1.007 |
| 东汉 | 372 | -0.411 | 1.047 |
| 魏晋南北朝 | 492 | -0.226 | 1.106 |
| 唐代 | 1,493 | ≈0.000 | 1.144 |
| 北宋 | 2,753 | -0.240 | 1.223 |
| 元代 | 991 | +0.008 | 1.263 |
| 明代 | 2,535 | -0.198 | 1.256 |
| 清代 | 5,572 | -0.275 | 1.287 |
| 民国初期 | 701 | -0.251 | 1.248 |
| 1950年代 | 8,508 | -0.096 | 1.303 |
| 1960年代 | 8,831 | +0.139 | 1.317 |
| 1990年代 | 8,842 | -0.008 | 1.328 |
| 2010年代 | 11,630 | -0.054 | 1.427 |
| 正史类 | 2,060 | -0.217 | 1.206 |
| 经学类 | 742 | +0.023 | 0.800 |
二、情感结构重组:中性用法的崩塌与双向分化
图3 中性用法占比衰减(%):古代65%→现代约16%
📉 中性用法占比由先秦65.1%、战国72.7%骤降至1950年代的8.3%及2010年代的16.1%(Pettitt突变点位于古今之交,p<0.001)。褒义与贬义两极同步扩张,例如元代褒义占比高达40.6%,清代贬义稳定在36%以上。
表2 代表性时期“鬼”字七级情感类别占比(%)
| 时期 | 极贬 | 贬义 | 弱贬 | 中性 | 弱褒 | 褒义 | 极褒 |
| 先秦 | 0.0 | 18.6 | 2.3 | 65.1 | 5.8 | 8.1 | 0.0 |
| 东汉 | 2.7 | 29.3 | 2.7 | 50.8 | 2.2 | 12.4 | 0.0 |
| 隋代 | 0.0 | 48.6 | 5.9 | 29.7 | 0.9 | 14.9 | 0.0 |
| 唐代 | 1.0 | 24.0 | 3.1 | 33.7 | 5.7 | 32.2 | 0.3 |
| 北宋 | 1.2 | 33.2 | 2.8 | 29.6 | 4.9 | 28.1 | 0.1 |
| 元代 | 0.5 | 30.9 | 2.8 | 16.0 | 9.2 | 40.6 | 0.0 |
| 明代 | 1.7 | 35.1 | 3.6 | 21.6 | 5.2 | 32.7 | 0.1 |
| 清代 | 2.6 | 36.7 | 4.4 | 19.3 | 6.9 | 29.8 | 0.3 |
| 民国初期 | 1.4 | 37.7 | 12.3 | 9.0 | 13.8 | 25.8 | 0.0 |
| 1950年代 | 0.5 | 38.2 | 8.2 | 8.3 | 11.1 | 33.6 | 0.2 |
| 1960年代 | 0.6 | 33.1 | 3.2 | 8.3 | 7.4 | 47.2 | 0.2 |
| 2010年代 | 1.4 | 35.8 | 2.9 | 16.1 | 7.0 | 34.3 | 2.5 |
三、形态句法动因:双音化及类后缀化驱动情感极化
📌 类后缀演变示例
- 先秦:鬼神、鬼方、鬼魅(中性复合词为主)
- 魏晋-唐:鬼怪、恶鬼、鬼魂
- 宋元:酒鬼、穷鬼、小鬼(“X+鬼”后缀萌芽)
- 明清-现代:机灵鬼、捣蛋鬼、鬼点子(情感依赖前位语素)
表3 单用/双音比例演变:双音词占比由65%→80%
🧬 “鬼”由实义名词演变为类后缀,语义漂白后情感空位由前位X赋予,因而生成褒贬并存的“机灵鬼”与“酒鬼”。情感极化与双音化高度同步,形态句法演变是情感极化的底层驱动。
| 时期 | “鬼”单用比例 | 双音复合词比例 | 典型复合词 |
| 先秦 | 约35% | 约65% | 鬼神、鬼方、鬼魅 |
| 魏晋—唐 | 约50% | 约50% | 鬼怪、鬼魂、恶鬼 |
| 宋元 | 约30% | 约70% | 酒鬼、穷鬼、小鬼 |
| 明清—现代 | 约20% | 约80% | 机灵鬼、捣蛋鬼、鬼点子 |
四、语体差异:书面典藏抑制情感极化
图6 不同历史分组与语体的情感倾向结构(负面/中性/正面占比)
| 历史分组/语体 | 语料数(条) | 负面(%) | 中性(%) | 正面(%) |
| 古代(先秦-清代) | 15,793 | 37.6 | 27.5 | 34.8 |
| 近代(民国-1940s) | 5,593 | 45.2 | 10.2 | 44.6 |
| 现代(1950s-1990s) | 37,242 | 42.3 | 11.0 | 46.7 |
| 当代(2000s-2010s) | 19,874 | 40.4 | 14.8 | 44.8 |
| 典籍类(史/经/丛部) | 4,207 | 32.0 | 41.9 | 26.1 |
五、核心讨论与理论洞见
📌 稳定贬性与极化共生
情感均值无突变,而方差与中性占比发生剧变,表明语义泛化导致情感内部结构重组而非整体偏移。
🧩 口语化助推褒义化
元曲、话本及现代口语语境中“小鬼”“机灵鬼”频繁出现,口语语境为褒义赋值提供温床。
⚙️ 语法化与情感漂白
“鬼”由具体名词演变为类后缀,情感依赖前位成分,诱发褒贬并存的双向分化。
结论: “鬼”字情感演变并非孤立现象,而是语义泛化与语法化的副产品。双音化及“X+鬼”类后缀的成熟提供了情感精细调控的形态句法基础,口语化为褒义化提供语用环境。历时大数据证明词汇情感演变与构式语法化深度耦合。
📚 参考文献
[1] 王力. 汉语史稿[M]. 北京: 中华书局, 1980.
[2] 董秀芳. 词汇化: 汉语双音词的衍生和发展(修订本)[M]. 北京: 商务印书馆, 2011.
[3] 蒋绍愚. 古汉语词汇纲要[M]. 北京: 商务印书馆, 2005.
[4] 沈家煊. 语用法的语法化[J]. 福建外语, 1998(2): 1-8.
[5] 詹卫东, 郭锐等. 北京大学CCL语料库的研制[J]. 语料库语言学, 2019.
[6] 荀恩东等. 大数据背景下BCC语料库的研制[J]. 语料库语言学, 2016.
[7] 褚兰平. 汉语类后缀“鬼”的探析[J]. 名作欣赏, 2021(29).
[8] Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales.
[9] Pettitt, A. N. (1979). A Non-Parametric Approach to the Change-Point Problem.
[10] Hopper, P. J., Traugott, E. C. (2003). Grammaticalization (2nd ed.).
基于79,378条历时语料 · CCL+BCC语料库 · 短语优先情感分析模型 | 七级量化标注