近年主要学术贡献 
  • 提出了自然语言处理的“概率配价模式”(PVP)理论架构,与现有相关理论模型相比,“概率配价模式”不仅可以更好地描述真实的语言结构、解释基于统计语言(句法)分析器的某些行为,也有助于对人类语言处理机制进行更具心理现实性的解释与模拟;
  • 提出了一种基于依存树库的语言类型学研究方法,并进行了相应的实证研究,发现语序类型是连续的,而不是离散的,提出并验证了从语料库中获得语序类型研究资源的方法;
  • 构建并研究了语义角色复杂网络,发现语义网络与句法网络在层级结构和节点度相关性方面存在明显不同;
  • 研究了依存关系、支配词与从属词、动词作为支配词、名词作为从属词、RST语篇关系、语义角色关系等的概率分布,发现它们大多符合Zipf-Alekseev分布;
  • 提出了复杂网络对语言学家是手段,而不是目标的观点,构造并研究了两种语体的句法复杂网络,开辟了用复杂网络方法研究语言的新路子;
  • 提出并采用20种语言的真实语料研究了以下三个假设:人类语言分析机制喜好能最小化所处理句子平均依存距离的语序,人类语言存在一个平均依存距离的阈值,语法与认知的协作使得语言的依存距离保持在此阈值内。发现一种语言的平均依存距离也与语言类型有关;
  • 提出了一种基于依存句法树库计算依存距离的方法,发现在所研究的20种语言中,汉语的依存距离最大,依存距离最小化可能是人类语言的一个普遍特征;
  • 创新性地采用了多个标注方式、语料等均不一样的句法标注语料库研究一种语言的计量研究方法,发现汉语的依存距离均值约为2.84,汉语中40%~50%的依存关系不是在相邻的词之间形成的,汉语是一种支配词置后略占优势的混合型语言;汉语支配词居前的依存距离均值要明显大于支配词置后的依存距离均值;
  • 发现句法对于语言网络有一定的影响,但在判断一个网络是不是句法网络时,无尺度只是必要条件,而非充分条件;
  • 研究了自然与随机语言的依存距离分布,发现自然语言符合右截尾Zeta分布,随机语言则没有这样的特点,自然语言的平均依存距离最小,无交叉弧的随机语言的依存距离小于有交叉弧随机语言的依存距离;
  • 采用句法复杂网络主要参数作为语言分类的指标,对10多种语言进行了分类研究,发现句法复杂网络可以反映语言的形态变化程度;
  • 采用英语配价与频率词典,对英语动词配价进行了计量研究,发现:英语动词的义项服从正负二项式分布;英语动词与形容词的补足语模式服从幂律,而名词则符合Zipf-Mandelbrot分布;动词的配价越大,则其词长越短;常用的动词有更大的配价;一个词的词义越多,其配价也越大;
  • 采用真实语料,研究了汉语配价的计量特征。结果发现,汉语配价与多义词的频序分布符合幂律;汉语动词的配价越大,其意义、频次、可出现的语境也越大。基于这些发现,我们在人类语言的词汇协同子系统中引入了配价成分,这不仅扩展了我们对词汇子系统的认识,也为进一步构拟基于配价与依存关系的人类语言句法协同子系统奠定了基础;
  • 构建了12种斯拉夫语族语言和2种非斯拉夫语言的平行词同现网络,并对这些网络的主要参数进行了分析。结果发现,平行词同现网络可用于同一语族内部语言的精细分类,而且文字形式难以影响语言的分类结果;
  • 通过对15种语言真实语料构建的依存树库与句法网络的计量分析,研究并回答了以下两个问题:从历时的角度,拉丁语是否与其他六种主要的罗曼语族语言在句法上有明显的不同?从共时的角度,六种主要的罗曼语族语言是否具有某些共同的句法特征,以致可将它们归为同一个语族?
  • 以现代汉语为例,采用复杂网络方法研究了作为多层级系统的人类语言结构特征。研究发现,字同现、词同现、句法关系及语义关系这四个网络模型,在呈现出各自统计特点的同时,也反映出各层级系统的共性与联系。这些系统的共性与个性均表明语言的相关属性与人类认知之间存在着密切联系;
  • 利用大规模多语种语料库,研究了人类语言中名词及其它主要词类的分布规律,结果发现:当语料达到一定程度时,名词所占的比例基本稳定在31-35%之间;随着使用频率的增加,词类中名词的比例呈增长态势,而其它功能性词类所占的比例则呈下降趋势;在最低频的词段,名词的比例则基本保持稳定;
  • 语言是一个符号系统,但不是一个简单、抽象的符号系统,而是一个由人驱动的符号系统。因此,在语言研究中,也应尽可能考虑人类认知能力对于语言结构模式形成与演化的作用与约束。语言也是一种复杂自适应系统,这也要求语言研究不仅只探究构成系统的元素,更应关注系统中各种元素之间的协同关系;
  • 采用英汉平行依存树库,研究了句长对依存距离与依存方向的影响。研究表明:依存距离的概率分布不受句长的影响;无论句子长短,汉语的平均依存距离总是高于英语;两种语言中相邻依存关系关系的数量总体相当,但随句长变化的趋势是有差别的;句子越长,其平均依存距离也越大,但增长速度非常缓慢,这是因为依存距离同时受工作记忆与语法的约束,不可能无限制增长;依存方向是一种比依存距离更可靠的语言分类指标;
  • 通过对30余种人类语言真实语料的考察发现,短句依存距离分布一般符合指数分布,而长句则更倾向于幂律分布。这说明当句子变长时,语言系统会启动一种自适应机制,使得句子的依存距离尽可能小,从而实现依存距离最小化这一人类语言的普遍特征。计算机仿真结果显示,组块就是人们在处理长句时,提高交际效率、降低句子难度的一种动态结构;
  • 句子由词组成,但词在句中的重要性是不一样的,是分层次的。层级性是人类语言的重要特性。通过对多种语言句法标注语料库的分析,我们发现:人类语言句子中各个层级的词语的出现频率是符合分布规律的;这些分布函数中的参数可能反映了人类语言结构或类型的差别;随着层级数增大,上一层词支配下一层词的数量存在逐渐降低的趋势。这些有关句子层级结构规律的发现,不仅有益于发现人类语言句法结构的结构模式与演化规律,也有助于采用科学的方法构建基于语言事实的语言学理论