论SemRank的CWME专家权威度计算方法

发布时间:2016-11-12 01:34

1990年钱学森等人[1]提出开放的复杂巨系统的概念,以及处理这类系统的方法论——从定性到定量的综合集成方法。综合集成法就其实质而言是将专家群体(各种有关的专家)、数据和各种信息与计算机技术有机地结合起来,把各种学科的科学理论和人的经验知识结合起来,三者构成一个系统。这个方法的成功关键在于充分发挥了系统的整体优势和综合优势。1992年3月,钱学森进一步提出了人机结合,从定性到定量的综合集成研讨厅(HWME)体系的思想[2]。这个研讨厅的构思是把人集成于系统之中,采用人机结合、以人为主的技术路线,充分发挥人的作用,使研讨的集体在讨论问题时互相启发,互相激活,使集体创见远远胜过个人的智慧。

随着Internet和各种通信网络的迅速普及,cyberspace(电子空间和数字空间)成为一个重要的概念,它使参与者跨越时间和地域的限制,随时随地就所关心的问题进行研究、交流和探讨,并可随时利用网络上的大量资源。信息技术的这个发展,为综合集成研讨厅的实现提供了一种新的、可能的形式,即基于cyberspace的综合集成研讨厅(CWME)[4]。通过多年的探索与实践,已经成功建立了几个典型的CWME系统。

在CWME体系中,专家群体是最具有能动性的成员,各专家以研讨的方式畅所欲言,充分表达自己的观点,随时进行质询和辩论,以促进对复杂问题认识的提高。但是在研讨过程中,每个专家对同一复杂问题的认识和判断都不尽相同,且参与者个人的行为和判断会不同程度地影响周围每个人的思维判断,使得专家群体中的交互关系存在着微妙的随时间变化的动态复杂性。因此,在综合集成研讨厅体系中,如何衡量专家意见的合理性,计算在研讨过程中涌现出来的专家权威度,刻画专家群体之间的交互关系和结构,从而促进研讨流畅、高效地进行,是研讨厅体系实践和应用过程中的一个重要问题。

文献[7]提出一种对发言观点进行权威度计算的方法。该方法借鉴万维网网页的链接概念,根据发言之间的响应关系建立广义专家群体的有向链接结构。该结构采用有向属性图表示,专家的每条发言作为一个节点,每个节点有两个属性,即见解质量属性和见解评价属性。专家发言之间的响应关系作为有向边(链接)。根据发言响应和被响应的情况计算每条发言的权威度,发言被响应的次数越多,该条发言的权威度越高;权威度较高的发言所响应的发言,其权威度也较高,反之权威度越小。文献[8]提出了基于即时发言评价的专家权威度计算方法。在研讨过程中,各位专家在主持人的引导下按照一定的评价指标即时对发言进行评价,所采用的评价指标是相关度、可信度、合理度以及启发度。在研讨过程中,一个专家的权威度主要是由其发言效率和评价效率决定的。因此,基于即时发言评价的专家权威度计算方法的基本思想是通过计算专家的发言效率和评价效率,并对两者进行适当加权,进而得出专家的总体权威度。

上述方法尽管可以计算专家某条发言的权威度,但是并没有从语义的角度考虑专家的发言内容之间的关系,同时也没有考虑专家群体交互的动态复杂性。基于此,本文提出了基于Semantic-PageRank(SemRank)的专家权威度计算方法。该方法既考虑专家之间的交互结构,又考虑专家发言内容之间的语义关联;在计算语义关联时,该方法还引入了时间要素这一概念来体现专家交互的动态复杂性。实验结果表明,本文提出的专家权威度计算方法合理、有效,可以为与会专家在综合集成研讨环境中进行良性互动提供一定的参考意义。

1 PageRank算法

本文提出的SemRank算法是在PageRank的基础发展得到的,“PageRank”技术[9]最早由斯坦福大学的“Google”研究小组提出。可以用一种“随机冲浪”模型作为“PageRank”的理论基础,该模型描述网络用户对网页的访问行为。假设如下:

a)用户随机地选择一个网页作为上网的起始网页;

b)看完这个网页后,从该网页所含的超链接中随机地选择一个页面继续进行浏览;

c)沿着超链接前进了一定数目的网页后,用户对这个主题感到厌烦,重新随机选择一个网页进行浏览,如此反复。

根据上述的用户行为模型,PageRank的基本思想就是引入一个网页的权威值的概念,其网页的权威值与网页的内容无关,权威值计算是根据网络的拓扑结构图。网页p的权威值取决于两个要素:a)有多少网页引用了它(网页p);b)引用网页p的这些网页的权威值。因此这是一个循环迭代的过程[10]。计算公式如下:

x?p=dN+(1-d)?q∈pa[p]x?qh?q(1)

其中:d∈(0,1)是阻尼因子;h?q是节点q的出度,就是q有多少个超链接外链;pa[p]是指向p的网页集合;N是指网络拓扑结构中节点数,即网页的数量。

2 基于SemRank的专家权威度计算方法

综合集成研讨厅体系的链接结构是通过专家群体的有效互动建立起来的。在互动过程中,专家对以前的发言进行评论,同时发表自己对问题的见解,通过这种响应建立起个体之间响应关系,进而可建立专家群体的有向链接结构。链接结构中,专家每次的发言为一个节点,专家发言的响应或者被响应关系为有向边,从而使得这种链接结构可用有向属性图表示。这与PageRank中描述WWW的有向属性有相似之处:WWW中的网页对应一个节点,WWW中网页的链接关系对应图中的边。文献[7]采用的就是这个思路计算专家发言的权威度。

在实践过程中,运用上述方法却经常遇到两个问题:a)虽然某条发言A在长时间内得到较多的响应,但此时发言的主题已经发生了一定程度的改变,此时A的权威度理应下降,但是由于PageRank算法本身不考虑发言内容的语义相似度,导致计算出来的A的权威度偏高;b)越早的发言,权威度容易越高,这是因为较早的发言容易得到相对较多的响应,或者说最近的发言经常尚未得到充分的响应,此时按照PageRank计算的权威度会偏离真实的权威度情况。

针对这两个常见问题,在PageRank算法的基础上,本文提出SemRank方法。该方法的优势在于:a)引入发言内容的语义相似度计算方法,在衡量某条发言的权威度时,不仅考虑它得到了多少响应,同时考虑它与所响应的发言之间的语义联系;b)引入时间衰减函数,对较近的响应赋予较大的权重,削弱某些早期发言过于长久的影响。

SemRank算法同样根据有向属性图来计算每条发言的权威度,然后对每个专家的所有发言的权威值求均值,获得该专家的总体权威度。

2.1 发言内容的动态相似度计算

首先考虑专家发言之间的语义关联,把研讨中的每条发言表示成tf-idf向量形式,采用余弦相似度计算语义关联程度,计算公式如下:

sim(u,v)=?ω∈u,vtf?u(ω)tf?v(ω)idf(ω)?2

?ω∈u(tf?u(ω)idf(ω))?2

?ω∈v(tf?v(ω)idf(ω))?2

(2)

其中:tf?u(ω)和tf?v(ω)分别表示词ω在发言u和v中的词频;idf(ω)表示逆文本频率,计算公式为

idf(ω)=log (N/n?ω)(3)

其中:n?ω是表示有多少条发言包含词ω,N为总的发言数。

式(2)只考虑了专家发言之间的静态关系。实际上这种关系应该是与时间相关的:两条发言之间的时间间隔越长,语义之间的相似度就越低,反之则越高。因此本文考虑时间衰减要素,引入时间衰减函数(这里考虑的时间信息是专家的每条发言在整个研讨过程中的相对位置,而不是每条发言在研讨过程中出现的绝对时间),得到如下的动态相似度计算公式:

s?i(u,v,T)=sim(u,v)×f?i(u,v,T);i=1,2(4)

其中:f?i(u,v,T)为发言u与v之间的时间衰减函数。这里采用两种形式:

a)f?1(u,v,T)=1-|k-i-1|/N。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。

b)f?2(u,v,T)=1/|k-i|。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。

2.2 专家权威度计算

基于SemRank的专家权威度计算的算法实现过程如下:

初始值:向量P?0=(p?0(1),p?0(2),…,p?0(N)),其中p?0(u)=1/N(u=1,2,…,N)。?

输入:error ε。

输出: 向量P=(p(1),p(2),…,P(N))。

t=0

repeat

t=t+1

根据式(6)计算P?t(u)(u=1,2,…,N)

δ=‖P?t-Pt-1‖

until δ<ε

returnP?t

在考虑了发言内容之间的动态语义相似度以后,专家之间交互的有向属性图就成为了一个加权的有向属性图。从文献[11]获得启发,在加权的有向属性图的基础上计算专家发言的权威值。

加权的有向属性图通过两个矩阵的点乘形式表示:

B?kN×N=AN×N?•×sim?kN×N;k=1,2(5)

其中:B?kN×N(i, j)=AN×N(i, j)×sim?kN×N(i, j)(i, j=1,2,…,N;k=1,2);矩阵AN×N为邻接矩阵,如果节点i到j之间有一条有向边,则AN×N(i, j)为1,否则为0;矩阵sim?kN×N为动态相似度矩阵,式中sim?kN×N(i, j)=s?k(i,j,T)(k=1,2)。

在此加权有向属性图矩阵B?kN×N的基础上,专家发言的权威值计算如下:

p?k(u)=dN+(1-d)?v∈adj[u]B?k(v,u)B?k(v,i)p?k(v) (6)

其中:k=1或k=2,即计算矩阵B?kN×N时采用了哪个时间衰减函数;N是属性图的节点总数;d是阻尼因子,一般都在区间[0.1,0.2]选择,一般选择0.15;adj[u]是指向u的发言集合。

最后将权威度向量进行归一化,即

P=(p(1)maxNi=1 p(i),

p(2)maxNi=1 p(i),…,

p(N)maxNi=1 p(i))(7)

3 研讨实例及其分析

下面以一个初步形成的研讨厅体系的专家研讨过程为例(文献[7]中的示例),来说明基于SemRank专家权威度计算方法。其中,发言专家是以一些博士研究生和硕士研究生进行的仿真,专家的发言是经济专业人士帮助并提供的。其中,Zh代表主持人,T、C、G、L、M代表不同的专家,在主持人的主持下专家们进行研讨的过程与结果如图1所示。

Zh:好,如果各位专家没有意见,现在进入研讨。首先请对今年的经济形势作一个基本判断。

T:在扩大内需政策影响下,经济增长幅度止跌回升。今年仍有趋好潜力。首先,除了出口增幅趋缓外,投资、消费需求增速均有所提高;其二,结构矛盾继续缓解,产销衔接较好;其三 ,上半年工业企业经济效益明显好转。

C:(除了T提到的几个因素外)另一个积极因素是工业经济在结构调整中增长加快,上半年工业增长保持了10%以上,势必对今年经济起到积极作用。

G:(除了C和T提到的因素外)另外启动了一些供给政策,如对中小企业的支持、技改贴息提高装备水平、国企改革等, 对改善宏观经济发展环境是十分必要的。

L:(我不同意他们三人的分析)我担心的是,世界经济形势会对我国经济增长产生极其不利的影响。根据世界银行估计,美国经济今年预计增长0.7%(去年5%),世界经济增长2.9%,全球贸易增长5.2%。

T:(不同意 L的分析)我认为不必过分忧虑。实际上去年内需也起到重要作用。只要今年继续坚持积极的财政政策,加上公务员增资、提高低收入者收入水平等政策到位,内需增长会弥补出口下滑对经济增长的不利影响。

M:L的意见确实值得注意。我国对美国的出口占全部出口的21%,如果美国经济出现衰退,必将影响我国出口,还将对我国吸引外资、资本市场、投资信心等方面产生影响,因为……

Zh :L,按你的判断,今年经济形势走势会如何?

L:(响应 Zh)我不太乐观,受世界经济的影响,我国今年经济增速会比上年下降,GDP增长 7%……

M:我同意L的看法……

T:(不同意 L)我认为,经济增长幅度还会有所上升,到达 8.3%……

C:( 对他们两人L和T的意见都不太赞同)从总体上,我对今年经济增长还是有信心的,GDP增长与上年持平,达到 8%。但以下问题值得注意:一是非国有经济投资问题;二是消费增长具有一定的不确定性;三是农民收入连续多年没有多大的改善,影响到总体的消费水平……

G:(不太同意L、T、C的意见)考虑到出口会受到影响,GDP增长幅度将比去年略有下降,达到7.6%~7.8%……

将2.2节中论述的基于SemRank的专家权威度计算方法应用于上述的研讨过程,专家的每次发言为一个节点,用专家研讨时的ID和发言时间或者次数标志类节点,为清楚起见,用“专家ID+t+发言的次数”来标志节点,获得了以下的专家个体互动关系:

Tt1;

Ct1→Tt1; Gt1→Tt1,Ct1;

Lt1→Tt1,Ct1,Gt1;Tt2→Lt1;Mt1→Lt1;

Zht1→Lt1; Lt2→Zht1;Mt2→Lt2;

Tt3→Lt2; Ct2→Lt2,Tt3;

Gt2→Ct2,Lt2,Tt3;

上述的研讨数据需预处理,这里采用中国科学院计算所ICTCLAS2008进行中文分词,将专家的每条发言表示成tf-idf向量形式。根据2.2节中的算法计算专家发言的权威值,设置允许的输出误差error为0.000 1,式(6)中的阻尼因子为0.15,考虑前面提到的两种时间衰减函数,共迭代了9次,获得最终的结果。作为对比,表1列出了采用基于HITS的链接结构分析算法[7]计算的专家发言权威值。由于HITS算法是不收敛的,采用的迭代次数为3。

专家发言

采用f?1(u,v,T)?时间衰减函数

权威值排序

采用f?2(u,v,T)?时间衰减函数

权威值排序

基于HITS的链接?结构分析算法

权威值排序

Tt11.00 11.00 10.173

Ct10.71 30.74 30.134

Gt10.31 60.41 60.076

Lt10.86 20.87 20.067

Tt20.14 90.14 90.008

Mt10.14 90.14 90.008

ZHt10.56 40.56 40.008

Lt20.49 50.49 50.281

Mt20.14 90.14 90.008

Tt30.22 70.26 70.182

Ct20.18 80.21 80.105

Gt20.14 90.14 90.008

根据上述专家每条发言的权威值,对每位专家所有的发言的权威值求和,再求平均,获得专家的总体权威度。在采用2.1节中提出的两种时间衰减函数时,专家的总体权威度排序比较一致。根据排序结果,本文主要重点关注专家L、T和C的发言(由于主持人主要是引导研讨过程的,尽管排序是第2位,这里不关注他的发言)。从这三位专家的发言可以归纳出今年的经济形势,有三种不同的意见:a)经济增长幅度止跌回升,今年仍有趋好潜力;b)世界经济形势会对我国经济增长产生极其不利的影响;c)工业经济的结构调整,势必对今年经济起到积极作用。根据表1可知,采用基于HITS的链接结构分析算法计算专家发言权威值时,不可避免地出现了专家发言权威值为0的情况(如Tt2、Mt1),这是由于HITS算法本身的特性决定的,如果某条发言无人响应,该权威值就为0。采用SemRank方法时,专家发言的权威值不会出现为0的情况。由式(6)可知,每位专家的权威值都有非0的初始值d/N,这与现实情况是一致的,因为每位参与研讨的专家都是领域和行业专家,其发言都具有一定的参考价值和权威度。

专家发言

采用f?1(u,v,T)?时间衰减函数

总体权威度排序

采用f?2(u,v,T)?时间衰减函数

总体权威度排序

基于HITS的链接?结构分析算法

总体权威度排序

T0.453 30.467 40.1172

C0.445 40.475 30.1153

G0.225 50.275 50.0354

L0.675 10.680 10.1701

M0.140 60.140 60.0005

Zh0.560 20.560 20.0005

以专家G的第一条发言为例说明专家发言在研讨中的权威值变化的情况。如图2所示,采用SemRank方法时,在时刻2专家Gt1发言的权威值取得了最大值,这与实际情况是相符的。在发言Gt1提出来以后,其他专家会对这条发言评论,表达自己的意见。在某个时刻权威值会取得最大值,随着研讨的深入,大家讨论的内容会发生改变(上述研讨的示例,只是实验所采用的研讨脚本的一部分内容),讨论的议题演变成如何帮助中小企业度过这次经济危机,因此专家发言Gt1的权威值将会随着时间变小,这也说明了SemRank方法利用语义以及时间因素来计算专家发言权威值是正确的,并与实际情况是相?符的。

采用基于SemRank的专家权威度计算,可以衡量专家每条发言的权威值,评估每个专家的总体权威度。通过权威度计算以及排序,可知哪几个专家发言是需要重点关注并引起最多争议讨论的,对形成最终的决策提供了有力的支持。

4 结束语

针对综合集成研讨环境中的专家权威度评价问题,本文提出基于SemRank的专家权威度计算方法。该方法既考虑了专家之间的交互结构,又考虑了专家发言内容之间的语义关联,同时引入了时间衰减函数来反映交互的动态复杂性。实验结果表明,本文提出的专家权威度计算方法合理、有效,可帮助专家快速了解当前的交互结构,避免思维的过分发散,加快专家群体的自组织过程,为深化认识、激发思维奠定了较好的基础。

本文所提的权威的计算方法尽管考虑到了发言之间的语义关联关系以及时间衰减因素,但是由于这种关联程度计算方法并不足以严格划分发言的主题,在研讨话题发生变化时,会在一定程度上导致权威度更新的滞后与混淆。在下一步的工作中,可以加入更多的语义理解及分析内容,采用分类和聚类方法,对专家发言进行动态主题建模,获取专家主题的转移趋势,进而在此基础上更加准确地计算专家在某一主题上的权威度,以及在所有主题上的综合权威度。

论SemRank的CWME专家权威度计算方法的评论条评论