摘要:国外金融文本情感分析历经数十年的发展,在金融文本情感分析的信息来源和模型建立等方面有了较多的学术积累,为行为金融学研究提供了有价值的研究思路和方法。但随着全球经济的快速发展,相关研究也要适应各种变化,本文在句法和语义的考虑等方面展开了更为深入的研究。
关键词:金融文本情感分析;特征项;机器学习
中图分类号:F830.91 文献标识码:A 文章编号:2096-0298(2016)05(a)-072-02
金融市场上传统的信息来源主要有历史股价、财务报表等。Web2.0时代的到来使网络用户同时充当着信息的发布者。行为金融学认为,金融市场参与者的心理状态会影响其自身和其他参与者的行为。因而对每个参与者来说,各种用户生成的内容构成了大数据时代的信息来源,这些海量信息需要通过情感分析技术进行处理。该技术将信息进行归类,进而用于研究市场或投资者的反映。金融文本情感分析在国外研究时间较长,方法较为成熟,成果颇为丰富。本文对这些研究进行梳理,并提出未来研究的展望。
1金融文本情感分析中的信息来源
金融文本依据其来源主要分为三大类:公司的公开披露、媒体的相关报道和社交网络的公众舆论。公开披露文件的语言风格蕴含管理者对公司目前业绩和未来发展的态度,因而成为财务报表的重要补充。Hagenau等(2013)从DGAP网站上选取了超过50个词的公司披露,内容包括财务报告、对外合作等。Loughran和McDonald(2013)、McKayPrice等(2012)分别对美国S-1表、季度收益电话会议进行情感分析。媒体报道文章包括新闻报道和专业分析报告,可用于市场、行业或公司分析。Smales(2014)利用对道琼斯有线新闻和华尔街日报上新闻文章的情感分析,研究波动性指数。Khadjeh等(2015)仅采用文章标题作为待分析文本。Twedt和Rees(2012)对美国1404家公司的财务分析报告进行文本情感分析。Web2.0时代,社会化媒体成为人们的沟通平台。它也为行为经济学者的研究提供了素材。Bollen等(2011)对推特进行文本分析,得到公众情感测度。Yu等(2013)分别针对谷歌博客以及推特文本信息进行情感分析,并分析了媒体间的相互影响。
2金融文本情感分析中的文本表示
文本表示最常用的方法是空间向量模型(VSM),该模型的核心是特征项的选取、降维和表示。从文本中抽取能够代表其情感倾向的部分,即特征选取。最常用的是词袋模型。依据词性的提取包括名词(Schumaker等,2012)、形容词(Fortuny等,2014)和动词(Li和Huang等,2014)。还有在此基础上形成的n-grams方法(Groth等,2014)。特征项的降维用于保持算法的有效性。比较常用的方法有限定最低词频以及词典或本体的运用。由于前者理解的片面性,词典的运用较为普遍。一般的词典有WordNet和GI等,金融领域的词典包括L&M(2011)和Henry(2008)。将特征项转化为数值的过程称为特征表示。最基本的方法是二进制(Schumaker,2012)。普遍使用的方法有IG、CHI和TF-IDF。目前使用最广泛的是TF-IDF(Hagenau等,2013),它考虑到了文本长度对于词频的影响。
3金融文本情感分析中的模型构建
3.1机器学习算法
机器学习是专门研究计算机如何模拟和实现人类的学习行为。它分为算法设计和分类效果评价两个方面。目前使用最多的算法——支持向量机(SVM)是典型的两类分类器。Khadjeh等(2015)将其应用于STLP预测模型中。在其基础上扩展出的支持向量回归(SVR)模型还能够给出具体输出值。Li和Huang等(2014)分别以新闻情感和股价作为两个子核,进而构成混合核函数加入SVR模型。其他一些常用的算法包括决策树和朴素贝叶斯。Khadjeh等(2015)分别用支持向量机、K近邻和朴素贝叶斯算法进行相同实验并进行了比较。机器学习算法的评价机制,也就是度量模型好坏的标准。常用的标准包括F1和准确率。Fortuny等(2014)还引入AUC值,其越大,表示分类器性能越好。
3.2回归模型
3.2.1线性回归研究文本信息与金融指标时间序列之间关系的最常用方法是线性回归模型。基于不同的研究目的,被解释变量的选取也不尽相同,包括股指变动(Bollen等,2011),IPO首日收益率(L&M,2013)等。Fama和French于1993年提出了三因子模型(FF3)来解释股票回报率,成为金融学资产定价的经典模型。它认为影响股票定价的三个因素分别为市场风险因子、公司规模因子和公司价值(账面市值比)因子。Carhart(1995)在其基础上加入动量因素MOM,扩展成四因素模型,成为Smales(2014)研究中的回归模型。3.2.2向量自回归VAR模型多用于变量间存在自相关或交叉相关的情形。其回归方程为:(1)其中,Zt是所有内生变量组成的行向量,包括(1)式中的金融指标Y和情感维度S,X同样为控制变量。Hautsch(2011)构造6维VAR模型研究新闻情感与股市的关联。3.2.3逻辑回归Logistic或probit回归要求被解释变量是二值变量(取值为0或1),用最大似然函数来估计,常用于检验文本情感是否能够预测或识别特定事件的发生。回归形式为:(2)Loughran和McDonald(2013)分别加入行业和年份虚拟变量进行逻辑回归,检验S-1表不同维度的情感词词频与IPO被撤回几率的关系。Hautsch(2011)建立了probit模型对市场指标是否为0进行估计。
4国外金融文本情感分析的总体评价及未来研究展望
总体来看,国外现有文献将文本信息作为量化信息的补充,在市场预测等方面进行了探究。这些文献在理论上拓宽了金融学的研究视野,对投资者和监管机构也有实践意义。笔者认为未来的相关领域研究,将会从以下几方面进一步加以完善。第一,句法和语义的考虑。现有文献在进行特征提取时过于注重词语频次,忽略了词语间的关联和句子结构。未来的研究亟须融入句法分析,从而更准确地把握文本情感。第二,特定领域词表或本体的构建。目前,金融领域的两个词典L&M和Henry已经得到广泛应用,并被证明比一般的心理学词典分类效果好。因此,计算语言学需要进一步探究如何构建含有多维度情感度量的金融领域词表。第三,研究市场的不断扩展。目前,大部分研究集中于股市,相同的研究方法还可以扩展到债券市场和货币市场。另外,除了发达国家之外,新兴市场也很值得探究。第四,与行为科学的结合。大部分研究表明金融市场是弱式有效的。然而,涉及行为经济的研究止步于基于社交网络的文本情感对股市是有影响的,因此需要更深层次地研究探讨两者的关系。
作者:刘昕玥 单位:广东外语外贸大学