本文选取Bagging思想下最具代表性的随机森林作为预警模型,展现其更为稳健且准确的预测能力。实证表明可基于大数据结合机器学习方法,强化对上市企业财务危机的预判能力。
1绪论
1.3创新点
(1)基于财务观和非财务观的财务危机形成机理
分别从不同视角分析财务危机的形成机理。从非财务视角出发,提出企业的自适应和自学习能力是预测企业财务危机的又一重要因素,并以企业自适应和自学习能力为决定因素将企业划分为四个层级,为企业财务危机的形成机理研究提供了新的思路。
(2)构建基于大数据的财务危机预警指标体系
股吧中活跃的股民,其中包括等待捞一笔的投资者,也包括经验丰富的炒股大神,他们发布的看似情绪化的信息却无形之中反映了企业的运行状态,这体现了大数据信息的研究价值。这些信息属于企业财务领域外的因素,可以对传统预警指标起到补充修正效果。本文利用Python收集文本信息并构建词典库情感比对量化得到大数据指标,在考虑传统预警变量的基础上,丰富了财务危机预警指标体系。
(3)采用机器学习算法改善财务危机预警的效果
机器学习的大热不仅仅是IT行业的繁荣之象,其带动了各个领域踊跃尝试新技术。本文将集成学习中Bagging思想的典型算法——随机森林运用于财务危机预警中来,并在传统随机森林模型的基础下对其进行优化,随机森林与SMOTE算法结合,增加了随机森林对财务危机企业的训练和学习次数,有效地改善了因数据不平衡而导致的正负样本预测精度差异较大的问题,为财务危机预警理论的研究提供了新的思路和技术借鉴。
3财务危机形成机理
3.1财务危机内因
生活中末日灾难片经常出现在荧幕上,伴随着地震、海啸、泥石流和台风,一幢幢高楼大厦瞬间倒塌,灰飞烟灭。然而在一片片废墟中仍然不乏仅仅外表受损却屹立在原地的建筑,究其原因是每栋建筑的抗震强度的级别不同。而抗震能力的强弱则取决于建筑物合适的内部结构设计。正如当外部经济大环境出现剧烈变动时,有些企业一夜间化为泡沫,有些企业则享有百年老字号的声誉,这之间的差异由企业自身内部因素导致。故企业内部条件因素是抵御危机的关键,同样也是将企业置于危机的本源。导致企业发生财务危机的内部因素主要分为以下几个方面:
(1)技术创新风险
创新已经成为引领企业长远发展的主要驱动力(王勇等,2022)。一个稳定积极的长期研发战略是实现公司绩效目标与股东回报的重要途径,是企业保持高绩效和高市值的必要条件(王一鸣和杨梅,2017)。企业大力支持技术创新的目的在于打造新产品以帮助企业获得超额利润。
然而技术创新是一项具有较强探索性的工作,因此存在许多潜在的风险,包括前期技术风险和后期市场风险,故技术创新同时也是一项高风险高收益的行为。技术创新成功的基础是加大研发投入,而加大研发投入的前提条件是企业能获得持续稳定的资金支持即有足够的财务冗余(周开国等,2017)。此外,技术创新作为社会进步和企业发展的重要力量,始终强调创新性和颠覆性,它往往意味着面向未知领域的探索和实验,在这种背景下,进行技术创新投资的决策通常涉及高度的不确定性。这种不确定性的表现主要体现在以下几个方面:首先,技术创新投资数额通常非常大。这些巨大的投资,往往不能被简单的预算和风险评估所覆盖,也给企业和投资者带来了很大的财务压力;其次,技术创新的投资期限通常是未知的。可能需要数年,甚至十年以上的时间才能取得突破。在这样的情境下,投资者必须具备足够的耐心和信心,以及能够承受长期的资金压力;最后,技术创新的成功概率是没有保证的。
5财务危机预警指标的预处理
5.1财务预警指标与大数据指标筛选——随机森林特征选择
当处理大维数的财务数据集时,维数灾难可能会影响算法的性能和执行时间。而特征选择技术的引入可以用来筛选和目标变量最相关以及对模型最重要的特征,过滤冗余和不相关的特征,提高模型的分类或预测精确度,并降低模型的复杂度和训练时间。随机森林的特征选择即是一种有效的算法,它可以识别出复杂相互作用和小边际效应的主相关特征,特别适用于多维数据的降维。通过特征选择技术和Gini重要性分数,可以对财务危机预警指标体系进行分析和挖掘,提供有价值的参考信息。
在随机森林中,Gini重要性分数是一种常用且有效的变量重要性度量,它从随机森林中的决策树的Gini指标中获得,用于度量分配到树的某个节点的样本的纯度水平。例如,解决简单二元分类问题时,若p表示决策树分裂节点k上正样本的比例,1-p表示负样本的比例,则Gini指标可以用以下公式表示:
Gk=2p(1-p)(式5.1)
根据上式,节点的纯度与Gini指标值反向变动。在每个节点分裂时,选择一个特征使得分裂之后的两个子节点的Gini值小于父节点。一个特征的Gini重要性分数定义为在所有树上使用该特征进行分裂的所有节点的Gini值减少量的和。在随机森林中,特征重要性分数可以用于评估每个特征对模型预测能力的贡献。
5.2大数据采集与数据清洗
5.2.1大数据采集
首先,利用数据抓取技术中常用的请求模块Request和解析模块BeautifulSoup模块完成对Web服务器端返回数据的获取以及数据的解析,选择BeautifulSoup解析数据源于其提供的便捷接口可以高效定位到要爬取的内容。本文要爬取的内容是东方财富股吧中的帖子和评论,这些内容属于原创数据,由于版权因素个人进行爬取时通常会被限制。因此在抓取网页数据时,设置了Headers和Cookies来实现模拟登录。同时为了限制爬取信息速度过快而面临服务器过载甚至IP封禁的风险,本文在两次爬取之间添加了延时即Time Sleep设置为5s。最后将爬虫爬取的字段存储到列表中,再利用pandas将列表构建成数据框,以excel格式导出数据。
5.2.2数据清洗
从东方财富股吧爬取的文本信息并不能直接用于情感分析,源于帖子评论数据中含有一些无效数据,如内容为单一标点的评论、表情符号以及存在HTML标签的评论等,直接用于情感分析将影响分析结果的准确性和可靠性。因此,在进行情感分析之前,需要对文本数据进行清洗,以去除无效信息并保留有用的数据。这里要使用Python正则表达式的方法()匹配去除无关文本数据,并将HTML标签替换成空字符串。
7结论与展望
7.2政策性建议
(1)从企业内部视角出发首先,企业需要提高风险防范和危机预警意识。特别对于制造业企业,我国制造业主要依靠外需拉动、投资拉动和规模扩张实现成长,企业管理层应严格审慎自身是否存在过度自信和投资短视行为,有效识别和评估项目存在的潜在风险,将高度警惕的风险管理意识贯穿于企业的各个部门,从而确保企业在面对各种风险和挑战时能够做出适当的决策和应对措施。
其次,企业需要完善自身以提高抵御风险的能力。经济新常态下,依靠智能制造实现转型升级是我国能否成为制造强国的主要挑战。想要擦亮“中国制造”这个名片,优先要解决“大而不强”的困境。因此,强化企业核心竞争力,及时应对市场的需求变动,加速优势资源整合,制定稳健发展的战略,才能支撑起我国经济迈向高质量发展。
最后,加强财务风险管理,建立有效的风险管理预警机制。除了关注普遍性的财务信息变量外,企业还应该持续有效地关注影响财务危机的关键非财务信息,并积极利用文本信息,保持高度预警意识,及时预警异常行为。通过综合分析财务和非财务指标,及时发出预警信号并诊断危机源头,为企业管理层科学决策提供依据。为实现这一目标,企业需要建立科学完善的财务危机预警模型,引入前沿的机器学习监测手段,并在技术层面完善审慎监管机制,帮助企业尽早发现潜在风险,防范风险的发生。
参考文献(略)
(本文摘自网络)
友情链接: |
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有 如有不愿意被转载的情况,请通知我们删除已转载的信息。 联系方式:电子邮件:1053406363@qq.com 豫ICP备2023024751号-1 |