文化建模中机器学习方法在的性能评价

李晓晨; 毛文吉; 曾大军; 苏鹏; 王飞跃

摘要: 1．本文的创新点
文化建模是社会计算领域的一个新兴研究方向。文化建模致力于利用各种计算技术来研究文化冲突和变迁，分析不同文化背景下组织的决策过程，探寻其行为所依赖的文化因素，同时预测各组织可能的行为。文化建模中的核心研究问题是如何有效预测组织行为，机器学习方法特别是分类算法在这方面起着重要作用。本文探讨了文化数据集的特点，并基于典型的文化数据集，首次分析比较了不同机器学习算法在文化建模领域中的性能，提出文化建模算法应以召回率作为主要评价指标，并探讨了文化建模领域的未来主要研究方向。
2．实现方法
本文选用标准文化数据集MAROB进行测试，MAROB包含中东地区多个恐怖组织的历史行为数据，同时记录了与恐怖组织相关的社会文化因素。为对恐怖组织的各种暴力袭击行为进行预测，我们选取了七种代表性分类算法，包括朴素贝叶斯、神经网络、K近邻、决策树、关联分类算法、SVM和随机森林算法，并采用准确率，召回率，ROC曲线面积作为性能评价指标，进行行为预测并分析评估了各分类算法的实验结果。
3．结论及未来待解决的问题
结论：
1.实验结果显示朴素贝叶斯算法在各项指标上都表现最好，此外所有算法的准确率都不错，但召回率却很低，很难满足实际预测的需求，这很可能是由于文化数据集的类不均衡问题(class imbalance problem) 引起的。
2.随机森林算法比决策树算法(C4.5)性能更好，这说明了集成分类器比单一分类器性能优越。此外，关联分类算法在召回率和ROC曲线面积方面比C4.5算法性能好。
3.已在文化建模相关工作中得到运用的K近邻算法，在召回率方面表现最差，这可能是受文化数据集特点的影响。
未来待解决的问题：为分析文化因素与行为的关系，文化建模领域的行为模型必须具备较好的可解释性。此外，如何选择合适的文化数据集属性也是一个重要的研究问题。针对实验结果，下一步我们将对文化数据集的类不均衡问题进行处理，同时考虑利用领域知识来辅助预测，提高算法的性能。
4．实用价值或应用前景
本工作分析了文化建模领域中多种机器学习算法的性能以供未来研究者进行比较和参考。同时指出了在文化建模算法设计中应注意的问题，这将有助于新算法的开发和研究。文中对该领域的现状及发展进行了系统的分析，也将为未来的文化建模研究提供坚实的理论基础。

Abstract: Cultural modeling (CM) is an emergent and promising research area in social computing. It aims to develop behavioral models of human groups and analyze the impact of culture factors on human group behavior using computational methods. Machine learning methods, in particular classification, play a critical role in such applications. Since various cultural-related data sets possess different characteristics, it is important to gain a computational understanding of performance characteristics of various machine learning methods. In this paper, we investigate the performance of seven representative classification algorithms using a benchmark cultural modeling data set and analyze the experimental results as to group behavior forecasting.

文化建模中机器学习方法在的性能评价

Performance Evaluation of Machine Learning Methods in Cultural Modeling