微博情感分类实验

本文由用户“chiyuqi163ok”分享发布 更新时间:2022-02-10 14:24:43 举报文档

以下为《微博情感分类实验》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

微博情感分类实验

实验目的:贝叶斯分类方法对微博语句进行情感倾向分类:正面情感和负面情感

实验数据:…\实验数据集\sentiv\微博情感分析评测数据集\原始未标注数据\fei_jun_e_yi_zhuang_ji.xml

实验方法:贝叶斯分类方法。设有属性变量,它们即可以是离散的也可以是连续的变量, 是类变量, 是实例集。每个数据样本用一个维特征向量表示,分别描述对个属性的度量值。

由贝叶斯公式可知数据属于类的概率为:



通过训练集获取,的估计值,对给定的属性值,使最大的值便是所属的分类,即



程序流程图如下:

/

本实验将微博文本文件的没条语句处理为四维属性的数据加一维分类标志,利用贝叶斯分类方法,得到测试分类与分类标志比较,得到结果矩阵,分析分类的精度和召回率。

实验过程:

分词:利用中科院NLPR分词系统(java版),得到分词后的文档test_result.txt。如图1。

/

图1 分词后文档

数据预处理:利用matlab程序(toWordcell.m和readIn.m)将文本数据处理为cell型文件。每行存放一条语句,每单元存放一个词语,忽略标点符号。(结果为fei_jun_jianwordcell.mat,1509X140,如图2)

/

图2 数据存储结果

标注训练集和测试集:利用matlab程序markCell,每次读入一条语句,人工判别分类,标注在每行最后一个单元。共标注了200条,1表示属于负面情绪,2表示正面情绪。标注的原则是语句表达的意义的积极性与否。忽略主题无关或无意义的语句。(结构为afmarked.mat,200X140,如图3)

/

图3 数据标注结果

统计语句各类情感词数(将各语句数值化):正负面情感词语判别标准采用相应的情感词语分类表(负面情感词语(中文).txt,负面评价词语(中文).txt,正面情感词语(中文).txt,正面评价词语(中文).txt)。先利用markCell.m将分类表处理为cell型数据(wordN&P结构中的NP.mat、NQ.mat、PP.mat和PQ.mat)。利用getDatamatrix.m通过查询词语分类表得到每条语句中正负面词语出现的词数。(结果为datamatrix.mat,200X5,前4列为对应词语出现的次数,作为数据的四个属性值,第5列为分类标志,如图4)

/

图4 数值化结果

贝叶斯分类:(程序test5.m)取前100条数据作为训练数据,后100条数据作为测试数据。由bayesResult.m获取对100条测试数据分类结果矩阵,及分类精度和召回率,如图5。

/

图5 贝叶斯分类结果

实验结果:(test5.m)

测试值

标注值

正面情感

负面情感



正面情感

64

6



负面情感

28

2



精度

召回率

结果分析:分类准确率不理想。

分析主要有以下原因:1.标注的主观性太强,判断分类的标准不严格。2.数据本身缺陷,数据数量虽可观,但语句太短,可用信息少,统计的分类方法效果不好。3.方法本身的缺陷,本方法仅考虑了每条语句情感词和评价词的个数,不涉及对情感有影响的否定及程度副词“不”,“很”等,而且没有考虑评价对象和语气有关的标点。4.程序的缺陷,由于时间和能力限制,程序没有优化,文本数据数值化的处理过程过长。

程序说明:

function [tempcell]=readIn(sentence,topic)

输入为分词后的一条语句和话题,输出为存储此句的c 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 例,(2,2)表示将反例分为反例。

function [resultmat,precision,recall]=test5()

利用上述得到的datamatrix.mat,以前100条数据作为训练集,后100条数据作为测试集,得到结果矩阵和精度、召回率。结果矩阵(1,1)表示将正例分为正例的次数,(1,2)表示将正例分为反例的次数,(2,1)表示将反例分为正例的次数,(2,2)表示将反例分为反例的次数。

function [resultmat,precision,recall]=mymain(file,topic,num)

输入分词后的文本文件,话题,标注数目,输出为结果矩阵和精度、召回率。

[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《微博情感分类实验》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览