(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112200197 A(43)申请公布日 2021.01.08
(21)申请号 202011249729.4(22)申请日 2020.11.10
(71)申请人 天津大学
地址 300350 天津市津南区海河教育园雅
观路135号天津大学北洋园校区(72)发明人 于永新 杜亮 张晴
(74)专利代理机构 天津市北洋有限责任专利代
理事务所 12201
代理人 杜文茹(51)Int.Cl.
G06K 9/34(2006.01)G06K 9/62(2006.01)G06F 40/30(2020.01)G06F 40/284(2020.01)G06N 3/04(2006.01)
权利要求书1页 说明书4页 附图1页
G06N 3/08(2006.01)
CN 112200197 A(54)发明名称
一种基于深度学习和多模态的谣言检测方法
(57)摘要
一种基于深度学习和多模态的谣言检测方法:对微博原始数据进行预处理;将预处理得到的数据输入到ALBERT预训练模型中进行词训练,生成词向量;将词向量输入到双向长短期记忆网络模型中,得到微博文本的上下文语义特征向量;将词向量输入到卷积神经网络模型中,得到微博文本的局部语义特征向量;将微博文本的上下文语义特征向量与局部语义特征向量进行特征拼接,得到微博文本的深层语义特征向量;提取基于微博社交平台特点的基本特征,进行归一化得到微博的基本特征向量;将微博文本的深层语义特征向量和微博的基本特征向量进行拼接得到的特征向量输入到softmax中,得到分类结果。本发明可以实现社交网络平台中谣言的精确检测。
CN 112200197 A
权 利 要 求 书
1/1页
1.一种基于深度学习和多模态的谣言检测方法,其特征在于,包括如下步骤:1)对微博原始数据进行预处理;
2)将预处理得到的数据输入到ALBERT预训练模型中进行词训练,生成词向量;3)将词向量输入到双向长短期记忆网络模型中,得到微博文本的上下文语义特征向量;
4)将词向量输入到卷积神经网络模型中,得到微博文本的局部语义特征向量;5)将微博文本的上下文语义特征向量与局部语义特征向量进行特征拼接,得到微博文本的深层语义特征向量;
6)提取基于微博社交平台特点的基本特征:用户特征、传播特征和图片特征,其中,用户特征包括关注数、粉丝数、互关数、注册天数、是否认证、被@次数;传播特征包括转发数、评论数、是否原创;图片特征通过VGG16网络模型进行提取;对提取出的用户特征、传播特征和图片特征进行归一化,得到微博的基本特征向量;
7)将微博文本的深层语义特征向量和微博的基本特征向量通过Keras框架中的Concatenta()函数进行拼接,将拼接得到的特征向量输入到softmax中,得到分类结果。
2.根据权利要求1所述的一种基于深度学习和多模态的谣言检测方法,其特征在于,步骤1)所述的预处理包括数据清洗、分词、去停用词。
3.根据权利要求1所述的一种基于深度学习和多模态的谣言检测方法,其特征在于,步骤3)所述的双向长短期记忆网络模型,是通过在Keras框架中采用Python语言构建的双向长短时记忆网络模型,所述模型的隐藏层大小设为256,优化函数设为Adam,batch_size设为32,dropout设为0.5,学习率设为0.01。
4.根据权利要求1所述的一种基于深度学习和多模态的谣言检测方法,其特征在于,步骤4)所述的卷积神经网络模型,是通过Keras框架采用Python语言构建卷积神经网络模型,模型结构分为两层,第一层是卷积层,卷积层中卷积核的长度设为词向量的长度,卷积核的宽度有三种,分别为2、3、4,每种个数设为128个,卷积层的padding设为same,卷积层的激活函数采用ReLU,通过卷积层进行卷积操作后得到微博文本的特征图;第二层是池化层,连接在卷积层之后,操作过程是将卷积层输出的特征图输入到池化层中进行特征采样,池化策略采用的是MaxPooling,经过池化操作后最后输出微博文本的局部语义特征向量。
5.根据权利要求1所述的一种基于深度学习和多模态的谣言检测方法,其特征在于,步骤5)是通过Keras框架中的Concatenta()函数将微博文本的上下文语义特征向量和微博文本的局部语义特征向量进行拼接,最终得到微博文本的深层语义特征向量。
2
CN 112200197 A
说 明 书
一种基于深度学习和多模态的谣言检测方法
1/4页
技术领域
[0001]本发明涉及一种谣言检测方法。特别是涉及一种基于深度学习和多模态的谣言检测方法。
背景技术
[0002]随着互联网技术的飞速发展和终端设备的兴起,微博这类在线社交平台的用户量不断增加,每个人都可以在微博上查阅新闻或自由的发表言论,而这种自由引发了许多不正确信息的传播。目前,微博已经成为谣言扩散的一个平台,它的便利性很容易导致谣言信息的爆发式传播,从而引起社会恐慌,扰乱社会秩序,也会影响我们对事件的正确认知。所以为了保证用户获得正确可靠的信息,对微博这类社交媒体中的谣言进行检测成为一项重要的任务。
[0003]目前谣言检测模型主要可以基于两种方法,一种是基于机器学习的技术,比如通过朴素贝叶斯、支持向量机、决策树等方法来识别谣言,这种传统的机器学习方法需要人工的提取特征,所以容易受到人为主观性的影响,而且费时费力,也难以挖掘谣言文本的深层语义特征。另一种是基于深度学习的技术,它具有很强的特征学习能力,可以通过构建多层神经网络来学习潜在特征,在自然语言处理领域取得了优良的表现。其中主流的神经网络模型都是基于CNN和RNN进行的构建,CNN具有关注局部信息的特点,能更有效的提取文本的局部信息。而RNN在隐含层中加入了自连和互连的机制,能够更好的读取上下文信息,并进行记忆,所以能更有效的提取文本的上下文信息。但RNN模型存在梯度消失或梯度爆炸的缺点,所以提出了长短时记忆网络模型LSTM。
[0004]传统的谣言检测模型普遍采用的机器学习的技术,主要提取谣言信息中的文本特征、用户特征和传播特征,然后基于机器学习的分类算法来构建分类器进行谣言的识别。近年来,神经网络和深度学习的相关研究飞速发展,相应的谣言检测技术也应运而生,它们通过神经网络模型来挖掘谣言信息中的深层次语义,与传统的机器学习方法相比,显著提升了谣言识别精度。但随着互联网的发展,带图片的新闻数量占比越来越大,如果不作考虑,则会遗漏其他模态的重要信息,识别精度也难以达到预期。发明内容
[0005]本发明所要解决的技术问题是,提供一种可以实现社交网络平台中谣言的精确检测的基于深度学习和多模态的谣言检测方法。[0006]本发明所采用的技术方案是:一种基于深度学习和多模态的谣言检测方法,包括如下步骤:
[0007]1)对微博原始数据进行预处理;
[0008]2)将预处理得到的数据输入到ALBERT预训练模型中进行词训练,生成词向量;[0009]3)将词向量输入到双向长短期记忆网络模型中,得到微博文本的上下文语义特征向量;
3
CN 112200197 A[0010]
说 明 书
2/4页
4)将词向量输入到卷积神经网络模型中,得到微博文本的局部语义特征向量;
[0011]5)将微博文本的上下文语义特征向量与局部语义特征向量进行特征拼接,得到微博文本的深层语义特征向量;
[0012]6)提取基于微博社交平台特点的基本特征:用户特征、传播特征和图片特征,其中,用户特征包括关注数、粉丝数、互关数、注册天数、是否认证、被@次数;传播特征包括转发数、评论数、是否原创;图片特征通过VGG16网络模型进行提取;对提取出的用户特征、传播特征和图片特征进行归一化,得到微博的基本特征向量;
[0013]7)将微博文本的深层语义特征向量和微博的基本特征向量通过Keras框架中的Concatenta()函数进行拼接,将拼接得到的特征向量输入到softmax中,得到分类结果。本发明的一种基于深度学习和多模态的谣言检测方法,可以实现社交网络平台中谣言的精确检测。本发明的优点在于:[0014]1、本方法采用ALBERT模型进行预训练,与传统的word2vec模型相比,可以更好的提取词的文本语义特征,解决了同义词、一词多义的问题,使模型整体上的性能更好。[0015]2、本方法分别使用Bi-LSTM和CNN提取新闻文本的上下文语义特征和局部语义特征,获取的特征更加全面,可以更准确的进行谣言文本的识别。[0016]3、本方法融合了微博中的用户特征和传播特征,同时考虑到了当今新闻所带图片的频率越来越多的问题,另外提取了微博中的图片特征,最终由它们得到组合特征,并加入到了检测模型中。充分考虑到了各模态的特征,可以更精确的进行谣言的检测。附图说明
[0017]图1是本发明一种基于深度学习和多模态的谣言检测方法的流程图;[0018]图2是本发明的卷积神经网络模型结构图。
具体实施方式
[0019]下面结合实施例和附图对本发明的一种基于深度学习和多模态的谣言检测方法做出详细说明。
[0020]如图1所示,本发明的一种基于深度学习和多模态的谣言检测方法,包括如下步骤:
[0021]1)对微博原始数据进行预处理,所述的预处理包括数据清洗、分词、去停用词;[0022]所述的清洗是利用Python的正则表达式进行数据清洗:首先导入Python的re库,然后利用re库中的sub方法去除掉微博文本中的特殊符号、表情和“@”提及的用户。[0023]所述的分词是导入Python中文分词组件jieba来对微博文本进行分词操作。[0024]所述的去停用词是指去掉没有实际意义的词,去除方法是:首先导入中文停用词列表文件,然后在微博文本中遍历查找出现在停用词列表的词,并进行删除。[0025]2)将预处理得到的数据输入到ALBERT预训练模型中进行词训练,生成词向量;[0026]采用的是双向Transformer编码器来获取微博文本的特征表示,通过对输入的微博文本数据进行序列化,经过多层双向Transformer编码器的训练后,得到微博文本的词向量。
[0027]3)将词向量输入到双向长短期记忆网络模型(Bi-LSTM)中,得到微博文本的上下
4
CN 112200197 A
说 明 书
3/4页
文语义特征向量;
[0028]所述的双向长短期记忆网络模型,是通过在Keras框架中采用Python语言构建的双向长短时记忆网络模型,所述模型的隐藏层大小设为256,优化函数设为Adam,batch_size设为32,dropout设为0.5,学习率设为0.01。
[0029]双向长短期记忆网络模型(Bi-LSTM)通过增加从后往前传递信息的隐藏层,能充分利用上下文信息。本发明利用Bi-LSTM神经网络的特点,同时处理正向和反向的微博文本序列,最后得到微博文本的上下文语义特征向量。Bi-LSTM的模型结构通过正向LSTM和反向LSTM构成双向的LSTM模型,计算公式如下:
[0030][0031][0032]
其中,和分别表示t时刻正向LSTM的细胞状态和隐含条件,和分别表示t
时刻反向LSTM的细胞状态和隐含条件,它们都通过上一时刻的细胞状态和隐含状态来计算获得。xt表示t时刻输入的词向量。将两个方向上最后一个LSTM单元的隐含层输出进行连接,最终得到包含微博文本丰富的上下文信息的特征表示向量h:
[0033][0034]
其中,和分别表示反向和正向连接中最后一个LSTM单元隐含层的输出,表
示向量的连接操作。
[0035]4)将词向量输入到卷积神经网络模型(CNN)中,得到微博文本的局部语义特征向量;
[0036]如图2所示,本发明所述的卷积神经网络模型,是通过Keras框架采用Python语言构建卷积神经网络模型,模型结构分为两层,第一层是卷积层,卷积层中卷积核的长度设为词向量的长度,卷积核的宽度有三种,分别为2、3、4,每种个数设为128个,卷积层的padding设为same,卷积层的激活函数采用ReLU,通过卷积层进行卷积操作后得到微博文本的特征图;第二层是池化层,连接在卷积层之后,操作过程是将卷积层输出的特征图输入到池化层中进行特征采样,池化策略采用的是MaxPooling,经过池化操作后最后输出微博文本的局部语义特征向量。
[0037]4.1)CNN模型的卷积层中含有长度为2,3,4这三种不同长度的卷积核,卷积核的宽度等于词向量的长度,卷积核从上至下在输入矩阵中滑动,并将卷积核窗口和词向量窗口进行卷积计算,由此得到微博文本的局部特征值:[0038]ci=f(wcXi:i+h-1+bc),wc∈Rh×d[0039]其中,h指卷积核的长度,Xi:i+h-1表示从第i个词向量的位置开始往后的h个词向量所组成的矩阵,ci表示卷积核在i位置计算出的卷积特征值,f表示非线性激活函数,wc表示卷积核,bc表示偏置项。最终得到的特征图为:[0040]c=[c1,c2,…,cn-h+1]∈Rn-h+1
[0041]4.2)池化层的作用是对卷积层得到的特征图进行特征采样,然后将池化层计算出的特征值进行拼接,为了提取出序列里最显著的特征,本发明采用的池化策略是最大值池
5
CN 112200197 A
说 明 书
4/4页
化:
v=max{c}
[0043]最终得到微博文本的局部语义特征向量v。
[0044]5)将微博文本的上下文语义特征向量与局部语义特征向量进行特征拼接,得到微博文本的深层语义特征向量;是通过Keras框架中的Concatenta()函数将微博文本的上下文语义特征向量和微博文本的局部语义特征向量进行拼接,最终得到微博文本的深层语义特征向量。
[0045]6)提取基于微博社交平台特点的基本特征:用户特征、传播特征和图片特征,其中,用户特征包括关注数、粉丝数、互关数、注册天数、是否认证、被@次数;传播特征包括转发数、评论数、是否原创;图片特征通过VGG16网络模型进行提取;对提取出的用户特征、传播特征和图片特征进行归一化,得到微博的基本特征向量;
[0046]6.1)本发明针对用户模态和传播模态的特征选取如表1所示,将所提取的特征数据通过归一化映射到[0,1]范围,得到特征向量。
[0047]6.2)本发明通过VGG16网络模型来对微博所附带的图片进行处理,提取图片的深层特征。此处基于迁移学习的思想,通过预先训练好的VGG16网络模型来进行迁移学习,减少大量的训练耗时,而且还能取得很好的训练效果。最后将提取出的图片特征向量与用户特征和传播特征的特征向量拼接成基本特征向量。
[0048]7)将微博文本的深层语义特征向量和微博的基本特征向量通过Keras框架中的Concatenta()函数进行拼接,将拼接得到的特征向量输入到softmax中,得到分类结果。[0049]表1
[0042]
[0050]
6
CN 112200197 A
说 明 书 附 图
1/1页
图1
图2
7