×
语言研究

社交网络中的抑郁症用户语言和行为特征分析及

医疗信息学作为医学和信息科学交叉的一个领域,心理健康与疾病和卫生保健等主题成为该领域的研究热点[1-2]。抑郁症是一种常见的心理疾病。根据世界卫生组织报告,在全球范围内,超过3亿人患有抑郁症[3]。另有调查显示,中国抑郁症患者已达到9 000万[4]。对抑郁症的科普、防范、治疗工作亟待重视,抑郁症防治已被列入全国精神卫生工作重点。虽然传统的线下治疗是诊断抑郁症最有效的方法,但人们对患有抑郁症感到羞愧或不知情。超过70%的抑郁症早期患者不愿咨询心理医生,导致病情恶化[5]。另一方面,人们越来越多地依赖推特、微博等社交媒体平台来表达情绪和观点,并分享自身的状态信息,全球有超过20亿的用户定期使用社交媒体[6]。

社交媒体为转变早期抑郁症干预策略提供了前所未有的机会。通过分析人们在社交网络上的日常语言可以了解一个人的心理特征,其分析结果比基于朋友和家人的判断更准确[7]。社交媒体用户的公开评论、行为和社交互动等信息可以可靠地监测和预测与健康相关的行为,例如预测流感病毒、过敏、癌症等疾病的发生率[8-10]。

本文利用机器学习技术来分析Twitter的数据,研究社交网络中的抑郁症用户语言和行为特征分析及检测。具体内容包括:探寻Twitter用户的语言和行为中与抑郁症有关的因素,如何从Twitter数据中提取这些特征因素,分析这些因素与抑郁症病症之间的关系,然后通过分类实验,分析检测抑郁症最具影响力的机器学习方法以及哪些特征对检测抑郁症贡献最大。挖掘抑郁症人群在社交网络上的行为和语言能帮助研究者了解他们的思维模式。研究成果可进一步应用到各种类型的心理问题,包括社交恐惧、自尊问题以及完美主义的自动诊断和治疗。

本文主要有以下贡献:1)对语言信息进行了细粒度的分析,从语言的结构、语言的词语类别和语言的主题3个维度进行更全面和系统的语言特征挖掘;2)将Empath语言分析包引入抑郁症的检测,提供了更多的语言特征;3)扩大基于社交网络的心理健康度量的范围,研究254个特征与抑郁症之间的关系。

1 相关研究工作概述

1.1 基于问卷调查的抑郁症用户检测

在心理学和流行病学研究中,自我报告调查仅次于临床访谈,因此基于心理测量自我报告进行抑郁症的预测具有较高的有效性和可信度[11]。因此,在早期大多数研究人员通过调查问卷获得患者的心理状态信息,并基于各种抑郁症诊断量表进行精神状态的检测,如Choi等采用抑郁症状量表、自杀亚量表(DSI-SS)、Beck抑郁量表(BDI)对抑郁症患者问卷进行评分和诊断[12]。有些学者通过参与者报告抑郁发作的症状和日期,并结合流行病学研究中心修订的抑郁量表(CES-D)[13]和贝克抑郁量表(BDI)[14]的得分进行抑郁症检测。抑郁自评量表能够直观地反映抑郁患者的精神状态,但量表的填写依赖被测者的主观意愿,当面对大规模群体时,需要花费较大的人力和时间成本。另外,问卷调查方式获得的患者信息有限,使心理医生无法了解抑郁症患者的全部信息。

1.2 基于社交网络数据抑郁症用户检测

社交网络上大量的用户生成内容(UGC)能够及时反映用户的真实状态和情绪,使得用户心理健康分析成为可能。一些学者对社交网络平台(如红迪网和照片墙)上的用户数据进行了研究,发现抑郁患者在语言属性和社交行为方面与正常用户存在较大差异[15-17]。如患有抑郁的学生更频繁地使用第一人称代词,以及带有贬义的形容词[18]。在推特社交平台上,患有抑郁症的用户使用第一人称代词和过去时态动词的也普遍较高[19]。De Choudhury M等验证了产后抑郁症患者在推特平台的语言风格、情感表达和社交行为等方面与产前正常状态相比有明显变化[20]。LiveJournal社交平台上抑郁症用户和正常用户在情绪、写作特征、主题内容等方面存在显著差异[21]。而基于中文微博的抑郁症研究也发现,在语言使用特征方面,抑郁症患者对情感词、消极情绪词、认知机制词、连接词的使用随时间显著增加[22]。

上述研究对各种不同社交平台下抑郁症患者和正常人的语言使用和社交行为特征进行了对比分析,证实了社交网络活动记录与用户的抑郁状态之间存在较强的相关性,这些结论为基于社交网络的抑郁症的检测、诊断及治疗提供了依据。

1.3 基于社交网络抑郁特征的选择和计算

研究者对来自推特、照片墙、红迪网等不同社交网络平台的用户的情感、情绪和写作行为等心理学特征进行抽取,并使用各种机器学习模型进行抑郁症预测。Choudhury M D等提取推特用户的社交活动、情感、语言风格等信息,对用户患抑郁症的风险进行评估,准确率达到70%[23]。Zhang L等使用主题分析模型对新浪微博用户自杀的概率进行线性回归分析[24]。还有基于统计特征的方法,包括词袋模型,频率—逆文档频率(TF-IDF)、N-Gram词频,词性频率,平均发帖数量,帖子的平均字数、发表时间戳等[25-26]。

上一篇:岩土工程论文写作问题探讨
下一篇:没有了

Top