所有文章 > 正文

研究发现:社交帖子“暗示”了你的学习成绩

作者: 学术头条

时间: 2020-10-30 13:29

根据用户的社交媒体帖子,来区分高学历者与低学历者

一直以来,有太多的研究表明,用户的社交媒体行为(他们发出的帖子、评论、点赞,以及个人特征、个性图片和照片)可以被用来分析其生活方式、个人素质、个人特征、甚至其心理健康状况的重要指标。

比如,通过分析用户在 Facebook 上的点赞情况可以推断出他们的宗教信仰、性取向、个人品质和对生活的满意度等,博客文章充分展现了作者的个性,就连图片也是数字心理测验的重要工具。

但是,一直以来却很少有人研究一些更为复杂的特征,比如学生的学术成就和学习成绩。

近日,俄罗斯国家研究大学高等经济学院(HSE University)教育学院计算社会科学实验室首席研究员 Ivan Smirnov 建立了一种计算机模型,并根据用户的社交媒体帖子,来区分高学历者与低学历者。

该预测模型使用数学文本分析方法来记录用户的词汇(它的范围和所取概念的语义域)、字符和符号、帖子长度和单词长度。

在他的研究中,社交媒体帖子中的每个单词都具有不同的“排名”或者“分数”。比如,科学和文化主题、英文单词以及篇幅较长的单词和帖子可作为良好学术表现的评判指标;而丰富的表情符号、使用大写字母书写的单词或短语,以及与星座、驾驶等相关的词汇则代着学生有较差的在校成绩。

图 | 一般文本特征与学习成绩的皮尔逊积矩相关系数(Pearson correlation coefficient)。(统计学中,这一系数用于度量两个变量之间的相关程度,其值介于 -1 与 1 之间,在自然科学领域中则广泛用于度量两个变量之间的线性相关程度。)


相关研究论文以“Estimating educational outcomes from students’ short texts on social media”为题,于今年 9 月在线发表在EPJ Data Science上。

“我们试图根据高中生和大学生在 VK(一个在线社交网络服务v网站)和 Twitter 上发出的帖子来预测他们的学习成绩。学习能力是一种非常复杂的人类特征,它不仅受性格特征的影响,也受心理健康的影响。遗憾的是,与公共领域可以获得的学术成就相比,教育机构内部却没有衡量后者的机制。” Smirnov 说。


准确率可高达93.7%


一直以来,我们有这样的偏见:如果一个学生在社交媒体上发表关于量子、弦理论、牛顿和莎士比亚的文章,至少表明他们有学习的动力,如果你去看这个学生的成绩单,你可能会看到 A 和 B;如果一个学生经常发一些有关星座或车祸的帖子,而且其中有各种各样的拼写错误,那么他很可能不是一个特别优秀的学生。为了避免这种认知偏见出现,最好用一些令人信服的数字来证明这一点。比如,用数学方法计算出哪些单词可以成为表明某个学生“更聪明”的指标。

但是,传统的研究方法(比如调查和访谈)很难确定青少年的各种各样的情况。由于这些研究方法通常包含一些私人问题,青少年很可能会回避或不如实回答。而数字数据却可以更加深入的了解他们,并揭示他们生活中不为人知的一面。

研究数据来自 4400 名参加国际学生能力评估计划(Programme for International Student Assessment)的高中生,其中有 3483 名学生对该研究开放了他们的 VK 帐户。Smirnov 表示,由这些数据得出的结论也适用于大学生和中学生群体。

研究人员使用来自 VK 的 130575 条帖子作为训练样本,用来评估学生的学术能力以及他们将知识应用于实践的能力。在建立和测试模型的过程中,只将学生的阅读成绩用作判别学生学术能力的指标。PISA 成绩分为 6 个等级,2 分为达到基本要求的最低水平,5-6 分为优秀水准。

研究人员在 VK 语料库(总计 19 亿个词,250 万个特殊词)运行词向量表示的无监督机器学习,并与一个更简单的有监督机器学习模型(可以预测 PISA 分数)结合。

“这些帖子被用来训练成一个线性回归模型,来预测帖子作者的 PISA 分数。” Smirnov说。

研究人员将计算预测结果与学生在 PISA 考试中获得的真实分数的相关性。在初始阶段,该模型学习如何预测 PISA 数据,并在最终的模型中与高中毕业生和大学新生的 USE 分数(每个学校的平均分数)进行对比。

结果显示,对于 PISA 得分为 0-1 和 5-6 的学生,该模型的判别准确率达到了 93.7%。最终模型可以有效识别出一篇特定的社交媒体文章是出自于一个好学生还是一个差学生。


模型很适用


这一模型是否同样适用于其他社交媒体网站?如果不是在 VK 上发帖,而是让相同的用户在 twitter 上发推会怎样?

图 | 该模型基于 VK 和 Twitter 数据的整体预测结果相似。


研究结果显示,该模型的准确性并没有出现明显的下降,这就意味着它可以被广泛应用。比如,教育研究者对了解好学校与普通学校的区别很感兴趣,但如果他们查看 USE 分数高的学校的特点,并不能告诉他们太多信息。

“他们最好看一下分数增长最快的学校。理论上,我们的方法可以用来衡量这种增长,然后在学校层面上研究与之相关的因素。由于该模型不依赖于特定的语言、文本来源或目标变量,因此,它可以应用于各种各样的环境中。” Smirnov 说。


参考:
https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-020-00245-8
https://techxplore.com/news/2020-10-artificial-intelligence-students-outcomes-based.html

二维码 扫码微信阅读
推荐阅读 更多