from here

绝大部分新闻系统都采取户反馈的方式发现标题党,文章首次使用了一种 comprehensive 的方法尝试去归纳出标题党的语言学上的特征,并使用模型进行预测。文章通过统计分析总结了 14 个语言学上的特征,使用了决策树、随机森林、SVM 这三种分类器,各种模型的预测准确率均在 90% 左右,其中 SVM 表现最佳(准确率 0.95,召回率 0.9),好于基于规则的算法(召回率 0.72,准确率 0.78 )[Facebook 2006]。

句子结构

  • 长度:非标题党文章的标题要比标题党的文章更短,标题党的平均长度为 10,而正常文章的平均标题长度为 7。
  • 平均单词长度:标题党的平均单词长度更短(4.5),而正常文章的标题长度为 6。标题党之所以平均长度短,原因是大量使用缩写(you’ll, we’d),22%的标题党标题使用了缩写,正常文章的这个比例是 0.6%。
  • 句法依赖:标题党和普通文章相比,单词之间的句法依赖度更长,原因是标题党的短语更为复杂。文章中的例子是 “A 22-Year-Old Whose Husband And Baby Were Killed By A Drunk Driver Has Posted A Gut-Wrenching Face- book Plea” 其中 22-Year-Old 和动词 Posted 之间隔了一个很长的形容词,句法依赖高达 12。

用词

  • 停用词:标题党标题中的停用词更高(45%),正常文章一般只有 18%。
  • 夸张用词:通过情感分析发现,标题党会使用大量非常正能量的词语(例如 Awe-inspiring),正常的文章的标题中几乎没有。
  • 网络用语、语气词:这些在标题党的题目中经常出现。
  • 主题词:一个有趣的发现是在标题党中,很多热门的主题会在不同的标题中反复出现,62% 的标题党中会出现排名前 40 的热门词,而只有 16% 的非标题党会出现排名前 40 的热门词。
  • 限制性定语:标题党的文章喜欢用 their、my、which、these 来指代文章中的具体人物,限制性定语出现的比例与普通文章相比高很多(原因是会让读者更加好奇)。
  • 所有格:标题党的文章通常使用第一、第二人称来称呼读者(I We You),而普通文章使用第三人称更多。

N-gram

  • 标题党和非标题党文章中最常出现的 3-grams 或 4-grams 没有交集。
  • 65%的标题党的标题中出现了高频次(top 0.05 % 的 n-gram),而非标题党文章只有 19%。

词性

  • 非标题党会大量使用名词,标题党会使用更多的形容词、限定词和物主代词。
  • 两者使用动词的方式也不太一样,非标题党用第三人称和过去完成时较多,标题党更偏向使用过去时和非第三人称。

数据集

  • 非标题党的文章摘自 wikinews(18000篇)
  • 标题党通过人工标注得到(7500篇)