使用R语言分析告示牌百强单曲榜上的歌曲特征

电子说

1.2w人已加入

描述

编者按:数据科学家Rosebud Anwuri使用R语言分析了告示牌百强单曲榜上的歌曲特征,以揭示过去60年来流行音乐的演变。

你从“年长者”那里最常听到的关于现代流行乐的看法是什么?一般来说是这个:“你们的音乐太吵了,缺乏内容。”他们喜欢谈论“古早”年代,有意义的歌曲,有灵魂的歌手,催人泪下的低音吉他。

这两者差别很大。然而,需要进行一些数据分析才能得出一般结论。作为千禧一代和数据科学家,我对此很感兴趣。“伟大”的音乐的标准真改变了那么多?是声音、歌词还是“消息”改变了?如果它们改变了,它们具体是如何改变的?

我将使用告示牌百强单曲榜(Billboard's Hot 100)和Spotify的API作为数据来源,仔细查看流行音乐在过去六十年来的变化,并找出现在的流行音乐和以前的不同之处。

我的方法

在本文中,我所说的“伟大音乐”指进入告示牌百强单曲榜的音乐。我在GitHub上找到了相应的数据集kevinschaich/billboard-top-100-lyrics。这一数据集中包含许多有趣的特征,例如情感(Sentiment)、迷雾指数(估计在第一遍阅读时理解文本所需的正式教育年限)、单词数、重复单词/词组数。 此外,Spotify的API提供了一个有趣的接口getaudiofeatures,其中提供了很多音乐特征,例如响度、乐器性(使用乐器的程度)、活力、现场性(现场是否有观众)、语音性、时长等。加上这些,我收集的1950年到2015年的告示牌百强单曲,总共有30项特征。

这些特征的描述可以在GitHub仓库的README文件和Spotify的API文档中查到,我也会在后文解释其中的部分特征。

我最初决定在这个项目中使用Python,某种程度上说,我确实用了Python。在我数据收集的第一次迭代的时候,我使用了Python的pandas和spotipy这两个库。

然而,随着项目的进行,我重新审视了我所用的方法,找到了一个更有趣的数据集。为此,我转而使用R来完成这一项目,主要是因为R提供的tidyr::gather()函数(用pandas合并数据真是让我心烦意乱)。

我用R和Python写的代码,以及我最终整理的数据集,均可通过GitHub访问:RosebudAnwuri/TheArtandScienceofData/The Making of Great Music 和我的其他项目相比,我在收集数据方面花的时间很少,这是因为,和我的其他项目不同,有人花时间准备了可以直接使用的数据集。我之所以分享整理的数据集,同样也是希望能为其他人提供方便。

让我们开始吧!

1. 六十年来的主要变化

通过聚类算法,我们可以根据歌曲的特征找到音乐家及其作品的相似性/聚类。

我们找到了两个艺术家聚类——弦乐爱好者(The String Lovers)和诗论家(The Poetics)。这两个名称的由来是影响聚类的最重要因素:乐器性(Instrumentalness)和语音性(Speechiness)。

弦乐爱好者的乐器性数值高,而语音性数值低。这意味着,这一阶段的艺术家相比语言,更倾向于乐器。

诗论家正好与此相反。

聚类算法

大部分弦乐爱好者出现在上世纪90年代前的百强榜上。

大部分诗论家出现在上世纪90年代后的百强榜上。

聚类算法

上世纪90年代看起来是一个关键时期。如我们所见,弦乐爱好者和诗论家这两个聚类在上世纪90年代几乎平分秋色。

2. 乐器使用下降主要是因为摇滚乐队不再流行

在上世纪60年代后期到21世纪早期,乐队极为流行,数量和单独的艺术家一样多。

在21世纪之前,对每一年而言,乐队数量越多,当年的平均乐器性的数值就越高。

聚类算法

然而,在21世纪以来,乐队数对乐器的使用基本上毫无影响。

聚类算法

除了两个离散值,从上图我们可以看到,乐队数和乐器使用没什么关系。这很有趣,因为正如我之前提到过的,在21世纪早期,乐队仍然很流行。

所以,发生了什么?

我相信你已经猜到了。乐队的类型变化了。

聚类算法

在上世纪90年代之前,大约60%的乐队是摇滚乐队——典型的摇滚乐队由一名主唱和一组乐器手组成。

然而,21世纪以来,摇滚乐队的百分比显著下降了,为流行乐队(Pop bands)腾出了空间,流行乐队通常完全由歌手组成,例如天命真女(Destiny's Child)、小野猫(Pussycat Dolls)、五美(Fifth Harmony)、单向(One Direction)。

3. 诗论家聚群的兴盛也许部分归因于嘻哈的兴起

除了语音值的提升(用词的增加),诗论家聚群使用复合词的几率是弦乐爱好者聚群的两倍以上(例如,Jay-Z喜欢用opulence而不是wealth),用词的音节数也更多。这让我们马上联想到了一种音乐流派:嘻哈(Hip-Hop)。

聚类算法

我们看到,嘻哈在上图的四项统计中均排第一,难怪嘻哈在上世纪90年代成为主流流行乐——和诗论家聚群的兴盛相呼应。

聚类算法

4. 尽管音乐风格大变,过去六十年流行歌曲的主题始终是爱情

我使用主题建模算法得出了这一结论。顾名思义,该算法搜索给定文本的主题。

在我们的例子中,文本为告示牌百强单曲的歌词。

让我们看看主题是如何随着年代而改变的:

聚类算法

乍看起来,主题和风格一样,都在上世纪90年代发生了交替。然而,让我们看看这两个主题(Topic 1和Topic 2)的具体内容:

聚类算法

我们看到,这两个主题其实大同小异。过去60年的百强单曲,大部分都是“Yeah, I love my baby”(耶!我爱我的宝贝!)

主要的差别在于,上世纪90年代之前的歌曲可能更“直接”一点,正如你在上图中看到的“gonna”(将要)。而上世纪90年代之后的歌曲看起来要间接一点,用“wanna”(想要)取代了“gonna”(将要)。

比较“安静”的流派在诗论家时代绝迹了

这多多少少确认了我们比以前更偏爱大声的音乐。

聚类算法

各个流派的平均响度

五个最安静的流派是——爵士(Jazz)、摇摆乐(Swing)、民谣(Folk)、蓝调(Blues)、迪斯科(Disco)。

在诗论家时代,这些流派在百强榜上绝迹了,除了爵士乐还靠Norah Jones勉强存活。

聚类算法

这些意味着什么?

总结一下:

上世纪90年代是流行音乐极其重要的时期。

今日流行乐的形态,与摇滚乐队的衰弱和嘻哈的兴起有很大关系。

过去六十年来,爱情是流行乐永恒的主题,不过不同时期的音乐对这一主题的演绎有一些微妙的不同。

是的,现代艺术家可能更大声,但这是因为我们有话要说 :)

奖励 迈克尔·杰克逊,尽管主要活跃于上世纪80年代,属于诗论家聚群!他领先了时代!

结语

为了更好地演示这个项目的数据,我基于chart.js创建了一个面板

http://bit.ly/music-dashboard

目前我还没有做好移动端适配,所以推荐在电脑上使用。

现在这个面板有两个标签页,第一个艺术家标签页(Artist Dashboard)可以让你查看艺术家的歌曲特征的平均值。

聚类算法

第二个对比标签页(Comparison Dashboard)可以让你比较2-3位艺术家的歌曲特征。

我所说的诗论家时代正是当前的时代,因此如果我们有2016年到2018年的数据(特别是陷阱音乐的兴起),上面的有些见解可能会改变。不过,我认为大体上不会有太大的变动。

评测歌曲的“政治觉悟”(politically-aware)会很有意思。我可能会在Twitter上(@RosebudAnwuri)发布这一结果。

我在创建这个项目的时候获得了很多乐趣,我希望你阅读的时候也获得了同样的乐趣。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分