电子说
编者按:数据科学家Rosebud Anwuri使用R语言分析了告示牌百强单曲榜上的歌曲特征,以揭示过去60年来流行音乐的演变。
你从“年长者”那里最常听到的关于现代流行乐的看法是什么?一般来说是这个:“你们的音乐太吵了,缺乏内容。”他们喜欢谈论“古早”年代,有意义的歌曲,有灵魂的歌手,催人泪下的低音吉他。
这两者差别很大。然而,需要进行一些数据分析才能得出一般结论。作为千禧一代和数据科学家,我对此很感兴趣。“伟大”的音乐的标准真改变了那么多?是声音、歌词还是“消息”改变了?如果它们改变了,它们具体是如何改变的?
我将使用告示牌百强单曲榜(Billboard's Hot 100)和Spotify的API作为数据来源,仔细查看流行音乐在过去六十年来的变化,并找出现在的流行音乐和以前的不同之处。
我的方法
在本文中,我所说的“伟大音乐”指进入告示牌百强单曲榜的音乐。我在GitHub上找到了相应的数据集kevinschaich/billboard-top-100-lyrics。这一数据集中包含许多有趣的特征,例如情感(Sentiment)、迷雾指数(估计在第一遍阅读时理解文本所需的正式教育年限)、单词数、重复单词/词组数。 此外,Spotify的API提供了一个有趣的接口getaudiofeatures,其中提供了很多音乐特征,例如响度、乐器性(使用乐器的程度)、活力、现场性(现场是否有观众)、语音性、时长等。加上这些,我收集的1950年到2015年的告示牌百强单曲,总共有30项特征。
这些特征的描述可以在GitHub仓库的README文件和Spotify的API文档中查到,我也会在后文解释其中的部分特征。
我最初决定在这个项目中使用Python,某种程度上说,我确实用了Python。在我数据收集的第一次迭代的时候,我使用了Python的pandas和spotipy这两个库。
然而,随着项目的进行,我重新审视了我所用的方法,找到了一个更有趣的数据集。为此,我转而使用R来完成这一项目,主要是因为R提供的tidyr::gather()函数(用pandas合并数据真是让我心烦意乱)。
我用R和Python写的代码,以及我最终整理的数据集,均可通过GitHub访问:RosebudAnwuri/TheArtandScienceofData/The Making of Great Music 和我的其他项目相比,我在收集数据方面花的时间很少,这是因为,和我的其他项目不同,有人花时间准备了可以直接使用的数据集。我之所以分享整理的数据集,同样也是希望能为其他人提供方便。
让我们开始吧!
1. 六十年来的主要变化
通过聚类算法,我们可以根据歌曲的特征找到音乐家及其作品的相似性/聚类。
我们找到了两个艺术家聚类——弦乐爱好者(The String Lovers)和诗论家(The Poetics)。这两个名称的由来是影响聚类的最重要因素:乐器性(Instrumentalness)和语音性(Speechiness)。
弦乐爱好者的乐器性数值高,而语音性数值低。这意味着,这一阶段的艺术家相比语言,更倾向于乐器。
诗论家正好与此相反。
大部分弦乐爱好者出现在上世纪90年代前的百强榜上。
大部分诗论家出现在上世纪90年代后的百强榜上。
上世纪90年代看起来是一个关键时期。如我们所见,弦乐爱好者和诗论家这两个聚类在上世纪90年代几乎平分秋色。
2. 乐器使用下降主要是因为摇滚乐队不再流行
在上世纪60年代后期到21世纪早期,乐队极为流行,数量和单独的艺术家一样多。
在21世纪之前,对每一年而言,乐队数量越多,当年的平均乐器性的数值就越高。
然而,在21世纪以来,乐队数对乐器的使用基本上毫无影响。
除了两个离散值,从上图我们可以看到,乐队数和乐器使用没什么关系。这很有趣,因为正如我之前提到过的,在21世纪早期,乐队仍然很流行。
所以,发生了什么?
我相信你已经猜到了。乐队的类型变化了。
在上世纪90年代之前,大约60%的乐队是摇滚乐队——典型的摇滚乐队由一名主唱和一组乐器手组成。
然而,21世纪以来,摇滚乐队的百分比显著下降了,为流行乐队(Pop bands)腾出了空间,流行乐队通常完全由歌手组成,例如天命真女(Destiny's Child)、小野猫(Pussycat Dolls)、五美(Fifth Harmony)、单向(One Direction)。
3. 诗论家聚群的兴盛也许部分归因于嘻哈的兴起
除了语音值的提升(用词的增加),诗论家聚群使用复合词的几率是弦乐爱好者聚群的两倍以上(例如,Jay-Z喜欢用opulence而不是wealth),用词的音节数也更多。这让我们马上联想到了一种音乐流派:嘻哈(Hip-Hop)。
我们看到,嘻哈在上图的四项统计中均排第一,难怪嘻哈在上世纪90年代成为主流流行乐——和诗论家聚群的兴盛相呼应。
4. 尽管音乐风格大变,过去六十年流行歌曲的主题始终是爱情
我使用主题建模算法得出了这一结论。顾名思义,该算法搜索给定文本的主题。
在我们的例子中,文本为告示牌百强单曲的歌词。
让我们看看主题是如何随着年代而改变的:
乍看起来,主题和风格一样,都在上世纪90年代发生了交替。然而,让我们看看这两个主题(Topic 1和Topic 2)的具体内容:
我们看到,这两个主题其实大同小异。过去60年的百强单曲,大部分都是“Yeah, I love my baby”(耶!我爱我的宝贝!)
主要的差别在于,上世纪90年代之前的歌曲可能更“直接”一点,正如你在上图中看到的“gonna”(将要)。而上世纪90年代之后的歌曲看起来要间接一点,用“wanna”(想要)取代了“gonna”(将要)。
比较“安静”的流派在诗论家时代绝迹了
这多多少少确认了我们比以前更偏爱大声的音乐。
各个流派的平均响度
五个最安静的流派是——爵士(Jazz)、摇摆乐(Swing)、民谣(Folk)、蓝调(Blues)、迪斯科(Disco)。
在诗论家时代,这些流派在百强榜上绝迹了,除了爵士乐还靠Norah Jones勉强存活。
这些意味着什么?
总结一下:
上世纪90年代是流行音乐极其重要的时期。
今日流行乐的形态,与摇滚乐队的衰弱和嘻哈的兴起有很大关系。
过去六十年来,爱情是流行乐永恒的主题,不过不同时期的音乐对这一主题的演绎有一些微妙的不同。
是的,现代艺术家可能更大声,但这是因为我们有话要说 :)
奖励 迈克尔·杰克逊,尽管主要活跃于上世纪80年代,属于诗论家聚群!他领先了时代!
结语
为了更好地演示这个项目的数据,我基于chart.js创建了一个面板
http://bit.ly/music-dashboard
目前我还没有做好移动端适配,所以推荐在电脑上使用。
现在这个面板有两个标签页,第一个艺术家标签页(Artist Dashboard)可以让你查看艺术家的歌曲特征的平均值。
第二个对比标签页(Comparison Dashboard)可以让你比较2-3位艺术家的歌曲特征。
我所说的诗论家时代正是当前的时代,因此如果我们有2016年到2018年的数据(特别是陷阱音乐的兴起),上面的有些见解可能会改变。不过,我认为大体上不会有太大的变动。
评测歌曲的“政治觉悟”(politically-aware)会很有意思。我可能会在Twitter上(@RosebudAnwuri)发布这一结果。
我在创建这个项目的时候获得了很多乐趣,我希望你阅读的时候也获得了同样的乐趣。
全部0条评论
快来发表一下你的评论吧 !