本文是一篇电子商务论文,本文以音乐推荐系统长期以来以准确性为优化目标,通过收集用户与歌曲的交互信息,构建用户画像,并以此为基础设计推荐模型,为每位用户生成最符合其音乐口味的歌曲推荐列表。但高准确度并不总是意味着高满意度。
第一章 文献综述
第一节 音乐推荐系统
一、推荐系统简介
在1992年,Goldberg等学者首次提出协同过滤(collaborative filtering)的概念,证明了我们可以利用用户的显性标注数据和隐性行为数据来生成千人千面的个性化过滤系统。自此,推荐系统迅速兴起,伴随着互联网经济浪潮走向商业化道路,并活跃在多个应用场景中,如电影、音乐、书籍、美食、新闻等,成为网站或者平台应用中举足轻重的一部分。
推荐系统依赖于用户对商品(如上文所说的电影、音乐等)的偏好数据,包括显性数据和隐性数据。用户对商品的显式评分被称为显性数据,而隐性数据往往通过监控用户行为数据获得,包括歌曲播放次数,网站浏览次数和时长,商品加购、收藏和下单行为等(Jawaheer, Weller and Kostkova, 2014; 王智圣等,2016)。部分推荐系统也会使用用户基本数据,比如年龄、性别、地理位置等。推荐系统利用上述数据作为输入来训练算法模型,为每位用户提供千人千面的推荐结果(Bobadilla et al., 2013; 朱扬勇、孙婧, 2015)。
在音乐领域,得益于音乐流媒体服务的迅速发展,我们可以通过各大音乐软件接触到海量音乐。但伴随着音乐体量的增大,推荐便显得越来越重要。于是在音乐推荐领域中涌现了两种研究方向,一类与音乐本身的属性强相关,称为音乐信息检索(Music Information Retrieval, MIR),该领域主要收集音乐的旋律、音调、乐器等元数据信息,用于歌曲风格分类、歌手识别、乐器识别等场景(李伟、李子晋、高永伟, 2018)。“听歌识曲”便是音乐信息检索的一种应用实例。音乐推荐领域的另一类研究方向则与用户强相关,即音乐个性化推荐,属于推荐系统的子领域。通过用户与音乐的交互数据,音乐个性化推荐为每位用户推荐其可能感兴趣的音乐内容,满足用户对音乐的需求。本研究所说的音乐推荐指的是音乐个性化推荐。
第二节 偶然性
一、偶然性的定义和构成
用户使用推荐系统的目的多种多样,相比于寻找高准确度的推荐,用户更追求探索(Zhang et al., 2012)。在探索的旅途中,用户可以牺牲一定程度的准确性来获取更多样、更新颖的推荐结果,接触到现有兴趣圈以外的内容(Kotkov et al., 2016)。而现有的多数推荐系统往往给用户推荐的是受多数人追捧的,或者与用户历史消费相似的商品。久而久之,用户收到的推荐列表中陈列的总是与自身品味及其吻合的、相似度极高的、(即使没有推荐系统的帮忙)自己也能找得到的商品,进而降低对推荐系统的评价,而这无疑是启用推荐功能的平台不愿意看到的(Kotkov, Veijalainen and Wang, 2020)。用户需要的不只是准确的推荐,而是有所收获的推荐。我们希望推荐系统能为用户推荐更新颖、更令人惊喜的商品。为了解决这个问题,提升用户对推荐系统的评价,基于偶然性的推荐成为当下推荐领域内的研究热点。(Murakami et al., 2008; Kaminskas and Bridge, 2014; Gemmis et al., 2015; Kotkov et al., 2016, 2020)
偶然性(Serendipity)更贴切的中文释义为“机缘巧合”,有“令人欣喜的新发现”的寓意。由于偶然性的概念非常主观,以偶然性为导向的推荐就显得相对困难。目前为止,已经有学者在一些应用领域内研究基于偶然性的推荐(Onuma et al., 2009; Said et al., 2013; Kaminskas and Bridge, 2014; Kotkov, Veijalainen and Wang, 2020),也提出了他们对于偶然性这一概念的定义和衡量方法,但学术界对于此并没有达成共识(Kotkov et al., 2016)。表1-1列出了学者们对于偶然性概念和维度见解的几种情况。
第二章 基于偶然性的优化方法设计
第一节 重排方法设计
一、反气泡重排
本研究选择ALS算法作为推荐基准,用以确保推荐结果的准确性。具体实现上,本研究使用Spark为Python提供的工具包PySpark来完成ALS推荐算法部署,对每位用户逐一预测,生成对歌曲的相关性分数𝑆𝑐𝑜𝑟𝑒𝑏𝑎𝑠𝑖𝑐,𝑢,𝑖,并倒序维护至相应的用户列表中。
𝑆𝑐𝑜𝑟𝑒𝑏𝑎𝑠𝑖𝑐,𝑢,𝑖=𝑅𝑒𝑙 𝑢,𝑖(2−1)
由第一章的综述可知,推荐系统现已十分擅长向用户推荐他们一定会喜欢的歌曲,或者是用户本身也会预料到的歌曲(即使没有推荐系统的帮忙也能猜到的歌曲)。长此以往,用户会对充斥着熟悉内容的推荐结果产生厌倦,这种推荐结果可能会对用户体验产生负面影响。
为了冲破基于准确性的推荐所带来的“信息茧房”,我们构建了反气泡重排方法(AntiBubble方法),结合初始推荐结果,为每位用户生成最具惊讶性的推荐列表。
用户之所以对基于准确性的推荐结果并没有太多期待,可能是因为基于准确性的推荐所呈现的推荐列表与用户的历史画像过于相似,用户并不会因为被推荐了“稀松平常”的结果而感到惊讶。而如果一首歌曲与该用户此前接触的内容(用户画像)相去甚远,出于好奇和探索心理,用户可能会对这种意想不到的结果更感兴趣。
第二节 离线评估方法
本研究综合使用准确性指标和准确性以外的指标来对推荐结果进行评估。其中,准确性评估能反映推荐结果的相关性,准确性以外的指标则可以反映推荐结果的新颖和意外程度。综合这三项指标,本文可以对推荐结果的偶然性表现做出评估。
一、基于准确性的评估指标
在本次研究中,由于准确度和召回率仅能反映本研究所提出的推荐方法在推荐前N首歌曲时的准确性,并没有综合考虑用户的所有历史歌曲记录(测试集用户的历史画像),也不符合本文研究场景,因此我们将采用平均排序分数指标(Average Rank Score)(Hu, Koren and Volinsky, 2009),用于衡量本研究的推荐方法对用户所有历史画像所构建的预测模型的准确性。
为了预估本研究所提出的推荐列表的偶然性,我们从新颖和意外两个维度对推荐列表进行评估。
一首歌于用户而言是否新颖,理想情况下应该指的是:该用户此前从未接触过这首歌(不论是在目标系统里,还是目标系统外)。此处我们使用学者Zhu和Kuscik在2010年提出的新颖测量方法,该方法基于这样一种假设:用户能接触到一首歌曲的概率,与该歌曲本身(广义上的)热度成正相关。该假设一定程度上模拟了理想情况下的新颖性。等式右边的值越大,说明推荐结果中用户此前并未接触过的新颖歌曲越多,用户的感知新颖性越高。
第三章 离线结果分析 ....................... 26
第一节 数据处理 ................................................ 26
一、分析工具 ......................................... 26
二、数据来源 ................................ 26
第四章 用户实验 .................................. 32
第一节 实验设计与步骤 .............................. 32
第二节 实验结果分析 ............................ 33
第五章 总结与展望 ............................. 37
第一节 研究结论 ............................................ 37
第二节 研究启示 ............................... 38
第四章 用户实验
第一节 实验设计与步骤
本研究面向在校大学生群体征集60名受试者,年龄在20岁到25岁区间范围内,其中女性占比为65%。所有受试者在完整参与实验后会获得一定的现金作为回报。具体实验步骤如下:
① 每位受试者在实验正式开始前三天内以邮件形式阐述用户画像。受试者需在邮件中告知个人基本信息(性别、年龄)、最能反映个人音乐品味的10首歌曲、歌曲对应风格(用至少一词描述,如古典)、发行年份、歌手和语种,其中歌曲的发行日期需不晚于2017年⑨。这些数据将用于构建受试者的用户画像,作为后续推荐列表生成的基础;
② 对受试者用户画像数据进行预处理,使之与本研究所使用的离线数据集格式保持一致;
③ 将受试者随机平均分为A、B两组,每组30位用户。利用Basic推荐方法,为A组中的每位受试者生成top10歌曲推荐列表(推荐列表包含歌曲名称、歌手以及发行年份),B组中的每位受试者则会收到利用SerList方法生成的top10歌曲推荐列表。推荐方法对受试者隐藏,推荐结果以邮件形式反馈给受试者。
④ 收到反馈邮件的受试者通过各大音乐APP搜索被推荐歌曲,每首歌曲播放时间不少于30秒,通过邮件中附带的用户调查链接来反馈其对推荐结果的评价,包括用户对每首推荐歌曲的喜爱程度(“1”:非常不喜欢,“5”:非常喜欢)、新颖性评估(“1”:之前已经听过,“2”:名字眼熟,但没有自己播放过,“3”:完全没听说过)、意外性评估(“1”:丝毫没有,“5”:非常意外,想不到我会被推荐这首歌)、偶然性评估(使用“惊喜”一词来显式询问用户感受。“1”:毫无惊喜可言,我平常也听这些,“5”:非常惊喜!感谢大数据帮我寻找宝藏歌曲),以及用户对此次推荐列表的整体满意程度(“1”:不喜欢,“2”:尚可,但不会再听,“3”:一般,“4”:不错,值得再听,“5”:非常好!值得列表循环),并请用户简要写下对此次推荐的评价(开放题)。
第五章 总结与展望
第一节 研究结论
音乐推荐系统长期以来以准确性为优化目标,通过收集用户与歌曲的交互信息,构建用户画像,并以此为基础设计推荐模型,为每位用户生成最符合其音乐口味的歌曲推荐列表。但高准确度并不总是意味着高满意度。对于平台新用户而言,准确的推荐能增加用户对推荐的信任感,增加用户使用时长和频次;对于平台老用户而言,准确的推荐并不一定能够带来更高的满意度,反而可能引起用户的厌倦情绪,甚至造成用户流失,影响平台留存。为了缓解过度专业化问题,拓宽用户兴趣边界,提高用户对推荐列表的满意程度,本研究以偶然性为优化方向,以期为用户带去焕然一新的推荐体验。
通过文献梳理,本研究认为偶然性这一概念由三种要素构成:相关性、新颖性和意外性,并在后文中以偶然性构成要素为优化目标来构造推荐方法。具体步骤如下:第一,相关性要求本研究在构造推荐方法时不能降低对准确性的要求。为了使结果具备相关性,本研究采用推荐重排方法,选用经典协同过滤算法ALS生成初始推荐列表,使结果的准确性得到保证;第二,为了使结果更新颖,本研究构造了Enrich重排方法,增加对初始推荐列表中信息丰富度更高的歌曲的偏好,同时对高流行度歌曲予以惩罚,使用户能接触到与自身音乐口味有相似点、但又从未听说的歌曲;第三,为了使结果更具意外性,本研究构造了AntiBubble重排方法,通过比较初始推荐列表中各推荐歌曲与用户已有历史数据的距离,确定每首歌曲对于用户而言的惊讶度,并增加对这些歌曲的偏好;最后,合并上述两种子方法,形成SerList重排,通过观察离线指标中准确性、新颖性和意外性的表现,确定权重系数取值,完成SerList的最终构建。离线评估显示,基于偶然性计算的SerList重排方法以20 %准确度的下降换来了42%新颖性的上升,以及49%意外性的增加,如图5-1所示。
参考文献(略)
相关文章
UKthesis provides an online writing service for all types of academic writing. Check out some of them and don't hesitate to place your order.