用户画像对于电信运营商的营销策略决策以及用户体验改进十分重要,其中用户的网络内容偏好是画像的重要组成部分。在目前运营商利用探针(DPI)数据无法完整记录用户内容偏好信息的情况下,如何利用多种电信数据对缺失的用户内容偏好进行补全,建立完整可靠的用户偏好画像是一个有重要意义的研究方向。本文以补全用户内容偏好为研究目标,以多类型电信数据集为基础,提出了结合偏好类别信息的偏好补全模型及结合用户特征信息的偏好补全模型,并对用户内容偏好画像补全模型进行了实现。1、模型设计与实现:本文将偏好补全问题与传统Top-N推荐问题相结合,并以隐因子模型为基础模型,挖掘利用电信多类型数据提出两种算法拓展隐因子模型解决偏好补全问题:(1)结合偏好类别的偏好补全模型:针对数据集中的偏好信息,本文从内容偏好分层类别关系的角度出发,对偏好间关系进行详细地量化定义,并基于此设计结合偏好类别信息的设计偏好补全模型。(2)结合用户特征的偏好补全模型:针对数据集中的用户信息,本文通过挖掘与量化抽象出用户特征,并在实验中选取高质特征集,设计结合用户特征的偏好补全模型。(3)同时,针对传统单机算法不能快速完成大数据量偏好任务的问题,本文基于分布式系统实现了上述偏好补全算法模型,可在短时间内完成海量电信用户的偏好补全任务。2、实验评估与结果分析:通过在运营商提供的连续四个月的电信多类型数据集进行模型对比实验以及高质特征识别,发现通过对电信数据的充分挖掘,本文提出的模型在偏好补全问题上的效果相比基础模型得到了很大提升。除此之外,本文基于模型实验结果对偏好关系和高质特征进行了深入分析。3、系统设计与实现:在以上研究的基础上,本文对电信用户内容偏好画像系统进行了设计与实现。