Product Announcements

App Annie 数据科学系列: Game IQ 背后的智囊团

Samantha Ren

隆重介绍支持 Game IQ 游戏分类的数据科学方法

应用商店中有成千上万的游戏应用,每个月还有数以千计的新移动游戏发布,App Annie 需要对大量的游戏进行分类。除此之外,我们分类法结构的精细度较高,因此人工判断每款游戏应该属于哪个类别非常耗时。

我们如何才能准确、高效、可扩展地覆盖全球市场上的绝大多数游戏应用?在这篇博文中,我们将带领您了解我们开发的,用于实现游戏分类自动化的数据科学模型。点击此处详细了解 Game IQ 产品。

打造 Game IQ 时使用了哪些数据科学技术?

收集功能:从文本到指标

我们的机器学习模型从向模型输入数据的功能开始。因此模型的最终表现在很大程度上取决于输入功能的质量。那么游戏的哪些信息能够帮助我们将游戏划分到设定的类别中呢? 

我们深入挖掘了每款游戏的大量数据和功能,以寻找相关信号。最终,我们选择使用以下三种类型的功能:

  • 文本功能: 应用相关的文本信息
  • 指标功能:关于市场估算和应用使用行为的 App Annie 数据
  • 亲和度功能:跨应用亲和度

每一种功能都体现了游戏的不同方面。文本功能包含有关应用内容和游戏玩法的详细信息;指标功能携带量化信号,在更高层次上划分应用;应用的亲和度使我们能够发现类似的应用集群。

利用混合模型提高准确性

因为文本、指标和亲和度功能的格式非常不同,所以我们选择为这三种类型的功能分别构建一个单独的模型。我们首先人工分类数千个游戏作为一个训练数据集。然后,在这个数据集上分别训练这三个独立的模型,并可以独立生成一款游戏在每个类别中的概率。然后,将这些概率输入到另一个经过训练的模型中,以输出最终的分类结果。在数据科学中,这是一种称为模型融合的集成学习方法,通常通过结合一组强大但多样的模型来提高模型的预测精度。

置信度:通过人为干预避免错误

与所有机器学习模型一样,我们的模型不可避免地会在某些情况下出现失误。通常,当输入模型中的游戏功能信息不全,无法借此准确判断游戏类别时,就会出现这种情况。为此,我们开发了一种独有的方法来计算每个类别预测的置信度,这样我们就知道模型是否有把握做出正确的预测。对于那些置信度低于临界值的预测,我们会将预测发送到人工分类平台进行进一步审核。这种灵活的人机闭环设置进一步保证了我们分类的质量。

数据科学如何将 Game IQ 打造成更好的产品?

除了创建一个高效和可扩展的分类解决方案外,数据科学模型还有一个额外的好处,那就是减少了主观性的回旋空间。利用数据,我们能够尽可能以抽象的方式代替主观判断,否则许多应用都会被模糊地归类。

Moon Active 的《金币大师》便是其中一款令我们感到为难的应用。《金币大师》是一款非常成功的游戏,它集成了许多不同的硬核游戏循环,从建造和攻击村庄到基于概率的老虎机机制都包含其中。

《金币大师》的截屏和游戏循环:

可以预见,如果只看应用截屏、阅读应用描述和玩游戏,很难对这种混合类型的建造游戏进行分类。然而,数据似乎提供了更为清晰的线索:

在比较收入与活跃用户数比率以及收入与下载量比率之间的关系时,《金币大师》呈现了常见于博彩类应用的市场表现特征。通过将我们的市场估算整合到分类模型中,我们获得了一个独特的优势,即能够尽可能减少主观判断需要。

数据科学将如何继续改善 Game IQ?

我们将继续改进我们的数据科学模型。客户关于游戏分类的反馈对我们来说是非常有价值的!您的反馈将作为数据的补充,输入到我们的模型中,使我们能够不断提高预测的可靠性和准确性。

Game IQ 背后的 App Annie 数据科学团队有哪些成员?

2021 M04 22

Product Announcements

相关博客