我们正(zhèng)处于大数据和数字化转型的时代。数据无处不在,运用数据驱动的思想和策略在(zài)实践中逐渐成为共识(shí),数据的价值已(yǐ)在科学研究(jiū)和工商业的不同(tóng)领域得到充(chōng)分展现。然(rán)而(ér),如果无(wú)法从数据中提取出知(zhī)识(shí)和(hé)信息并加以有效利用,数据本身并(bìng)不能驱动和引领数字化转(zhuǎn)型取得成功。如何让数(shù)据发(fā)挥它最大(dà)的价(jià)值?“数(shù)据智能(néng)”(Data Intelligence) 应运(yùn)而生。
portant;" />
然而,技术(shù)的不断(duàn)发展终究要服务于现实(shí)生(shēng)活,海量数据背后那(nà)些未被挖(wā)掘的价值,需要(yào)企业不断挖掘并乐于(yú)分享才(cái)能真正(zhèng)促进行业转型,才能赋能各种应用场景。日前,由MobTech MobAI团(tuán)队基于(yú)Spark自研的因子分解(jiě)机(Factorization Machine,简称FM)模型已得到Spark merge,Spark使用者只要更新Spark后(hòu),即可使用该模型。
portant;" />
Apache Spark是一个互联网行业普遍使用的开源大数据(jù)分布式编程(chéng)框架,借助Catalyst、新的混(hún)排方法、新的网络(luò)模块等,获得了超越MapReduce框架的性能,也提供了丰富(fù)的API接口。截至(zhì)2015年年底,Spark是(shì)所有(yǒu)大数据(jù)项目(mù)中(zhōng)最(zuì)活跃的开(kāi)源项目。如今,许多公(gōng)司使用Spark,包括(kuò)亚马逊、Autodesk、Groupon、Tripadsvisor,百度、阿(ā)里巴巴和腾讯、微软等国内(nèi)外一流互(hù)联网公司都在使用。
而FM模型自从2010年被提出后,由(yóu)于易于(yú)整(zhěng)合(hé)交(jiāo)叉特征、能够有效解决高(gāo)维数据特征组合(hé)的稀疏问题且具有较(jiào)高(gāo)的预(yù)测精度和计算效率,在推荐系统及广告CTR预估等领域得到了大规模使(shǐ)用,国内很多大厂(如美团、头条(tiáo)等)都用它来做推荐及CTR预(yù)估。在数据稀疏的情况(如CTR预测)下,FM模型(xíng)展现出非常高(gāo)的预测质量,被提出后迅速成为学术界和行业研究和应用的热点。
比如(rú)在某银行短信投(tóu)放的项目中,一开始使(shǐ)用(yòng)对于计算广告等有天然优势的逻辑回归模型(xíng),点击率为1.18%。但是,逻辑回归(guī)虽然(rán)适(shì)合用来学习需(xū)要大规模训练的样本和特征,同(tóng)时也(yě)有着(zhe)不容忽视的缺(quē)点:1.模型表达(dá)能力弱,需要大量的特征组合提高(gāo)特征的表(biǎo)达;2.模型简单,容易(yì)欠拟合。所以在评估后(hòu),MobTech选择了使(shǐ)用FM模型,成功(gōng)帮助用户的点击率(lǜ)增长至(zhì)3.62%,带(dài)来了更多转(zhuǎn)化。
portant;" />
作为全球领(lǐng)先的数据智能科技平台,MobTech结合大规(guī)模数据(jù)处理、数据挖掘、机(jī)器学习、可视化等多种技术,从(cóng)数据(jù)中提炼、发掘、获取有揭示性和可操作性的信息,为(wéi)企业和品牌在基于数据制定(dìng)决策或执行任务时提(tí)供(gòng)有效的智能(néng)支持。自研FM模型并得到Spark merge是MobTech助力(lì)各企业(yè)探求数(shù)据空间中(zhōng)未(wèi)知世界,在不同领(lǐng)域里寻找巨大(dà)机会的见证(zhèng),也彰显了MobTech在推(tuī)动(dòng)行(háng)业(yè)重塑商业分析和(hé)商业智能领域的决心。
portant;" />
新一轮技术革(gé)命带来(lái)的商业演进把我们带进“ABC”时(shí)代(dài),即人工智能(AI)、大数据(Big Data)和云计算(Cloud Computing)。而根据(jù)Gartner的(de)调研,一种新的
“增强分析”的分析模式正在(zài)颠覆旧有方式,预计在几(jǐ)年内将(jiāng)成为商业智能(néng)系统采购的主导驱动力。这种“增(zēng)强分(fèn)析”模式正是由数(shù)据智(zhì)能技术(shù)赋能,提供了自然语言查询和叙述、增强的数据准(zhǔn)备、自动的高级分析(xī)、基于可(kě)视化的(de)数据探索等多种核心能力。
portant;" />
未来(lái),MobTech将(jiāng)会(huì)潜(qián)心数据智能研究,让(ràng)产(chǎn)品更加契合当今(jīn)大数据时代各领域、各(gè)行(háng)业从(cóng)数据中挖(wā)掘、实现价值,进行数字化转型的迫切需要。并不断将成(chéng)果(guǒ)与众企(qǐ)业分(fèn)享,一同(tóng)实现数(shù)据智能在更多领域(yù)的落地和发展(zhǎn),不断挑(tiāo)战新应用和新场景(jǐng),进一步(bù)激发(fā)和驱动数字智能(néng)研究保持强劲的发展势头,迈向更高的层次(cì)。