图丨智铀科技创始人、CEO及首席科学家 夏粉
【数据猿导读】中科院自动化所博士研究生,师从中国机器学习领域泰斗王珏;阿里巴巴合伙人刘振飞亲自登门邀请加盟、“阿里十八罗汉”之一吴泳铭曾给过一张自填薪资的offer;与人工智能顶级科学家张潼、吴恩达为百度同部门同事...这样的夏粉,一开始创业就得到了资本市场的认可,公司成立半年之内迅速完成两轮融资,估值达4亿人民币
记者 | 小北
微信公众号ID | datayuancn
目前,AI行业的发展已走过了最初的技术积累窗口期,进入到各方选手都在拼商用的深水区,大家都开足马力极力探索与行业深度耦合的商用之路。而另一边的众多传统行业选手,也正如同垂垂老矣的迟暮英雄,急急地等着吮吸新鲜的血液以寻求新生。
但血液滴下来,他们却迟迟接不住——高昂的技术门槛、AI人才的缺乏,AI与行业的融合都困难重重。
“能否用AI来训练AI,用算法来优化算法,通过机器自动化学习,来解决这一痛点呢?”夏粉告诉数据猿记者,其实早在百度任职期间,他就萌生了这一想法。如今,当AI商用遇到瓶颈期之时,他立志要用自己的实际行动践行,解决这一行业发展问题。之后,夏粉从百度离职,创立智铀科技,公司仅仅成立半年,估值就达4亿元人民币。
夏粉,中科院自动化所机器学习博士,期间在机器学习顶级会议杂志JMLR,ICML, NIPS等发表多篇文章;2008年至2010年留校任复杂系统和智能科学实验室助理研究员;2010年进入百度,先后任百度联盟研发部广告点击率预估团队技术负责人、百度研究院大数据实验室超大规模机器学习团队负责人、资深科学家(高校教授入职百度的级别);2017年6月创立智铀科技,任CEO兼首席科学家。
看到如此资深的简历,大家一定没想到,在大学中,他曾是同学眼中的“差生”。
当初考5分的那个差生成了百度科学家
在大学同学十年聚会上,大家都说:“没想到当初线性代数只考了5分的夏粉,竟然成了科学家。”
从小学到高中,夏粉一直都是那个“不用太费力就能考第一”的别人家孩子,然而上了大学,沉溺于游戏的他学业逐渐荒废,在一次考试中线性代数竟然只考了5分,给大家留下了“差生”的印象。
但这个“差生”最终还是在本科的最后一年幡然醒悟,用三个月时间补齐所有课程,考上了中科院自动化所的研究生,开始当时还算冷门的机器学习研究,师从机器学习泰斗王珏。
王珏,中国自动化研究所研究员、博士研究生导师,《自动化学报》编辑委员会顾问委员,原973项目首席科学家、中国自动化学会第四届智能自动化专业委员会副主任、中国计算机学会人工智能与模式识别专业委员会副主任、主任,《自动化学报》副主编,复杂系统国家重点实验室学术委员会委员。2014年12月3日,王珏先生因病医治无效逝世,享年66岁。
到2008年夏粉博士毕业的时候,机器学习火苗初显,BAT率先认识到了其重要性。当时,阿里副总裁刘振飞亲自到中科院自动化所,邀请夏粉到杭州,“阿里十八罗汉”之一的吴泳铭还给了夏粉一张自填薪资的offer,“填了这个表,你就是阿里机器学习第一人了。”
但当时,夏粉一心想留校继续在学术上深造,没有选择做这个“第一人”。直到2010年,在学术上达到自己的目标之后,夏粉想:“是时候让理论应用到实践中去了”。
2010年5月,夏粉进入了具有浓厚工程师文化和不俗技术实力的百度,先后在百度联盟研发部、大数据研究院任职。
在百度联盟研发部期间,夏粉任广告点击率预估团队负责人,主要集中于提升点击率预估效果方面的工作。“当时主要分为两个方面,一是提升网络广告的CTR点击率,二是在提升CTR的过程中,让建模的代价变得最小。”因此,在数据特征、建模、调参上夏粉带领团队做了一系列研发,在百度数据规模最大的广告业务线——网盟,发展出了一套AutoML技术。
2013至2014年,张潼、吴恩达相继加入百度研究院,其中张潼负责大数据实验室。恰巧此时,夏粉也产生了新的想法,便找到张潼,告诉他自己想做一个机器学习的通用平台,两人一拍即合。这个产品就是后来的Pulsar,业界第一个基于万亿规模的深度学习网络的机器学习平台。Pulsar被百度各业务线广泛使用,覆盖公司绝大部分业务线,包括凤巢、网盟、金融和糯米等,在百度所有内部平台中排名第一。
2017年,因战略发展差异等问题,夏粉离开百度。“百度的AI重心在无人驾驶和DuerOS,而我一心想打造一款AutoML型通用产品”。
没想到又成了企业家,公司成立半年就估值4亿
2017年6月,智铀科技成立。曾经没想到夏粉成为科学家的朋友们又没料到,“怎么又成了企业家”?
夏粉告诉数据猿记者,从科学家到企业家的转变,是因为他想让人工智能的影响力扩散到更多领域。正如公司名“智铀”:“智”为人工智能,“铀”是一种能产生原子能的放射性元素,能够核裂变散发出巨大的能量。
目前,智铀科技已经完成两轮融资。Pre-A轮由洪泰基金领投,投后估值达4亿人民币。
成立半年就估值4亿,夏粉认为:“首先是Auto ML的赛道选择,真正切中了行业痛点”。
业界存在这样的共识,机器学习已经成为大数据时代数据处理的基础工具,是数据驱动公司标配,然而,全世界只有极少数科学家能创建先进的机器学习模型,企业拥有适应人工智能和机器学习高速发展所需的人才和资金预算也有限,因此,少数的资深机器学习科学家基本都在BAT这样的一流互联网公司中。其他大多数企业,尤其是传统领域的企业尽管拥有数据,却缺乏处理数据的人才和技术,数据化、智能化之路异常艰难。
事实上,很多前沿科技公司都看到了这一痛点,去年5月,谷歌发布了Auto ML, 这一基于强化学习的算法(Reinforcement Learning Algorithms),先用一种控制器神经网络提议一个“子”模型架构,然后针对特定任务进行训练与质量评估;而反馈给控制器的信息则会被用来改进下一轮提议。重复这个过程数千次生成新的架构,然后经过测试和反馈,让控制器进行学习。最终,控制器将学会为好的架构分配高的概率,以便在延续的验证数据集上实现更高的准确性,并且对于架构空间的差异很小。
与谷歌相比,智铀科技开发的全自动机器学习平台“EBRAIN”具备第四代机器学习能力,有以下几个主要优势:
- 数据量:千亿样本、千亿特征
- 模型:从浅层到深层灵活支持
- DNN:万亿链接神经网络结构
- 调研:自动化特征学习&参数调节
- 时效性:模型在线更新
- 评估:可视化模型&数据分析
在产品上,智铀科技对标谷歌,但从公司类型上,夏粉觉得智铀更像DeepMind,“自动化学习本身涉及很多算法,需要很多优秀的科学家,跟DeepMind一样,我们致力于聚集国内一流的AI科学家;其次,我们也是通过技术驱动研发自动化产品,再通过自动化促进产品化,最终服务到更多的人”。
其次是难以跨越的技术门槛:
自动化机器学习让AI去训练AI,可谓AI之上的AI,是机器学习科学的最前沿。“这不仅需要有相当强的技术实力,更需要在算法和实践上有深厚的积累,能够做到这一层的AI科学家寥寥无几。”
夏粉具有超过15年的机器学习经验,在学术和工业界都有很深的积累,在拥有海量数据的互联网场景实践多年。智铀科技团队其他成员也都是来自于阿里、微软的资深科学家。
“自动化机器化学习最难的是优化问题。”夏粉告诉数据猿记者,“一个目标函数,需要找到一个点使目标函数最小,对此有很多方法求解,但自动化机器学习中目标函数不可导,反馈机制不明确,计算复杂度高,所以要全部试一遍,成本非常高。把不可导变成可导的优化问题出来,就要求近似”。
人工智能打败国际象棋大师是在上世纪80年代,通过暴力搜索对每一步棋都进行评估,选取分数最好的一步。但是到围棋,因为复杂度太高,穷搜搜索不出来,所以要做近似问题,把不可解问题近似成可解的问题,找目标函数,使目标函数以很大的概率覆盖每个解,同时求解的复杂度降低。
智铀科技在以上方面创新了很多算法(人和机器都没有办法找最优解,机器范围大、效率高,所以效果比人好),以前象棋每步搜索2亿次,现在只需要做3000万次,因为做了优化。目前,智铀科技已经为金融、医疗、物联网等多个行业的公司提供服务,产品的应用场景涵盖点击率预估、反欺诈侦测、市场精准营销以及个性化推荐等。
以内容推荐应用为例,医药公司会通过微信、邮件等方式为医生推送内容(即文章), 推送后医生会对文章有阅读或点赞行为。现在需要根据医生的特征和历史阅读、点赞记录预测其感兴趣的内容,从而进行内容的精准推荐。 常规的做法是:对医生和文本提取大量特征,进行特征选择和变换,选择合适算法和对应的超参数,训练模型。通过在验证集上效果,挑选最优的特征、算法和超参数。所有的选择过程由人工完成,耗费大量人力和计算资源。 对此,智铀在文本结构化处理的基础上,利用云计算提供的大量计算能力,通过EBRAIN在很短的时间内自动构建客户兴趣模型,并提供内容推荐核心服务能力。最终,根据医生的兴趣进行信息推荐,按照行业标准预估客户内容访问量提升50%以上。
Auto ML帮助普通工程师提高生产力,也帮助传统企业更快速地拥抱AI。但这并不是夏粉的终极目标,“智铀科技未来的愿景是让人人都能用上AI。正如互联网科技渗透到人们生活的方方面面一样,AI也终将从高端走向大众。就像美图秀秀让没有PS基础的人也能随意地切换滤镜、调整色彩;Windows让没有计算机基础的人也能操作电脑;傻瓜相机让不懂摄影的人也能拍照一样。”