【第四范式】何谓企业AI转型的1+N范式?第四范式推新一代SageOne软硬一体系统
“科学规律的数量井喷,产业全面进入科学时代”,第四范式创始人兼CEO戴文渊道出了他的洞察。
1998年图领奖获得者Jim Gray于2005年提出《第四范式》,第四范式的典型特点是数据科学,计算机从海量数据中发现规律、形成理论诠释自然现象。此即第四范式公司的愿景与目标。
戴文渊提到,在第四范式时代,企业的评估指标发生了变化,从追逐资产负债率、增长率、净资产收益率等维度,改为追求创新速度,比如每天能找到多少个客户需求,每天能发现多少种降低成本的新方法,每天能找到多少个提升企业运营效率的新思路。
这不是仅仅靠增加人力就能实现的任务,商业智能的重要性在此凸显。
智能化转型1+N新范式
戴文渊提出了企业全面智能化转型新范式:1+N。1代表追求极致的业务效果,如何充分发挥数据的价值,如何从“事后分析”变为“实时决策”。N代表追求规模化落地效率,如何让一个Web开发人员也能开发AI应用,如何解决AI落地过程中的数据瓶颈。
在1+N之下,充沛且高效的算力是基础,第四范式不仅提供软件开发平台,还提供AI算力的硬件平台,
第四范式联合创始人兼首席架构师胡时伟回答了如上1+N的问题,第四范式认为,统一方法论+AutoML=快速构建AI应用,面向AI数据治理=规模化AI落地。
构建“闭环AI应用”的两大挑战,其一是数据的准备,传统的数据积累并不适配于AI应用,AI数据准备平均耗时达到14人月;其二是模型的开发,AI专业人才缺失+高难度复杂的模型开发上线过程,导致模型开发上线平均周期达到了16人月。
在AI数据治理中,第四范式能够提供数据采集访问双实时,全量原始数据,线上线下一致性和利用回流数据自动标注的功能
有了大规模AI应用,并不意味着万事大吉,很多时候算力都会成为阻碍。胡时伟提到,在追求核心场景的极致效果案例中,随着数据量扩大,机器数量是指数级上升而非线性;在追求规模化落地大量AI应用场景的案例中,随着机器数量和场景数量增长,整体TCO也是指数级增长。传统算力和AI应用负载之间存在天然的鸿沟。
SageOne AI平台
雷锋网了解到,今年年初,IDC发布创新者榜单,第四范式旗下智能风控平台及AutoML产品分别入选“中国人工智能金融反欺诈”、“亚太地区下一代高级大数据分析”创新者榜单。
入选理由如下:
- 快速部署分析能力:结合第四范式企业级AI平台,AutoML可实现4步快速部署分析过程:收集行为数据、收集反馈数据、训练模型、利用产品套件部署模型。
- 基于自学习闭环构建全自动化机器学习模型:第四范式AutoML自动化AI建模工具基于自学习闭环,帮助企业构建定制化、全自动化机器学习模型,应对行业及企业面临的挑战。
- 深度优化的软硬件集成一体化:第四范式将整合现有软件和服务,为用户提供企业级AI一体机。
在本次发布会上,第四范式进一步更新了新一代AI全线产品阵列。
基于如上难题,第四范式推出了SageOne Appliance软硬一体化集成系统。该系统分为三部分,第一部分是AI平台,包含数据管理平台,学习圈开发平台以及应用运维平台,同时也是AI开发&运行环境;
第二部分是AI核心引擎,包含AI训练引擎,AI推理引擎和AI存储引擎;
第三部分是硬件基础设施,这部分主要是Intel Cascade Lake AP处理器,4Pd ATX加速卡,Infini-cache无限缓存和Swift高吞吐零拷贝网络。
第四范式表示,SageOne是一个全新的企业级产品物种,摒弃了传统算力堆砌硬件的方式,而采用由软件定义的专用AI系统架构,更好的理解AI 算法的运算架构与逻辑,更深层次软硬件一体化的优化和加速,全面满足企业AI应用的算力需求。
以第四范式高维算法为基础,SageOne搭载第四范自主研发的硬件加速卡——4Paradigm ATX800,内置模型训练和特征工程等多种加速能力,支持自动优化训练超参数、高位特征计算过程I/O加速和高维GBDT训练加速等应用,在企业应用场景中表现出高达10倍的训练性能。
SageOne还内置第四范式自主研发的高维、分布式网络通讯协议Swift,集成pPRC自研网络通信框架、零拷贝数据交换协议等AI领先通讯技术,结合基于CLX-AP架构的参数服务器集群。SageOne在高维特征计算过程I/O最大10X加速,高维稀疏场景模型训练比GPU提速5X以上,自研pRPC通信框架比百度bRPC和谷歌gRPC提速3-10X。
现场第四范式联合创始人、首席科学家陈雨强首次提出了全新特性的AutoML 2.0技术,他表示,AutoML 2.0不仅是世界首个交互式AutoML技术,同时具备自动跨表特征增强能力。在世界知名的Kaggle机器学习竞赛中,第四范式AutoML 2.0与数据科学家共同挑战多项竞赛,竞赛结果数据显示全世界平均每7-10位数据科学竞赛选手,只有1位能击败第四范式AutoML 2.0;而在结构化机器学习问题上第四范式AutoML 2.0比Google Cloud AutoML排名靠前61.2%,在图像分类问题上比它排名靠前64.2%。
雷锋网还了解到,基于目前企业AI应用的痛点问题,第四范式未来还将引入隐私保护迁移学习(AutoPTL)、自动半监督机器学习(AutoSSL)、自动正样本和无标签样本学习(AutoPU)、自动知识图谱嵌入(AutoKGE) 等众多Auto“黑科技”到产品体系中,提高企业AI应用率和价值。
此外,雷锋网现场获悉,第四范式宣布开启“启航”合作伙伴计划,着力打造基于“先知”平台的生态体系建设。基于先知平台,第四范式建立起产品赋能、咨询赋能、交付赋能、营销赋能、技术赋能五大赋能中心,正与广大解决方案商、咨询服务商、实施服务商、渠道分销商及开发者开展生态合作。