人工智能对数据有强依赖性数据堂强势布局2019iyiou

2019-05-14 18:17:33 来源: 河西信息港

说到数据,大家并不陌生,从分类方式上,可以分为结构化数据(企业ERP、财务系统等)和非结构化数据(视频、语音数据为主)。按数据占比情况划分,非结构化数据占比80%,而结构化数据仅占20%,过去的数据分析主要是基于结构化数据做应用和优化,但是80%的非结构化数据被闲置,基于人工智能技术的蓬勃发展,非结构化数据的价值挖掘开始成为热点,数据堂的发展背景大抵如此。

数据堂主要业务是提供数据采集、制作、共享和增值服务的数据资源运营商。上游对接数据拥有者,下游对接数据使用者。数据堂并不是从事具体的行业应用开发,因此在C端的认知度并不高,但是对于B端数据应用类型的企业而言,是非常熟悉的。提供类似服务的公司还包括海天瑞声和标贝科技,这三家公司的业务类型各有差异。

成立于2011年的数据堂,齐红威认为自己见证了中国大数据行业的诞生与发展,2011年从业者开始炒作大数据概念,年找业务方向。2014年创立公司,年出规模,大数据中国落地的前6年大概如此。

然而先到者有福利,齐红威在融资路上一直走得比较顺,创业初期自有资金探索模式,2014年初,数据堂拿到田溯宁云基地和国泰创投1300万元的pre-a轮融资,2014年底挂牌新三板,成为大数据行业股,2015年5月完成由达晨创投领投的A轮融资4200万元,近的一轮融资是2016年获得2.4亿元人民币B轮融资,由中航信托、海通证券、东方证券、浙商资管、青岛华通、安徽国富共同出资。

人工智能对数据有强依赖性,数据堂强势布局

数据堂的模式好比石油领域的中石油和中石化。三段论:阶段获取原油,第二阶段将原油做深度的加工,提炼成品标准油产品,第三阶段面向加油站或者特殊行业提供标准油产品。数据领域同比也差不多,阶段给有数据的单位做深度合作,获取数据的使用权,第二阶段,将数据分析、处理、融合,做成标准的数据产品,第三阶段,将标准的数据产品卖给具体的行业应用企业。

数据堂营收分数据租赁和数据交易两种模式,对于中小型客户,他们希望低成本地训练算法模型,数据集对于模型训练只需要用一次,数据集本身价格贵,因此可以租赁使用的模式。客户将算法模型部署在数据堂的服务器上,数据堂提供数据集给予模型做单次训练,训练结束之后,客户带走模型,留下数据集,这相当于客户租赁了数据集的单次服务。另一种模式,对于大企业而言,他们有充足的资金,愿意购买数据集,那就直接售卖数据集。

同理,政府、电信运营商等单位数据,客户发出需求,数据堂将算法模型部署在数据提供商服务器中,只能取走算法模型,数据不能带出门,另一个考虑,数据量很大,储存成本不小,所以齐红威更愿意将模型部署到数据提供商的服务器中。“这是行业目前有默契的合作模式,各取所得”,齐红威暗示。

数据堂的收入来自于人工智能行业,的客户也来自于人工智能行业,齐红威认为,现在人工智能行业对数据的需求远没到饱和的状态,以人脸识别公司为例,人工智能在每个百分点精度提高都离不开海量的数据集训练,而且很多人工智能企业有海外拓张的需求,而国内的人脸数据集就不能满足海外算法产品模型的需求,需要根据当地的人脸数据集重新对模型进行训练,因此,人工智能对数据的依赖是很大的。

齐红威认为,人工智能比电商、搜索引擎、大数据这几波的商业空间都要大,因为它是无孔不入的,能够进入到任何一个领域和行业进行产业升级和结构化调整,这么大的商业空间,而人工智能才刚刚开始。

齐红威的战略是“广积粮、筑高墙、缓称王”

区别于海天瑞声简单的数据服务(采集、清洗、标注),数据堂特征是做行业化细分数据产品,以无人驾驶为例,无人驾驶行业需要的数据是多样的,包括路况数据、地图数据、指示牌数据、红绿灯数据等,数据堂能根据行业特征,系统性、多维度地收集数据,满足行业化需求。

数据堂通过行业型的数据产品方案,让数据能够定制化的贯穿一个领域,当领域做透之后,这个数据就具备重复使用、规模化的能力,齐红威认为“向前多走了一步”,只有行业化的数据产品才能产生更大的附加价值,才能提升营收规模和利润率。但同时意味着需要多维度的数据、庞大的存储基础、丰厚的流动资金,做数据产品的特征明显,前期投入大,后期投入少,营收规模则相反,前期营收少,后期营收多的交叉型商业模型。

这种商业模式的创业风口,齐红威认为“已经没新机会了”,也正是由于数据堂做得比较早(成立于2011年),并且成为新三板大数据交易与服务产品股,才有机会在屡次资本寒冬中持续融资,三次融资下来,积累发展资本将近3亿元。

齐红威很喜欢上述的gartner曲线,并且对大数据行业进行代入分析,他总结:2011年是萌芽期,历经2012、2013、2014年的爬坡发展,到2016年进入行业狂热期,在2017年进入到下滑通道,将有大量的、产生不出实际价值的企业死掉,谁能熬过幻想破灭期,谁才能真正的活下来。在2017年的时间节点,齐红威的战略是“广积粮、筑高墙、缓称王”。

应用人工智能技术,数据标注和加工从劳动密集型到技术导向型

自2011年成立至今,数据堂通过自行采集和购买的形式,已经积累自有数据规模超过2000TB,而其中人工智能的数据占据大半。在数据堂库存中的数据是结果型的优质数据(被训练好的算法模型或者已经做好标注的数据集),而不是原始数据。

齐红威将数据堂定位是科技型公司,希望将公司轻盈化,很多劳动密集型的工作,他都以众包的形式对外输出,数据堂聚集了50万有线下数据采集能力的兼职人员,他简称为“众客”,这50万的众客身份各异,有学生、家庭主妇、专业发音人等,数据堂通过一个APP实现派单和项目跟进管理事项,让任务通过众包的形式得以完成。

现实生活中的80%数据是非结构化数据(图片、视频、语音),这种数据在使用之前,必须从非结构化数据变成结构化数据,而个中技术就是人工智能的技术。数据清洗、标注、加工等原本是劳动密集型工作,在数据堂将成为一个技术导向型的工作。

以数据标注为例,数据堂做数据标注是半自动化的流程,假设有100万张人脸图片需要打标注点,首先以人工形式标注10万张,然后用10万张图片去训练一个打标注点机器人,让这个机器人拥有标注的能力,让众客基于机器标注的图片再进一步检查即可,整个过程减少了大量的人工标注的工作,解放了大量的劳动力。

数据堂的资本布局

在2016年,数据堂在贵阳设立了子公司,在此之前已经在中美两地建有4家全资子公司,并在北京、南京等地设有5个专业数据处理中心。而这次在贵阳设立子公司,主要是看到政府逐渐在开放数据资源,因此希望在贵阳提前布局。

在资本布局上,2016年数据堂和将门创投共同发起设立大数据产业战略投资基金,数据堂作为LP出资3000万人民币,将对大数据产业链上下游相关业务公司进行战略投资,齐红威想构建一个健康的大数据生态,在2016年投资食药就是很好的开局。

在采访的,齐红威总结像数据堂这种数据资源提供商,对数据的提炼程度、对数据的挖掘能力是企业核心竞争力,随着客户的行业化越来越深入,对数据要求越来越高,很考验数据资源提供商的数据处理分析能力,因此,数据堂是一个技术导向型的产品公司。

版权声明

凡来源为亿欧的内容,其版权均属北京亿欧盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。

乒乓球
QQ群
互联网巨头的壁垒越来越深真正收割流量的时候到了
本文标签: