众所周知,互联网出现后,信息大爆炸、数据成海量。即使是文本数据的处理,要完全摆脱人工仍然非常困难,依旧是一个全球性的难题。目前,用现有的爬虫技术、机器学习、深度学习、自然语义分析等技术,能够很好解决这一问题吗?机器对简单文本的语义分析理解还可以,但是对复杂文本的处理还达不到实用程度。
在2022中国国际软件发展大会暨第五届中国软件产业年会CIO高峰论坛上,北京航空航天大学国家科技资源共享服务工程技术研究中心副主任、宁波优策信息技术有限公司创始人王建平教授为大家分享,如何利用原创算法实现海量数据的自动清洗和自动标注,打通数据处理的最后一公里;如何以云模式,为用户构建各类大数据平台,实时赋能数据、赋能算法和搜索引擎等技术,降低用户的技术门槛,降低系统的建设运维成本。
点击 “阅读原文” 链接,观看精彩演讲视频
本文根据演讲内容整理。
01
从现象看本质
我们先来看看看几个案例。
第一个案例,这是一家国内最大的IT、最大的云厂商之一 (出于尊重,厂商的名字隐去),承建的一个产业公共服务平台,这是产业政策模块、这是行业资讯模块,前台只分别展示几十条过时的产业政策、行业资讯的数据。实际上,后台用了爬虫抓取了大量的政策数据,因为最后一步需要人工维护,项目还没有验收,已经成为僵尸网站、僵尸平台。
第二个案例,是另外一个国家产业公共服务平台 (出于尊重,平台的名称隐去),这是政策模块、这是行业资讯模块。同样,后台爬虫抓来几千万条数据,因为需要人工清洗、审核,前台只有几百条过时的数据。
第三个案例,这是我国最大的IT行业组织的官网 ,同样有产业政策、产业资讯栏目,可以看到,2019年只有几条数据,2020年只有1、2条数据,以后再没有数据更新,也是因为需要人工审核、人工维护。
第四个案例,这是国内一家搜索引擎大厂 (同样出于尊重,公司的名称隐去)的一个数据标注基地,有一项工作叫标注员,这是打标签的情景。
大家看到,这些平台、网站使用了爬虫,但是抓来的数据需要人工清洗、人工标注、人工审核,所以国内互联网上,政府、园区、协会、公共服务平台、企业的网站、APP、小程序出现了大量的僵尸。可见,数据的最后一公里远远没有走通,即使国内互联网大厂、IT大厂也没有走通。
02
海量数据处理的难题与解决之道
数据处理要遵循以下原则。 第一 ,数据处理的准确性。清洗、标注准确是实用的前提; 第二 ,数据处理的及时性。数据要能够实时抓取、自动清洗、自动标记; 第三 ,数据处理的经济性。比如海量数据处理的人工处理的成本问题,数千万网站独立维护的社会成本和规模经济问题; 第四 ,数据应用的先进性。采用新的技术架构支持新的应用场景;采用算法、智能搜索引擎等技术; 第五 ,数据处理的自适应性。数据标注的规则改变了系统能自适应,能够满足新增规则的需求,摆脱对大样本素材的依赖。
数据的智能处理、人工智能技术的实现,要解决三大技术难题。第一,精确样本素材来源问题。机器学习、深度学习、自然语义技术,标注精确的大样本、大素材哪里来?第二,规则适应问题。数据标注规则变了怎么办,基于新规则的大样本素材哪里来?第三,各类非结构化、异构数据的融合处理问题。
海量文本数据处理的现状十分尴尬。目前,许多人工智能的应用场景,实际上后台人工处理、前台智能呈现。但是,借助爬虫自动采集容易,爬虫抓来的还是一堆垃圾信息,人工处理,技术上不可取、经济上不成本。以文本数据处理为例,因为没能解决数据处理的最后一公里,数据库处理、网站、APP、小程序的数据维护出现大问题,形成一堆僵尸数据、僵尸网站。
那么,海量文本数据处理的解决之道在哪? 出路在于要形成一套原创算法,能够对数据进行100%的自动处理,准确率达到实用程度,比如95%以上,甚至更高。出路在于能够基于云计算架构,为用户构建大数据平台,实时赋能数据,赋能算法、搜素引擎等技术,降低用户的技术门槛、维护成本。
03
“4+3”产品体系
实现数据智能高效处理
宁波优策信息技术有限公司、北京国信利斯特有限公司是两个小创企业,依托北航的技术、人才,从事大数据、人工智能的算法、架构研究。其中,宁波优策主要侧重产业政策、产业资讯大数据平台开发,国信科技专注于产业人才大数据开发,基于国内最先进的算法和架构,解决数据处理的最后一公里。
这是我们目前的4+3产品体系,四个独立平台,产业政策、产业资讯、产业人才以及汇聚服务机构、服务产品和服务需求的专业服务大数据平台(这是汇聚专业服务机构、专业服务产品、专业服务需求的产业公共服务资源池),四个产品通过不同的组合,可以形成的产业公共服务生态平台、产业大数据平台、全栈建官网三大体系化产品。
4+3产品体系全部可以云模式为用户搭建各类应用,用户通过简单的参数设置,定制自己的行业、区域和主题类等不同平台。当然,目前我们也为工信部、农业部等单位的大数据平台,提供数据支持、提供算法支持。
下面,我们着重介绍几个大数据平台。
第一、产业政策大数据平台
这是国内架构、算法最先进、数据量大的产业政策大数据平台,监控源20000,数据总量1450万。平台可以实现垂直搜索、精准搜索、个性推送等功能,平台可以基于算法和规则;通过算法实现数据源定制,自动形成产业政策专题。
目前,国内所有政策资讯专业网站数据量只有几万、几十万,其原因是没有走通政策数据处理的最后一公里,即使借助了爬虫,最后都需要人工审核、维护。而国内部分上市公司基于NLP、深度学习等技术开发的应用平台,远未到实用的程度。
技术路线的实现上,平台通过爬虫技术,抓取各个中央部委、省市区县各个政策部门的政策,采用独有的原创算法,100%实现机器对政策的自动清洗,剔除非产业政策类信息(比如民生、社会治理等信息),100%实现机器对政策分类(通知、文件、公示、要闻、解读)、技术领域、技术专题、政策部门、政策区域等产业政策各类属性的自动标记。数据处理的准确率在95%以上,真正做到让机器读懂政策,打通政策数据处理最后一公里。
关于技术路线,想特别说明一下,这是一个零代码为用户定制平台的平台,政策分类、技术领域、政策区域、搜索引擎功能都是松耦合、可解耦的,面向用户定制应用的时候,模块、功能可以任意叠加取舍、重新构建。例如平台可以解耦技术领域,定制用户可任意定制不同的细分技术领域,而这些技术领域我们大平台并没有,上市公司赛迪顾问的官网、APP覆盖的是全国所有技术领域,而赛迪顾问为用户定制了数字经济、集成电路、锂电池等不同技术领域、技术行业的平台,这些技术领域是我们为赛迪顾问定制的。
应用模式是平台一个重大创新,目前国内没有这样类似的应用场景。在云架构支持下,用户可以通过简单的参数设置,以云模式独立定制自己的区域、行业、主题类的产业政策大数据平台,赋能实时数据,赋能原创算法、搜索引擎等核心技术。用户网站和平台的网址、LOGO、名称、ICP备案都是自己的,但是数据、算法、搜索引擎,是我们的数据中台、技术中台以云模式提供支持。
第二、产业资讯大数据平台
这是国内唯一的产业资讯垂直搜素引擎,架构、算法最先进,监控源500+,数据300万+,与产业政策大数据平台不同,数据源来自综合门户网站和行业类专业网站。百度、谷歌是综合搜素引擎,2C和2B混合的,我们是垂直搜索引擎,面向产业用户的。这是一个引擎的引擎、平台的平台,基于我们的引擎,可以为用户定制各类自己的产业资讯垂直搜素引擎。这样的架构、应用,目前的搜素引擎是不支持的。
技术路线上,也是采用一套原创的核心算法,对数据进行自动清洗,剔除非产业资讯类数据,100%实现了机器对产业资讯各类属性的自动标记,打通数据处理的最后一公里。系统功能上,实现垂直搜索、精准搜索、个性推送;并可通过算法实现数据源定制,自动形成产业资讯专题。
应用模式同样是该平台一个重大创新,目前国内搜素引擎还没有这样类似的应用场景。这是一个定制引擎的引擎,用户通过简单的参数设置,以云模式独立定制自己的行业、主题类的产业资讯大数据平台,赋能实时数据,赋能原创算法、搜索引擎等核心技术。
第三、产业人才大数据平台
这是国内算法最先进、数据最全、精度最高的产业人才大数据平台,利用自主算法,汇聚了全国大专院校、科研院所、高新技术企业中1000万+高新技术人才;国外2000万+外国专家,65万的华人学者;大约2.5亿的论文数据,国内专利库1800万专利数据,还有各类政府的项目数据150万。同时,以人才为核心,构建人才链、创新链、产业链、政策链互相融合的产业全景画像。
系统架构上同样具有重大创新,该平台基于云架构,可以云模式为用户搭建不同区域、不同技术领域的产业人才大数据平台。
04
典型应用案例
案例一:中国软件政策大数据平台和中国软件资讯大数据平台
以云模式,为中国软件行业协会定制了中国软件政策大数据平台和中国软件资讯大数据平台,当天定制、当天部署。平台能够实时赋能数据,赋能搜索引擎;基于软件的行业特定,定制了人工智能、工业软件、大数据、区块链等各类专题。同时,我们的平台为协会官网的主页,定制了产业资讯、政策要闻滚动栏。两大平台与要闻滚动栏,全部实现机器自动维护,免除人工处理。
案例二:国家(宁波)工业互联网公共服务生态平台
这是2020年工信部、财政部工业互联网创新工程项目,作为宁波工业互联网平台应用创新推广中心的总体设计单位,我们在国内第一次提出了产业公共服务生态服务、产业公共服务生态平台的理念,先进的理念、架构、平台和模式,在宁波市工业互联网公共服务线上线下平台率先实践。
我们为宁波工业互联网公共服务生态平台,定制专业服务模块,以云模式定制产业政策、产业资讯两大子系统,赋能实时数据,赋能原创算法、搜索引擎等核心技术。以云模式,为平台官网主页定制了产业政策、产业资讯的新闻滚动页。
案例三:宁波市政府
为宁波市经信局定制推送全国产业政策大数据平台,第三方厂商简单定制,一周内部署,赋能实时数据,赋能原创算法、搜索引擎等核心技术。
案例四:中国电子信息产业发展研究院
以云模式,提供产业政策大数据平台,构建中国电子信息产业研究院政策大数据平台,嵌入中国电子信息产业发展研究院内网,服务于全院数千高端研究人员。
案例五:赛迪顾问股份有限公司官网和APP
赛迪顾问股份有限公司(HK02176),以云定制模式,提供企业官网、企业APP的产业政策大数据平台定制服务,赋能1500万+产业数据、赋能搜素引擎技术。
案例六:北京软件和信息服务业协会
以云模式,为北京软件和信息服务业协会官网以及协会运维的国家公共服务平台(软件无限)构建北京软件产业政策大数据平台。
案例七:中国数字经济发展指数(德阳指数)平台
以云模式,为赛迪顾问股份有限公司(HK02176打造的中国数字经济发展指数(德阳指数)平台,提供数字经济领域的产业政策、行业资讯模块信息推送。
案例八:中电光谷联合控股有限公司
中电光谷联合控股有限公司(00798.HK)是中国电子体系企业,香港上市公司,全国有近80个产业园区,以开放API模式,提供数据中台、技术中台支持。
案例九:温州瑞安市人才地图系统
与瑞安市合作定制“瑞安市人才地图系统”,帮助政府分析当地产业、人才现状与布局,助力区域产业发展优势识别与策略制定。
案例十:宁波市产业人才大脑新材云创
为宁波市“产业人才大脑新材云创”,提供专家人才数据和算法服务。
依托北京航空航天大学的研究开发能力和人才资源的支持,宁波优策信息技术有限公司、北京国信利斯特有限公司两家高新技术企业,开发了一套原创算法,解决产业政策、产业资讯、产业人才的数据的最后一公里;我们以云模式,为政府、产业园区、孵化器、事业单位、研机构、科技企业定制区域、行业、主题类大数据平台,实时赋能数据,赋能算法和搜索引擎等技术。
感谢大家聆听,欢迎批评指正,谢谢。