参会机构提问及回答
(一)随着国内厂商陆续推出大模型,未来是否会有更多的企业具备研发大模型的能力,是否会给公司带来挑战,公司的优势集中在哪些方面?
(资料图片仅供参考)
公众号挨揍的馒头
回答 : 公司密切关注行业动态及产业政策 , 目前国内、国外众多厂商都在研发、构建通用大模型 , 主要围绕基座大模型的内容生成,多轮对话、语义理解和多模态交互等主要功能的展示和试用,但是我们认为大模型的方向应该是场景落地、私有化部
署、价值观对齐和数据安全、业务系统的集成和形成闭环以及性价比都是场景落地过程中要解决的关键问题。要把通用大模型变成专业大模型,需要解决大模型和知识库的结合,提升内容生成质量和数据安全性等关键问题。拓天大模型(以下简称拓天 ) 的主要优势是具有海量全域的实时数据能力,多模态大模型的联调能力 , 拓天在基座数据扩充、增量预训练、指令微调、插件增强等方面都做了大量的研发工作,形成了面向政务的拓天 G 、面向媒体的拓天 M 和面向金融的拓天 F 三大专业模型。大规模优质数据资产和 AI 工程化落地能力是拓尔思核心优势。
在数据资产和行业知识资产方面。公司自 2010 年自建大数据中心,拥有 3 大专业 IDC 机房,已积累数据总量超 1400 亿条,每日新增数据量高达 1 亿多条,秒级采集更新。并且 , 公司拥有 30+ 大类通用、行业 / 领域知识库; 31000+ 标签规则; 100+ 通用 NLP 和 300+ 行业 / 领域深度学习算法模型的模型工厂
等,可面向不同行业、不同落地场景对数据进行知识模型的加工。
(二)公司在媒体行业的市场份额较高,未来如何继续打开增量市场空间?
回答:媒体行业以及融媒体解决方案是公司成熟业务版块,业务主要以 “ 软件产品 + 大数据服务 ” 的融合模式为客户提供服务,用户已经覆盖了 72% 的中央媒体, 61% 的省级媒体, 40% 的行业媒体。目前 , 公司融媒体用户主要统计范围为体制内单位。在业务展望方面,公司正在全力加速拓天大模型及 AIGC 产品的研发工作,媒体行业的 AIGC 应用包括内容生产智能助手、以文生图、新一代搜索和推荐、多模态传播和服务等主要功能。以文生图的应用场景主要面向媒体从业者提供稿件 AI 配图服务。系统根据文字描述, AI 自动生
成完整的绘画作品,支持写实、照片、国画、水彩、素描、科幻、素描、油画、卡通等风格。目标客户为 3398 家主流新闻媒体(不含互联网新闻平台 ) 。知识搜索和辅助写作的应用场景基于公司自有的千亿级官媒、主流媒体、自媒体等新闻资讯数据,面向媒体、智库等从业者提供高质量的新闻资讯类知识型搜索服务,支持对话内容自动生图,支持辅助新闻写稿。目标客户为 3398 家主流新闻媒体(不含互联网新闻平台)、 403 家国内外主流智
库。公司在融媒体领域的优势地位正在扩展到央企和政务等增强市场,形成媒体 + 服务的泛行业服务。
( 三)公司在向量数据库方面是否有投入?
回答:公司紧跟技术发展新趋势,在向量数据库方面已有布局并投入了研发力量,目前已经形成了技术积累。公司 TRS 海贝搜索数据库计划引入向量数据的支持能力,目前已经完成核心功能的开发,正处于内测阶段。
(四 ) 在同一个行业内,不同客户的需求是否会有很大差异?
回答:目前,公司同行业客户之间的需求差异不会很大 , 80% 是共性的 , 20% 需要定制开发 , 定制化比例较小。公司通过多年的行业经验积累,已充分归集行业客户需求共性,竞争优势体现在具备专业领域的经验积累以及为客户实现业务闭环能力。在具备成长性的金融科技版块 , 公司主要面向银行业金融机构提供智能风控、智能消保、普惠助贷、绿色金融等金融科技领域的软件产品及数据服务。例如,智能消保管控中台面向银行业消保、业务部门,打通各业务系统消保数据,从非结构化投诉数据挖掘相关知识并分析应用,实现对各渠道消保数据的科学精细化管理。截至 2022 年末,公司智能风控业务的用户已经覆盖了 5 大国有银行、 3 大政策性银行、 50% 的股份制商业银行。
(五)公司海贝搜索数据库的优势和强项主要体现在哪些方面?
回答:公司 “TRS 海贝搜索数据库 ” (以下简称 “ 海贝 ”) 是一款从内核到系统完全国产自研的搜索型数据库,汇聚了公司在大数据搜索引擎和自然语言智能处理领域多年的技术积累,补足了开源检索系统欠缺
的企业级功能,可快速有效地管理、检索和分析大数据,赋能组织机构成功数字化转型。
海贝和 ElasticSearch 都是技术非常优秀的大数据检索系统,但两个系统在定位上存在一定的差异。作为开源软件 , ElasticSearch 的总体架构更加开放 , 主要面向大数据系统开发使用,需要具备较高技术资质和技术储备的人员才能掌握;海贝作为一款企业级产品,为支撑上层应用的快速开发,应用功能集成度更高,而且直接提供更多企业级特性,更加简单易用 , 方便用于大数据应用和系统集成项目中。
海贝最主要的创新点之一是面向自然语言和非结构数据的一体化检索引擎,其采用单一分词器覆盖全语种分词,而且除了文本以外不仅支持数字、日期等常用格式的搜索 , 也支持地理位置信息、图像、二进制文件等多种数据格式的搜索;系统利用基于深度学习的基因编码计算技术,从训练得到的深度神经网络模型中提取深度图像特征,利用深度基因编码和倒排索引技术构建图文混合索引,不仅可以实现图像检索,还可以实现图像和文本一起混合检索 , 从而进一步提高系统检索的精度。
效率方面,以搜索为核心构建的海贝,通过倒排索引技术 , 可以在 PB 级别的数据里实现毫秒级响应 , 主要解决大数据场景下海量非结构化数据的存储、检索、统计问题,为用户在海量数据里快速挖掘有价值的信息提供技术支撑。
( 六 ) 公司在对话式 AI 产品方面的水平如何?
回答: 2023 年 5 月,中国信息通信研究院正式公布首轮对话式 AI 专项评测结果 , 公司成为业界首批通过评测的科技企业,自主研发的智能问答云服务系统 ——TRS 小思智能问答机器人系统(以下简称
"TRS 小思 ”) 顺利通过对话功能模块评测。 TRS 小思以丰富全面的知识库、准确快速的回答效果及流畅稳定的交互体验等产品亮点通过对话式 AI 专项评测 , 被评估为功能完备度较高的对话式 AI 产品。
公司以数据智能应用为核心 , 赋能政府、媒体、金融等行业的数字化转型 , 在对话式 AI 领域已联合行业客户相继打造出一批优秀实践案例。政府网站办事问答机器人主要客户包括水利部、中国气象局、天津
市政府、广州市政府以及南宁市政府等。国家标准相关知识问答机器人,艾滋病防治 - 小艾问答机器人,审计知识问答机器人和外国人来华求学、投资、旅游相关领域办事问答机器人分别服务于中国标准化研究院、人民卫生出版社、时代经济出版社和中国日报社。
(七)公司大股东近期是否有减持意向?
回答 : 截至目前 , 公司尚未接到持股 5% 以上股东的减持意向或计划 , 相关情况请及时关注公司公开披露的公告内容。