国内最小的大模型创业团队，靠另类创新出位 | 数字化当前速看_中国智能在线

睿评：拥有多年NLP经验的虎博科技，凭借自身独特的技术创新，打破“成本魔咒”，重新定义“短小精悍”。

【资料图】

国内大模型创业迎来了新面孔。

包含70亿参数和1800亿参数两个版本的大模型TigerBot正式亮相，一经推出，就以独特的实力，引起了外界瞩目。

从评测结果可见，TigerBot与OpenAI同规模模型的得分十分接近

作为一款国产自研的多模态大语言模型， TigerBot不仅能进行编程、画图、翻译，还支持多种办公场景下的任务，具有高效的学习能力、创造力和可控性。

更重要的是，借助更先进的微调算法， TigerBot在只使用少量参数的情况下，就能快速理解人类的问题，提升回答的准确性。

在同样50万条数据训练的情况下，TigerBot的收敛速度比斯坦福推出的Alpaca快5倍，在公开数据集上评测显示性能提升17%。

有点难以置信的是，研发了如此强劲大模型的团队，最初只有5个人，身为CEO兼首席科学家的团队Leader陈烨，担任了最核心的代码工作。

后来成员规模虽有扩充，但也只控制在了10人左右。

那么，这个在激烈的大模型竞争中，TigerBot背后的中国企业——虎博科技，究竟是怎样凭借犀利小团队杀出一条血路的呢？

重新定义“精悍”

众所周知，训练大模型所需的高昂算力、成本，一度使得ChatGPT这样的通用大模型，成为了少数科技巨头的专利。

然而，拥有多年NLP经验的虎博科技，却凭借自身独特的技术创新，打破了这一“成本魔咒”，并重新定义了何谓“短小精悍”。

具体来说，为了降低模型的训练成本和难度，虎博科技在以下几个方面进行了创新：

指令完成监督微调

所谓指令完成监督微调，主要就是让模型更加理解人类提出的各种问题。

如果模型像一个学生，那么问题就像一个作业。

如果老师只是给学生一个作业，不告诉他这个作业要考察什么知识点，要用什么方法来解答，那么学生可能会很困惑，于是有些问题的回答质量往往就不佳。

面对这样的问题，以往人们想到的办法，是通过微调和提示的方式，来让模型变得“更通人性”。

具体来说，微调是在大量的任务相关的数据上，重新训练模型的参数，这就像给了学生一本厚厚的辅导书，虽然可以让他学得更好，但也会花费很多时间和精力。

而提示则是在每个问题前加上一些特殊的单词或符号，就像给学生一个小抄，让小抄引导他写出正确答案，但这一方法也需要老师花心思制作小抄，而且小抄的内容也会限制学生的应变能力。

对此，TigerBot的应对之策，是使用一种标记语言（Mark-up L anguage），在每个问题前加上一些特殊的符号。

这相当于给每个作业打上了“标签”。

如此一来，学生就能明白，这个作业是数学题，要用加减乘除来解答；那个作业是英语题，要用翻译来解答；从而让模型快速地理解了各种问题。

但别看只是个 “打标签” 的小小改动，真正要践行这样的技术创新，却绝非易事。

因为标记语言并不是一种简单的任务标签，它需要有一定的语法规则和语义表达能力，才能让 LLMs（大模型）准确地理解和执行指令。

其次，标记语言并不是一种独立的技术，要让 LLMs 能够有效地利用标记语言来完成各种任务，还需要借助预训练、微调、元学习等其他多种技术。

因此，整合各种技术并设计一种通用且易用的标记语言，是一项具十分前沿的创新性工作，涉及多个方面的挑战和难点。

唯有那些具备深厚理论基础和实践经验的团队，才能做出这类突破。

突破并行训练难关

除了模型的底层架构上的改进外，TigerBot另一大降低训练难度和成本的创新，就是突破了deep-speed等主流框架中的若干内存和通信问题，实现了千卡环境下训练数月无间断。

在此之前，要想千卡环境下进行数月无间断的训练，会面临很大的技术难点。

这里可以用一个形象的比喻说明：

想象一下，在一个拥挤的马路上，用很多辆小车来运送一座大山，要花费多大的时间和精力？要面对怎样的拥堵和阻碍？

在这里，“小车”就象征着每个 GPU 的内存空间，“大山”象征着模型的参数和梯度。

虽然我们有一千辆小车可以用，但是每辆小车的载重能力都很有限，远远不够装下整座大山。

另一方面，模型的参数和梯度需要在多个 GPU 之间频繁地交换和更新，需要消耗很多的通信资源。

这就像是要把一座大山从一个地方运到另一个地方，需要经过很多次的装卸和转运，不仅会耽误时间，还会消耗大量的资源。

对此，TigerBot主要使用了三个技术，来进行并行训练的优化。

首先，TigerBot 使用了一种叫做 ZeRO的技术，它可以把模型的参数和梯度分散到多个 GPU 上，从而减少每个 GPU 的内存占用。

这就像是把大山分成很多小块，然后用不同的小车来运送一部分小块。这样，每辆小车就不会超载了，而且可以同时出发，提高训练的效率。

其次，TigerBot 使用了一种叫做 DeepSpeed的技术，它可以根据模型的参数和梯度的大小和分布，自动地选择最合适的通信方式和路径。

这就像是一个智能导航系统，它可以根据货物的重量和目的地，自动地选择最快的交通工具和路线，从而大大节约了时间和资源。

再次，TigerBot 使用了一种叫做 BF16的技术，它可以降低模型的精度要求，从而减少计算的复杂度和内存的需求。

这就像是将同等大小的山体碎块换成了塑料或纸板，从而大大从降低运输的负担。

借由着这些技术，虎博科技每月在训练上的开销，能够节省数十万。

这也是为什么，他们能以10人左右小团队，在几个月时间内实现“媲美”OpenAI壮举的原因之一。

正向突变

除了上述提到的技术外，虎博科技在大模型方面，还运用ensemble和probabilistic modeling的方法，让模型在创造性和可控性上做出了适当的权衡。

同时，针对中文连续性强、多义歧义情况多等问题，虎博科技通过不断吸取开源模型和代码中的优点，从tokenizer到训练算法上，都做了相应优化。

而这些提升性能、降低成本的技术创新，和自然界中的生物面临环境压力时，所激发出的 “突变”和“进化”，有着异曲同工之妙。

面对训练大模型所需的巨量算力、数据时，实力并不强劲的中小企业，也感到了某种 “演化压力”。

为了在这场 AI竞赛中不被时代抛弃，部分中小企业，只能被倒逼着选择了一种更能降本增效的技术策略。

然而，这样的 “压力”，却并不总是能激发正向的 “突变”与“进化”，部分实力羸弱的企业，可能直接倒在了这场残酷的大模型竞争中，还有的企业干脆选择了投机取巧，以炒作和公关来吸引融资。

既然如此，那虎博科技是如何在这样的压力下，完成正向“突变”的呢？

谈到这个问题，我们就不得不提起虎博科技的创始人兼CEO——陈烨。

某种程度上，与OpenAI的Sam Altman一样，陈烨也是一个心怀科技理想的天才创业者。

在AI领域的造诣上，陈烨不仅三次获得人工智能顶级会议（KDD和SIGIR）最佳论文奖，在人工智能和机器学习领域发表了20余篇具有业界影响的论文，并拥有 10余项专利。

并且还曾在美国的微软、eBay和Yahoo担任主任科学家和研发总监等职位，成功实施过多个深具业界影响力的人工智能系统。

而每一个对AI技术进行过深度研究的人，都明白这项技术的远大意义。

这样的人，如果想在AI领域干一番事业，就绝不会仅仅只是为了赚钱。

在2017年，陈烨成立了虎博科技，开始专注于 NLP技术的应用落地，愿景是用AI赋能下一代搜索引擎，连接人与全球信息，让人们获取知识更简单。

然而，再远大的理想，也要有现实的支撑。

深谙AI技术发展路径的陈烨明白，人工智能的进步与迭代，需要漫长的研发周期，虽然短期来看，资本市场对这类技术有着很大热情，也产生了很多泡沫，但如果长时间未能看见实际的应用或产出，各路资本就都会纷纷人走茶凉。

面对这个问题，理性而成熟的陈烨，选择了一条更为稳健的道路，来坚守自己的理想。

在彼时的国内AI赛道上，智能金融成为了陈烨首先瞄准的目标。

这是因为，金融行业的运转，往往伴随着巨大的数据量，且与教育、医疗等行业相比，金融领域的很多数据都是公开、且易于获取的。

于是，结合自身的NLP技术，虎博科技研发的新一代智能金融信息搜索引擎—— 虎博搜索诞生了。

虎博搜索的数据覆盖了A 股、港股及美股，包括行情、公告、研报、新闻等多维度信息。

利用语义挖掘、知识图谱、机器翻译等核心技术，虎博搜索不仅实现了口语化交流问答，并且还通过精确的数据抽取，以及跨越语言的功能，从海量信息中挖掘到深层次信息，并提供了本地编辑、报告全文、溯源定位等多种功能。

而这些功能背后的深度学习、知识图谱、文本生成等技术，都是未来大模型所必将涉及的关键点。

在此后的发展历程中，虎博科技又自主研发了各大金融领域的关键技术，包括智能推荐、翻译、舆情分析等，而由此积累的NLP经验，也为后来的 TigerBot的诞生夯实了工程基础。

总结

纵观TigerBot诞生的过程，我们可以发现，这是一个既守住了饭碗，又赢得了理想的故事。

科研出身的陈烨，有技术，也有情怀，但却并没有在现实与理想之间顾此失彼，而是以用户需求为导向，结合自身的技术优势，开发出多种适用于不同场景的AI产品。

在此过程中，其依据对技术前沿趋势的敏锐洞察，逐步提高了自身的开发能力和工程化水平，从而在后来的大模型研发中，突破了主流框架中的技术难点和瓶颈。

如果说，当下的大模型竞争，是一场物竞天择的竞赛，那么唯有那些在广泛的产品和服务中，积累了足够多技术因子的企业，才能在压力和挑战面前，完成“进化”与“突变”。

推荐内容

国内最小的大模型创业团队，靠另类创新出位 | 数字化当前速看

2023-06-20
驭数首届家庭日 | 在奇妙“芯”世界里，探索科技的魅力！_天天报道

2023-06-20
腾讯云发布多个行业大模型解决方案，还将推出向量数据库

2023-06-20
史无前例！ChatGPT能设计芯片了，谷歌&英伟达&三星更早都在布局！

2023-06-20
《行尸走肉：圣徒与罪人第2章》首席环境美术师浅谈VR游戏环境创作

2023-06-20
陀螺会员活动：苹果Vision Pro MR头显分享会圆满结束

2023-06-20
环球速递！元宇宙社交，一场乌托邦式的幻想？

2023-06-20
每日热文：国内NFT发展仅限于数字藏品吗？

2023-06-20
AI为何对得很高级、错得很离谱？世界新动态

2023-06-20
当前速递！淘丁分享：美国发布20项重大科技趋势，或将在未来30年改变世界

2023-06-20
产业观察|从AI大模型看人工智能的产业机会焦点热闻

2023-06-20
算力军备竞赛白热化 “卖铲人”联想集团竞争力如何？

2023-06-20
候选人公示！中国广电固话业务建设相关项目当前时讯

2023-06-19
ERP——采购模块产品设计-每日聚焦

2023-06-19
U9 cloud新品上市，深入体验新特性、新价值

2023-06-19
每日快看：知乎C端业务起势，如何平衡用户体验与商业化创收？

2023-06-19
商业新知发布2023年5月IT科技行业ToB内容营销指数

2023-06-19
信息：LeCun高徒超详笔记曝光，Meta世界模型首揭秘！首个「类人」模型怎么来的？

2023-06-19
营收下滑、持续亏损、市值缩水超90%，涂鸦智能前景担忧

2023-06-19
语音领域的GPT时刻：Meta 发布「突破性」生成式语音系统，一个通用模型解决多项任务_天天快看

2023-06-19
史上最大图灵测试实验完成！150万人类参与1000万次对话，判断对面是人还是AI-世界今热点

2023-06-19
每日热闻!数字经济学习思考

2023-06-19
AI炒股，回报率500%？焦点热文

2023-06-19
马云，为什么要现场观看数学决赛？当前关注

2023-06-19
【天天聚看点】中国广电开放“携号转网”功能！只进不出

2023-06-17
中国广电IP骨干网CBNET试运营_世界新资讯

2023-06-16
天天滚动:国内AI产业监管政策解读

2023-06-16
不惧“科技霸凌”！普通人也能使用量子计算云平台

2023-06-16
互联网、区块链和人工智能“泡沫”有什么异同环球播报

2023-06-16
Honnverse虹宇宙吴璇：元宇宙+AIGC，构建无限可能的新世界丨2023虎啸盛典回顾

2023-06-16
大模型热潮持续，头部VC都学会节约了

2023-06-16
用 AI “替”我们读书，是什么体验？|微速讯

2023-06-16
AI概念第一股，居然是人力外包？当前速读

2023-06-16
用友U8 cloud助力泰山生力源管理创新

2023-06-16
三星显示已开始采购RGB直显Micro OLED沉积设备；Google Lens新增皮肤健康检测功能_天天资讯

2023-06-16
用友入选信通院“铸基计划”IPaaS标准贡献单位

2023-06-16
致青春：互联网滚滚向前，“天涯”再也不见-焦点信息

2023-06-16
云器科技完成连续两轮总计数亿元融资：打造多云及一体化数据平台全球简讯

2023-06-16
不善吹牛善开脑洞 360数字人穿越时空

2023-06-16
不善吹牛善开脑洞 360的数字人穿越时空

2023-06-16
焦点热文：三大经典场景，助力企业实现不可估量的价值

2023-06-16
区块链的代币和人工智能的股票

2023-06-16
国家互联网应急中心发布视频App测试报告：多平台调用个人信息

2023-06-16
王小川宣布：百川智能推出70亿参数量预训练大模型baichuan-7B 世界热讯

2023-06-16
华为鸿蒙4.0定档！首款大模型操作系统？还有车机等一堆亮点！_全球观点

2023-06-16
360本地安全大脑3.0正式发布：XDR故事线重构安全运营|环球快播报

2023-06-16
世界热讯:在中原大地：精耕5G沃土，结出累累数字硕果

2023-06-16
全球播报:UnaBiz收购IoT明星企业Sigfox最新内情曝光！扭亏为盈的关键是什么？

2023-06-16
【独家焦点】NETSCOUT发布全新的Visibility

2023-06-16
世界视点！ExaGrid在Storage Awards 2023年度存

2023-06-16

国内最小的大模型创业团队，靠另类创新出位 | 数字化当前速看

2023-06-20
瑞士是哪个国家世界热头条

2023-06-20
【世界时快讯】psv最好玩的游戏排行

2023-06-20
杭州杀妻案（许立国）|热讯

2023-06-20
每日消息!蔚来手机已通过工信部无线电核准：配备UWB超宽带

2023-06-20
致团队管理者：帮你有效减轻压力、避免职业倦怠的7种方法

2023-06-20
世界信息:发动机强劲的廉价汽车

2023-06-20
理想是怎么成为微博之王的

2023-06-20
丝芙兰没能成为美妆集合店的“幸存者”

2023-06-20
快资讯：6月LPR报价出炉：一年期、五年期LPR均下调10个基点

2023-06-20
世界新消息丨女幼师给幼儿喂避孕药？小红书：已封号，线索上报警方

2023-06-20
谷歌 Pixel 8 系列屏幕参数曝光，对比上代屏幕拐角更圆润|世界球精选

2023-06-20
大美南京另眼相看｜乌龙潭边读书声_世界百事通

2023-06-20
史无前例！ChatGPT能设计芯片了，谷歌&英伟达&三星更早都在布局！

2023-06-20
腾讯云发布多个行业大模型解决方案，还将推出向量数据库

2023-06-20
《行尸走肉：圣徒与罪人第2章》首席环境美术师浅谈VR游戏环境创作

2023-06-20
清理门户动作频密：6月以来连续多名纪检监察干部宣告被查-世界独家

2023-06-20
驭数首届家庭日 | 在奇妙“芯”世界里，探索科技的魅力！_天天报道

2023-06-20
分手后的郑爽真会穿，经典蓝大衣搭白色长靴又酷又飒，太高级了！

2023-06-20
陀螺会员活动：苹果Vision Pro MR头显分享会圆满结束

2023-06-20
今日讯！中国癌症高发，是洗洁精惹的祸？提醒：2种洗洁精才真的要少用

2023-06-20
环球热头条丨看全球|美国半导体与集成电路产业分析

2023-06-20
天天最新：2023.06.19 Link!Like!LoveLive!关于举办「103期6月度圈子对抗赛」的说明

2023-06-20
【世界聚看点】大北农母猪料(大北农母猪全价料价格)

2023-06-20
CEO们，患上“AI焦虑症”

2023-06-20
当前速递！淘丁分享：美国发布20项重大科技趋势，或将在未来30年改变世界

2023-06-20
一家人有哪两个生肖，必定家门兴旺，有福又有财，越过越富裕_热点

2023-06-20
环球速递！元宇宙社交，一场乌托邦式的幻想？

2023-06-20
产业观察|从AI大模型看人工智能的产业机会焦点热闻

2023-06-20
每日热文：国内NFT发展仅限于数字藏品吗？

2023-06-20
视频|晚收的小麦有什么“秘密”？直击麦收现场→

2023-06-20
AI为何对得很高级、错得很离谱？世界新动态

2023-06-20
【环球快播报】仿真宠物定制师：“还原”照进生命里的那束光

2023-06-20
全球讯息：滴胶有毒吗可以做食物容器吗（滴胶有毒吗）

2023-06-20
平潭口岸迎来首批远洋渔船靠泊-每日头条

2023-06-20
环球新资讯：四川四市州迎来强降雨，转移群众166户460人

2023-06-20
C开创上市首日获融资买入1383.28万元当前消息

2023-06-20
上海市教育考试院辟谣网传中考泄题说法|环球焦点

2023-06-20
算力军备竞赛白热化 “卖铲人”联想集团竞争力如何？

2023-06-20
甘肃省40余家企业参加中国（上海）国际技术进出口交易会

2023-06-20
宠子不是好父亲，宠妻才是好丈夫

2023-06-20
辛选集团新任CEO首次对外：下半年聚焦新农业领域全球今热点

2023-06-20
咋申请163邮箱_用163的邮箱怎么申请MSN

2023-06-20
天天热文：门源油菜花最佳时间_油菜不能和什么一起吃

2023-06-20
一个AI创业者的反思、观察和预测_世界实时

2023-06-20
当前速看：陕西：供需两端持续“发力”稳就业

2023-06-20
60岁的广州演员禤智红，戏中与牛哥恩爱10年，戏外与丈夫是师生恋

2023-06-20
今日看点：张家界市慈利县回应“女子去派出所接受调查后身亡”事件

2023-06-20
怎吗设置电脑锁屏_电脑怎么设置锁屏如何设置电脑锁屏

2023-06-20
全球百事通！中企出海洞察丨从摸索、积累到全面竞争

2023-06-20
铁路专业哪个学校好考柳

2023-06-20
广州公办幼儿园保教费或最高提升至1058元/月

2023-06-20
正规的借贷平台有哪些_正规借贷平台

2023-06-20
当前焦点!出版专业资格考试《出版专业理论与实务(中级)》历年真题：书刊版心

2023-06-20
这所中学有16对双胞胎今年参加武汉中考

2023-06-20
cet六级多少分过（cet6多少分算过）-世界最资讯

2023-06-20
北京有什么特色美食可以带回去_北京有什么特色美食

2023-06-20
寿险代理人改革再探析，从平安推出MVP说起

2023-06-20
鑫鼎晟是什么意思（晟是什么意思）

2023-06-20
播报：交流办案经验讲解审判实务新县法院法官大讲堂开讲

2023-06-20
快播：凤凰酒店_关于凤凰酒店的介绍

2023-06-20
每日消息!烟台栖霞：美德信用“上门办”，暖心服务“零距离

2023-06-20
刁蛮皇后全集观看_刁蛮皇后全集

2023-06-20
观点：寄和州刘使君张籍（寄和州刘使君）

2023-06-20
【风口解读】中威电子第一大股东拟减持1.54%股份，近年其持续减持公司股份-世界观速讯

2023-06-19
聚焦共建开放创新生态第六届世界科技期刊论坛在西安开幕世界快播

2023-06-19
天天观热点：午FUN丨动物界开启花式避暑模式

2023-06-19
加盟商接连闭店，库迪离“万店KPI”又远了？

2023-06-19
棒针阿尔巴尼亚针怎么织

2023-06-19
哪个保险公司年金险利率高？和增额寿险有什么区别？

2023-06-19
天天短讯！上海发布暴雨黄色预警大部地区将出现短时强降水

2023-06-19
IBM和Adobe强强联合共同打造生成式AI内容供应链解决方案|焦点报道

2023-06-19
马云非公开会议：接下来是淘宝而不是天猫的机会，阿里电商应该 “回归淘宝”-世界观热点

2023-06-19
家门密码告诉“闺蜜”，“现金花束”被“顺走”

2023-06-19
共话中国经济新机遇丨通讯：中科农业合作助力提升科特迪瓦农产品附加值

2023-06-19
天天要闻：“第三支箭”陆续落地，首单花落招商蛇口

2023-06-19
甘肃省消防救援总队副政治委员兼纪委书记赵俊接受纪律审查和监察调查-天天消息

2023-06-19
【焦点热闻】极限片可以实寄吗（极限片）

2023-06-19
AI威胁论：先过狗关，再赛人智|当前速看

2023-06-19
幼师拍“女孩问男孩是否有房有车”视频？遂宁：约谈幼儿园负责人

2023-06-19
武契奇警告：科索沃紧张局势正处于24年来最糟糕状态

2023-06-19
当前快报:“促文旅复苏·助乡村振兴——10万人游杭州”启动

2023-06-19
胡须长得快是什么原因(为什么胡子长得这么快?)|聚焦

2023-06-19
罗马诺：米兰决定不激活弗兰克斯1200万欧的买断条款|环球简讯

2023-06-19
董旭红_关于董旭红的简介

2023-06-19
国家反诈中心App累计预警3.1亿次|环球微资讯

2023-06-19
天天微头条丨曾国藩家书全文和译文曾国藩家书全文

2023-06-19
哪个平台下载音乐免费什么音乐软件可以免费下载歌曲_全球时讯

2023-06-19
引爆长期ROI，驱动品牌信任力增长：Meta品牌出海沙龙强势来袭！天天热议

2023-06-19
河北移动携手中兴通讯顺利完成灰度升级外场试点全球新视野

2023-06-19
即时看！抖音Vs美团：生活服务之战“醉翁之意不在酒”

2023-06-19
我在播客宇宙听故事|全球热文

2023-06-19
候选人公示！中国广电固话业务建设相关项目当前时讯

2023-06-19
焦点短讯！饿了么人工客服电话怎么转人工_饿了么客服电话人工台

2023-06-19
每日快看：ipad怎么格式化恢复出厂设置（ipad电子书格式）

2023-06-19
以科技助力全民反诈反诈“国家队”推出七大反诈利器|全球热消息

2023-06-19
大渡口公安做实“三项工作” 用心守护学生安全-每日消息

2023-06-19
瑞典电动汽车公司极星宣布与星纪魅族建立合资企业，拓展中国市场|天天微速讯

2023-06-19
当前动态:网路诈骗_网路

2023-06-19
世界热点评！“箱箱共用”完成2亿元D轮融资

2023-06-19