百川智能发布 53B 大模型，预计今年内追上 GPT-3.5

2023年8月9日 14:16 | 阅读 1674 次

搜狗创始人王小川创立的百川智能宣布推出新一代大模型 Baichuan-53B；但不同于此前发布的 7B 和 13B 模型，Baichuan-53B 并没有走开源路线。

“模型变大之后没有走开源的这样一种方式，因为大家部署起来成本也会非常的高，就是使用闭源让大家网上调用的方式。在我们的官网，大家已经可以申请内测试用了。在我们的计划里，我们后续 53B 也不会开源。”

目前 Baichuan-53B 已在官网开放内测申请，并将在下个月开放 API。按照计划，今年四季度，百川智能将发布千亿参数的大模型，预计将追上 GPT-3.5 的水平。此外王小川对 Founder Park 透露，百川智能的开源模型也将在今年内发布升级版本。

百川强调了 Baichuan-53B 的三个技术优势：预训练数据、搜索增强和对齐能力，其中前两者与百川团队中丰富的搜索引擎经验有较强相关性。

预训练数据

预训练阶段，王小川表示，此前团队做搜索引擎的经验，让百川能够又快又好地完成前期数据积累，这也是百川此前两款开源模型能够迅速推出的原因之一。

搜索增强

这次 Baichuan-53B 的开发过程中，百川应用了更多搜索相关的技术，实现模型优化与改进。

动态响应策略，依赖 Prompt，将指令任务细化为 16 个独立类别，覆盖各种用户指令的场景。
智能化搜索词生成，通过对问答样本进行精细化的人工标注，捕捉和理解用户多元化的志林需求。
高质量搜索结果筛选，百川构建了一个搜索结果相关性模型，对从搜索内容和知识库中获取的信息进行相关性频分，从而筛选出高质量的搜索引用内容，减少在知识抽取阶段引入的无关、低质量的信息。
回答结果的搜索增强，RLHF，让 Baichuan 大模型参照搜索结果，针对用户请求生成高价值且具有实时性的回答。

(文/开源中国)