大模型的竞速赛,正站在通用底座的基础上,掀起“领域增强”风暴。 刚刚就出现了个最直观的例子:金融领域大模型王座,它易主了! 新王是谁?突然出现的全链路金融领域增强大模型Baichuan4-Finance,榜单成绩非常亮眼,专业性和可用性行业第一。 背后的力气和手段,就是领域增强方案。 划个重点,它真的非常值得大家好好琢磨琢磨!因为Baichuan4-Finance是百川智能全链条领域增强方案在金融领域的成果,该方案也可以成功迁移运用在其它领域,比如医疗、教育、法律……一通百通。 而将方案率先在金融领域落地,这就是其背后大模型公司百川智能最直接的实践。 量子位获悉,Baichuan4-Finance之所以能取得这样的成绩,主要原因是其全链路领域增强方案中包括有高质量数据、在模型训练过程中首创了自约束训练方案,在微调阶段也做了大量增强工作。 本着客观和理性的精神,我们还是老规矩,把模型和方案一点点掰开,一起来看—— 开闭源Benchmark实测:超GPT-4o近20% 百川公布了一系列Baichuan4-Finance的榜单成绩,整体来看,该模型在金融类开/闭源benchmark上均表现出色。 出色到什么地步呢? 这么说吧,它能当会计、能当交易员、能当精算师,纯纯的金融行业全能大通才。 先来看开源的金融benchmark,FinanceIQ。 简单介绍下,FinanceIQ是金融领域的中文评估数据集,涵盖10个金融大类和36个金融小类,总计7173个单项选择题。它的重点是评估大模型在金融场景下的知识和推理能力。 Baichuan4-Finance位列榜首,整体准确率达79.23%,而GPT-4o是66.25%。 也就是说Baichuan4-Finance领先了GPT-4o约13%。 然后来看闭源的金融benchmark,FLAME。 FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大财政金融学院在本月17日发布的金融评测体系,兼顾专业性和实用性,由两个方向的评测基准组成。 第一个是FLAME-Cer,主要面向模型的金融专业能力评测,覆盖了CPA、CFA、FRM等14类权威金融资格认证。 在FLAME-Cer上,Baichuan4-Finance整体准确率93.16%,一举夺魁,超出GPT-4o近20%;在银行、基金、证券等多个资格认证领域,该模型的准确率均突破了95%。 第二个是FLAME-Sce,它侧重模型的场景应用能力,包含10个一级核心金融业务场景,21个二级细分金融业务场景,近百个三级金融应用任务。 FLAME-Sce评测中,Baichuan4-Finance的整体可用率也是行业最高。 其中,一级核心金融业务场景的模型整体可用率达84.15%,金融数据计算、金融知识理论等应用场景的可用率更是超过90%。 从榜单成绩来看,Baichuan4-Finance的精确度和可靠性都在同类模型中脱颖而出,一定程度上表现了其在金融知识领域的深厚积累与专业素养。 但老话说得好,“尽信书不如无书”,咱们也不能拿榜单当唯一的评判标准。 还是得上手看效果(认真脸.jpg)。 量子位一连三测,咱们来看: 金融行话解释 Prompt:以下是一个金融行业常用的术语(黑话),请对这个术语进行解释:技术性违约。 Baichuan4-Finance的回答如下图。 GPT-4o的回答如下图。 最直观的感受,Baichuan4-Finance的回答更长更丰富,GPT-4o的回答较为简短。 仔细阅读后不难发现,Baichuan4-Finance不仅详细阐述了名词概念,还从违反合同条款、触发条件、后果、解决方式等多个维度来解释“技术性违约”,辅以功能意义和使用场景,带举例的那种。 逻辑也清晰,有助于读者全面理解这一概念。 GPT-4o内容较为简单,虽然有案例简单例举,但提供的信息量确实比不上前者。 业务应对 Prompt:银行在发现哪些情况时,应将单位银行结算账户的网上银行转账功能关闭,并要求存款人到银行网点柜台办理转账业务? Baichuan4-Finance的回答如下图,结合了相关《通知》的规定。 更适合中国宝宝体质~ GPT-4o的回答如下。 倒也列举了一些情况,但是没有结合实际条款,比较空泛,也不知是否符合相关规定。 基于财务报表的财务指标提取 Prompt(主要):你是一位专业的财务数据分析师,负责从提供的已知的财务报表中抽取特定信息。你的任务是针对用户提出的问题,从财务报表中提取相关数据。最终问题是“截至2024年3月底,淘宝和天猫集团的调整后EBITA是多少?” 在prompt里,我们附加了输出结果需要遵守的“原则遵循”: 准确性:严格基于“财务报表”进行信息抽取,确保所有数据的准确无误。 完整性:如果“财务报表”中包含用户问题所需的所有数据,则提供完整的答案;如果缺少信息,则在相应的字段中留空。 输出格式:以JSON形式输出抽取的信息,确保易于阅读和理解。 以及这里附上和prompt一起喂过去的财务报表OCR文本。 Baichuan4-Finance的回答如下。 GPT-4o的回答如下。 这一局GPT虽然也给出了准确答案,但带了额外的文字总结;Baichuan4-Finance更符合“以JSON形式输出抽取的信息”这一约束条件。 综合所有测试结果来看(包括没有放进来的一些其它case),Baichuan4-Finance确实不容小觑,且稳定性很强。 行业首创领域自约束训练方案 接下来就是咱们的必问题环节,训出这么强的Baichuan4-Finance,百川是怎么做到的? 百川智能给出的答案是,拿训练阶段的三步走来说话。 哪三步? 训练数据准备——模型post-pretrain——模型微调。 (先预告下,其中的第二阶段含有一个非常妙的首创性策略) 阶段1:训练数据准备 第一阶段训练数据准备,又可细分成数据收集和数据处理两个步骤。 Baichuan4-Finance涵盖的数据集如表格所示,既包含核心专业金融知识数据,也覆盖了实践应用类数据,为提升模型金融能力提供了良好的底层支撑。 而且为了保证模型基础能力,团队特意在训练过程引入了更高精的通用数据混合训练,确保该模型既能理论扎实,又能实践过硬,不会只纸上谈兵。 值得一提的是,在数据收集阶段,百川在金融专家团队的专业指导下,构建了一个全面、严谨、高质量的金融领域训练数据体系。 数据框架设计:由专家团队规划整体数据架构,确保知识体系的完整性和专业性; 高质量数据圈定:依托专家团队的学术洞见,精准定位优质数据源; 专业数据标注:在专家团队指导下进行专业化标注,确保数据质量; 知识体系审核:由专家团队把控知识准确性,验证数据价值。 一整个就是「学术权威背书+体系化知识结构+严格的质量保障」,齐活了。 数据处理这一步,百川采用了智能数据去噪技术、高效数据去重机制、严格数据脱敏等,还建立了一套完整的数据处理体系。 展开来说,首先基于样本可读性、知识密度等多个维度对单个样本进行初步评分;其次,根据不同数据来源的特点,设定差异化的评估维度权重进行二次评分;最后,通过深度学习模型对多维度评分进行回归分析,得出样本的最终质量分。 这个体系不仅确保了训练数据的高质量,更通过创新的评估体系和配比优化系统,很好地支持了模型性能的卓越度。 阶段2:模型post-pretrain 第二阶段,来到了模型post-pretrain。 先敲黑板,在训练行业领域大模型时,业界目前的普遍做法是通用训练语料与领域数据相结合的CPT的训练方式。 这个训练方法可用,但伴随着2个关键挑战。 一是如何确定最优的数据混合比例,包括领域内不同类型数据的配比以及领域数据与通用数据的融合比例;二是如何选择合适的训练策略,在课程学习、固定配比训练以及结合退火实验等方案中找到最佳方案。 在大量实验后,百川发现传统固定配比的直接训练方式存在明显缺陷:随着训练的深入,模型的金融领域能力虽然不断提升,但通用能力却显著下降。 考虑到金融领域包含诸多不同场景,模型的泛化能力至关重要,因此百川为训练过程首提了一种创新性的策略—— 领域自约束的训练方案+“loss scaling law + metric scaling law”双重预测推演过程。 以此保证模型通用能力不下降,领域能力提升。 领域自约束的训练方案是啥?一种提升模型垂域泛化能力、又不降低通用能力的训练策略。 这么说吧,在模型CPT过程中,领域知识的直接引入会破坏原有base model的训练分布,因此直接基于领域数据或者混合通用领域这两种方案进行训练,必然会让通用能力下降。 于是,不想破坏通用能力的百川团队就提出了个新的训练方案,称之为“领域自约束”。 具体来说,是在基础领域模型训练过程中构建一个和基础模型同参且参数不更新的“reference model”,来指导模型训练的过程不要跑偏,从而达到「通用能力不降,领域能力稳定增长」的效果。
|
原创栏目
IT百科
网友评论
聚超值•精选