赛事介绍
在当下大数据、大模型时代,大数据是驱动大模型的能源。当前大模型的训练数据绝大部分来源于互联网上的信息,但随着大模型尺寸与性能逐渐提升,互联网上的海量数据也将逐渐使用殆尽,并且对于多模态大模型来说,这些海量资源在获取后,也需要极大的额外处理和人力标注才可以达到可用于训练大模型的水准。因此,如何借助已有的强大的大模型,在有限的计算资源下为新的模型训练流程高效合成优质的训练数据成为了一个新兴的值得关注的问题。“天池 Better Synth - 多模态大模型数据合成挑战赛”正是在这样的背景下产生,该比赛旨在鼓励参赛者探究合成数据对于多模态大模型训练的影响,以及促使参赛者追求高效的数据合成方法与策略,共同推进多模态大模型数据合成从 0-1 以及从 1-100 的前沿创新探索。
- 背景:当今时代,训练大模型对训练数据的要求越来越高,互联网上的数据难以满足更多要求,如何合成新的数据成为一个新的值得关注的问题。
- 任务描述:基于提供的种子数据集,进行一系列数据合成与清洗,得到更高质量、更多样性的新的数据集
- 评测方式:利用主办方提供的开发套件,在新的数据集进行同样框架及参数设置的训练,对比数据导致的性能差异
- 相关技术:
- Data-Juicer: 是一个集成了数据分析和可视化工具的一站式大模型数据处理系统,参赛者使用 data-juicer 来辅助数据分析、筛选和生成
- Mini-Gemini 一个轻量级多模态模型,详见 Gemini
实验环境准备
以下内容主要基于 Datawhale 提供的入门文档,详见从零入门多模态大模型数据合成
设备选择
由于本赛事需要大量算力,这里使用 AutoDL 平台租用计算资源。具体不作赘述。
需要注意的是,Datawhale 提供了该赛事对应的环境镜像,省去了相关开发套件及 conda 环境的配置,所以需按照教程选择一致的设备配置,具体见下图。
环境配置
完成租用实例后,我们开机操作终端完成后续的配置操作。(这里不涉及模型训练及推理本身,建议使用无卡模式开机)。
之后操作均在终端中实现,具体代码及解释如下:
1 | ## 安装必要工具 |
以上过程大概总共花费半小时左右,至此环境配置完成,下面是实验内容的开始,包括数据处理及模型训练推理。
实验内容
数据处理和合成
完成环境配置后,切换开机模式至有卡模式,开始前确认配置没问题并进入对应文件路径,运行如下命令
1 | dj-process --config solution/image_captioning.yaml |
模型训练和推理测评
1 | cd toolkit/training |
问题出现
在模型推理过程中,出现报错信息
1 | OSError: /root/autodl-tmp/better_synth_challenge_baseline/toolkit/eval/../../output/training_dirs/MGM-2B-Finetune-default does not appear to have a file named config.json. |
根据文档内容描述,主要由于显卡/内存不够,按照文档说明修改了模型训练推理的脚本,并且扩容了数据盘后,但是没有效果。目前问题还未解决。