本篇内容主要为实习期间主要学习的几篇论文的笔记内容,在此留档,主要涉及舞蹈生成方向、音频生成等。
@huangEnhancingExpressivenessDance2024
- title:Enhancing Expressiveness in Dance Generation Via Integrating Frequency and Music Style Information 提高舞蹈动作的表现力
Abstract
- 提出了 ExpressiveBailando
- 针对流派匹配、节拍对齐、舞蹈动态三个方面,提出了衡量表现力 Expressiveness 的要素
- 流派/节拍:一个预先训练的音乐模型:Mert
- 动态表现:将频率信息纳入 VQ-VAE,Frequency Complemented VQ-VAE FreqVQ-VAE
Inroduction
- 流派/节拍:意味着舞蹈和音乐的和谐匹配程度
- 舞蹈动态相对抽象一点, 和表演方式、动作形式联系起来,主要与动作速度有关
Methods
这张架构图展示了 ExpressiveBailando 的总体结构,具体讲解如下:
整体概述
ExpressiveBailando 是一个用于生成高表现力舞蹈的系统。该系统利用音乐特征和舞蹈编码,通过频率补充 VQ-VAE(FreqVQ-VAE)和跨条件 GPT 生成舞蹈。
各部分的详细解释
-
音乐处理部分:
- MERT:预训练的音乐模型 MERT 用于提取音乐特征。这些特征包含丰富的音乐风格信息(如类型和节奏)。
- CONV:卷积层将 MERT 特征下采样。
- Handcrafted music features:手工制作的音乐特征,如 MFCC(梅尔频率倒谱系数),与 MERT 特征一起作为音乐条件输入。
-
舞蹈处理部分:
- Upper body FreqVQ-VAE Encoder:对上半身舞蹈序列进行编码,生成上半身姿态编码。
- Lower body FreqVQ-VAE Encoder:对下半身舞蹈序列进行编码,生成下半身姿态编码。
- Codebook Zu 和 Z:分别保存上半身和下半身的编码字典,每个条目代表一个有意义的舞蹈姿态。
-
跨条件 GPT:
- Positional Embedding:将上半身姿态编码、下半身姿态编码与音乐条件输入进行位置嵌入。
- Cross-Conditional GPT:根据输入的音乐和初始姿态编码生成未来的上半身和下半身姿态编码(au 和 al)。
- Top-1 Selection:选择最有可能的姿态编码。
-
解码部分:
- Upper body FreqVQ-VAE Decoder:根据上半身姿态编码生成上半身的舞蹈序列。
- Lower body FreqVQ-VAE Decoder:根据下半身姿态编码生成下半身的舞蹈序列。
- Future Dance:最终生成的 未来舞蹈序列,由上半身和下半身的舞蹈序列组成。
工作流程
- 音乐输入到 MERT,提取出音乐特征后通过卷积层下采样,与手工制作的音乐特征一起形成音乐条件输入。
- 舞蹈输入分别通过上半身和下半身的 FreqVQ-VAE 编码器,生成姿态编码。
- 将这些编码与音乐条件输入进行位置嵌入,然后输入跨条件 GPT,生成未来的上半身和下半身姿态编码。
- 根据生成的姿态编码,通过 FreqVQ-VAE 解码器生成未来的舞蹈序列。
目的
这种架构通过结合频率信息和音乐风格信息,改进了舞蹈的类型匹配、节奏对齐和舞蹈动态性,增强了生成舞蹈的表现力。
@liExploringMultiModalControl2024
- title:Exploring Multi-Modal Control in Music-Driven Dance Generation 舞蹈动作的多模态控制
Abstract
- 聚焦于生成过程中的输入信号控制
- 一个可以实现多模态控制的生成框架
- 控制和生成是分开的
- 对于不同类别的信号采取不同的策略
Inroduction
- 在同一个框架实现多模态控制:
- 风格控制
- 基于文本的语义控制
- 对于关键帧的动作控制
Methods
这张图展示了提出的方法的整体流程,分为预训练、协同训练和推理三个阶段。以下是每个阶段的详细解释:
预训练:VQ-VAE
- Motion VQ-VAE:
- 动作片段(Mm 和 Mt)被输入编码器,编码为离散的动作编码(Tokens)。
- 解码器将编码解码回原始舞蹈动作。
- 通过这种方式,所有动作片段被转换为离散的动作编码,这些编码表示共享的潜在空间。
协同训练:带控制模块的跨模态 GPT
-
Text2Motion GPT:
- CLIP:用于提取文本特征 T。
- T-Base:文本 Transformer 基础层,用于处理文本特征。
- Transformer Head Layer:与音乐到舞蹈 GPT 共享的头层。
- 训练目标:最大化数据分布的对数似然(Lrecon),以预测动作编码。
-
Music2Dance GPT:
- MLP:多层感知器,用于提取音乐特征 M。
- M-Base:音乐 Transformer 基础层,用于处理音乐特征。
- Transformer Head Layer:与 Text2Motion GPT 共享的头层。
- Genre Control:类型嵌入网络(GEN)和多类型判别器,用于实现类型控制。
- Mask Attention/Causal Attention:遮掩注意力/因果注意力机制,用于实现关键帧控制。
- 训练目标:多类型舞蹈判别器(Lgenre),确保生成的舞蹈符合给定的类型。
推理阶段:统一可控舞蹈生成框架
- 统一框架:
- Music:输入音乐,通过 MLP 提取音乐特征 M。
- Genre Control:通过 GEN 生成类型嵌入 G。
- 控制模块:
- M-Base:用于处理音乐特征。
- Text Control Module:处理文本特征并进行语义控制。
- Mask Attention/Causal Attention:实现关键帧控制或序列生成。
- Transformer Head Layer:共享的头层,用于处理特征并预测动作编码。
- Decoder:将预测的动作编码解码为舞蹈序列。
详细流程
-
预训练 Motion VQ-VAE:
- 将舞蹈动作编码为离散的动作编码,通过解码器重建舞蹈。
-
协同训练跨模态 GPT:
- Text2Motion GPT:使用 CLIP 提取文本特征,通过 T-Base 处理,并通过共享的 Transformer Head Layer 预测动作编码。
- Music2Dance GPT:使用 MLP 提取音乐特征,通过 M-Base 处理,并通过共享的 Transformer Head Layer 预测动作编码。
- 多模态控制:
- 文本控制:融合音乐和文本特征,实现语义控制。
- 类型控制:通过类型嵌入网络和判别器,实现类型控制。
- 关键帧控制:通过遮掩注意力机制,实现关键帧控制。
-
推理阶段:
- 输入音乐,通过 MLP 提取音乐特征。
- 通过类型嵌入网络生成类型嵌入。
- 控制模块处理音乐和文本特征,通过共享的 Transformer Head Layer 预测动作编码。
- 通过解码器将预测的动作编码解码为舞蹈序列。
这种方法通过解耦舞蹈生成和控制,确保了生成舞蹈的高质量,同时实现了多模态控制,包括类型控制、语义控制和关键帧控制。
liuLearningHierarchicalCrossModal2022
- Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation
Abstract
- 研究问题:根据语音生成一致的手势与动作
- 提出了 Hierarchical Audio-to-Gesture (HA2G) for co-speech gesture generation
- 用于生成协同语音手势的分层音频到手势 (HA2G)
- 制定基于音频文本对齐的对比学习策略,以获得更好的音频表示
Inroduction
- 动作和手势在语言交流传达意思中很重要
- 传统上,是将语音和动作一一对应下来,效果并不好,更好的是数据驱动的深度学习方法
- 两个观察结果:
- 1)不同类型的协同语音手势与不同级别的音频信息相关。例如,隐喻手势与高级语音语义密切相关(例如,在描绘峡谷时,人们会将两只伸出的手分开并说“间隙”),而节拍和音量等低级音频特征则与高级语音语义密切相关。到有节奏的手势。
- 2)不同人体部位在协同语音手势中的动态模式并不相同,例如灵活的手指和相对静止的上臂。因此,像以前的研究一样生成整个上半身姿势是不合适的
- 整个框架包括两个部分,Hierarchical Audio Learner, and the Hierarchical Pose Inferer. 分层音频学习器以及分层姿势推断器
- 分层音频学习器:提取分层音频特征并通过对比学习呈现判别性表示。 分层姿势推断器:学习多级特征和人体部位之间的关联。因此,人体姿势以级联方式生成。
Related Work
- Human-Centered Audio-Visual Learning:音频-视觉,主要局限在舞蹈生成、面部表情生成中,不如手势生成更复杂
- Human Motion Synthesis:人类动作合成:计算机图形学的重要课题
- Audio/Text-Driven Motion Generation:建议对文本、音频、说话者身份的三模态特征嵌入进行编码,并将它们连接在一起以传递解码器。…
Approach
这张流程图描述了一个语音驱动的手势生成框架。这个框架通过学习语音和手势之间的层次化关系来生成与语音同步的手势动作。流程图可以分为几个主要部分,每个部分执行不同的功能:
- Hierarchical Audio Learner(分层音频学习器):
- 输入语音(a)和文本(t)。
- 通过不同的神经网络层次来提取语音的不同层次的特征(低、中、高)。
- 这些特征用于正面和负面样本的对比学习,通过
L_multi
损失函数来优化。
- Hierarchical Pose Inferer(分层姿态推断器):
- 利用一个编码器
E_ID
,它接收视频帧(I)作为输入,提取与身份相关的特征(f_id)。 - 这些特征与从 Hierarchical Audio Learner 获得的音频特征一起,通过多个 GRU(门控循环单元)网络层来逐步预测姿态。
- 每个 GRU 层负责生成一组特定的姿态细节,这些层次结构预测从粗糙到细粒度的姿态。
- 使用 softmax 进行样式采样,以便选择特定的手势样式。
- 利用一个编码器
- 输出:
- 多个不同层次的预测手势((\hat{P}^1) 到 (\hat{P}^6))。
- 这些预测被一起优化,以减少与真实手势之间的差异,使用层次性 Huber 损失函数。
- 损失函数:
L_KLD
和L_style
用于控制生成的手势的多样性和风格。L_GAN
和L_phy
可能用于增强手势的自然性和物理合理性。
总体而言,该框架的目标是利用文本和语音输入来生成与之对应的、自然流畅的手势动作。这个过程涉及深度学习和神经网络,特别是对比学习和循环神经网络,以模拟人类的手势和动作。
tsengEDGEEditableDance2022
- EDGE: Editable Dance Generation From Music
Abstract
- 可编辑的舞蹈生成方法
- EDGE 使用基于 Transformer 的扩散模型,与强大的音乐特征提取器 Jukebox 配合使用,并赋予非常适合舞蹈的强大编辑功能,包括联合调节和中间处理。
Inroduction
- 先前研究
- 音乐生成舞蹈并不是很能让人满意
- 对生成舞蹈的评估往往是有缺陷的
- 根据输入音乐创建逼真、物理上合理的舞蹈动作
- 贡献:
- 基于 Diffusion 的 EDGE 方法
- 分析了以前工作的指标,表明不好
- 使用新颖的接触一致性损失来消除运动中的脚滑动物理不可信行,引入物理足接触分数
- 利用 Jukebox 的音频特征提取
Related Work
- 动作生成
- 早期属于运动匹配的范畴,插值进行操作
- 深度学习领域,往往会忽略了物理上的真实性
- 舞蹈生成
- 遵循动作检索范例
- 在大量数据集训练
- 我们提出一个简单目标训练的单一模型
- 生成扩散模型
- 生成建模的有效途径
- 生成以文本为条件的运动方面
- 以音乐为条件,难度更大
Method
- 姿势的建摸:24 个关节,每个关节 6 个自由度,和单独的脚步的建模 24* 6+3=147,每只脚,2 个接触标签,共 151 维度
- 扩散框架:
- 辅助损失,四种
- 编辑功能, 固定部分帧,推理其他帧
tsengMusictoDancePoseLearning2024a
- Music-to-Dance Poses: Learning to Retrieve Dance Poses from Music 从音乐中检索舞蹈
Abstract
🔤EDSA 适配器是一种利用编码器-解码器转换的自注意力适配器,可以有效且高效地对大规模预训练音乐模型进行微调,以学习从音乐片段到 3D 人体姿势和形状的投影。🔤
- EDSA 适配器,利用编码器-解码器转换的子注意力适配器,用于微调模型
- 将预训练的大规模音乐模型微调为能够将音乐片段投影到3D 人体姿态和形状参数上的模型
Inroduction
没有将其看作生成任务,而是看作跨模态的检索任务,输入上一刻动作输出下一刻
将预训练的大规模音乐模型微调为能够将音乐片段投影到3D 人体姿态和形状参数上的模型
EDSA 适配器,利用编码器-解码器转换的子注意力适配器,用于微调模型
相当于直接打通了音乐->动作的过程
Methods
xieEnhancingAudioGeneration2024
- Enhancing Audio Generation Diversity with Visual Information利用视觉信息增强音频生成的多样性
Abstract
- 利用视觉信息 指导音频内容的生成
Inroduction
- 由文本生成音频引入,TTA
- DCASE2023 task7 [1] provides a dataset for categorybased audio generation
- 问题:训练集的音频比模型生成的更多样,原因是更多隐式的特征无法被学习
- how
- 对训练集音频采用无监督聚类方法,得到更细致的分类
- 为体现 audio-vision 对齐,对其对细致的分类使用互联网上的图像,共同输入进模型
- 提出了一个新的框架
- 训练过程: 基于训练集无监督聚类,之后自行添加图片作为输入,将 label 和 image 进行 fusion 得到新的输入,然后将对应的音频经过编码器得到了 audio representation, 模型主要学习如何从融合输入预测 represention。此外,需要用训练集音频训练Vocoder
- 推理过程,新的融合信息,进入模型得到对应的 represention,然后经过 decoder 得到频谱,然后进入 vocoder 得到音频
Methods
Modal Fusion
Music Representations
- VAE
- VQ-VAE
- (所以原理是什么?)
Token Prediction
- 基于自回归的(transformer
- 基于扩散的 LDM
Experimental
- 两种框架
- VAE&LDM
- VQ-VAE&Transformer
Results and discussions
- 评价指标
- 客观
- Quality: FAD,和参考样本的对比
- Diversity: Mean Squared Distance 均方距离
- 主观(评测)
- 客观
Conclusions
- 基于视觉信息,增强音频生成的质量和多样性
Summary
- 视觉->听觉
- 单纯基于图片生成音频?
- 基于视频生成背景音乐?
zhuHumanMotionGeneration2023
- Human Motion Generation: A Survey 综述
Abstract
研究范围:基于条件信号(文本、音频、场景)生成人体运动
该领域的首次综述
Inroduction
- 生成方法:自回归模型、变分自编码器 (VAE) 、归一化流 、生成对抗网络 (GAN) 和去噪扩散概率模型 (DDPM)
- 建模技术的进步,使得数据集收集更加方便
- 三个问题(挑战)
- 动作本身是复杂、非线性的,运动机理复杂,视觉上合理性
- 要和条件信息相符合一致
- 注意一些潜在反应内容的因素
- 章节section梗概
- 2 介绍范围
- 3 基础知识介绍
- 4-6 介绍总结方法
Preliminaries 预备知识
- Motion Data Representation
- 基于关节
- 基于旋转
- SMPL
- Motion Data Collection
- 基于标记的
- 光学标记
- 传感器标记(动捕)
- 不基于标记的
- 借助计算机视觉算法
- 伪标记
- 通过 estimator 估计后生成
- 手动打标
- 类似 mmd 的原理
- 基于标记的
- Motion Generation Methods
- 基于回归模型的
- 监督学习,从给定条件信号构建目标生成动作
- 基于生成模型的
- Generativa Adversarial Networks 生成对抗网络
- Variational Autoencoders 变分自动编码器
- Normalizing Flows 归一化流
- Diffusion Models 扩散模型
- Motion Graph 运动图
- 基于回归模型的
Methods
- Text-Conditioned Motion Generation
- Action to Motion
- 根据特定的动作类别生成人体动作
- 往往擅长但动作的运动,多动作复杂序列比较困难
- Text to Motion
- 根据不同的文本描述到更广泛的动作
- Action to Motion
- Audio-Conditioned Motion Generation
- music to dance
- 一种方法是直接基于全监督的回归模型,但是多样性缺乏
- 基于生成模型的方法,GAN/diffuion/VAE/运动图
- 长时间序列的舞蹈动作生成
- Speech to gesture
- 根据语音音频生成上班深动作,聚焦于人的手势,在交流中发挥重要作用
- 言语手势存在显著人际差异,没有较好的普遍性
- music to dance
- Scene-Conditioned Motion Generation
- 生成于场景上下文一致的合理人体运动,是计算机图形学和计算机诗句恶的长期存在的问题。
- 除去动态动作,还包括静态姿势