ltx2_audio_processing ¶

Audio preprocessing helpers for LTX-2 training.

Classes¶

fastvideo.models.audio.ltx2_audio_processing.AudioProcessor ¶

AudioProcessor(sample_rate: int, mel_bins: int, mel_hop_length: int, n_fft: int)

Bases: Module

Converts audio waveforms to log-mel spectrograms with resampling.

Source code in fastvideo/models/audio/ltx2_audio_processing.py

def __init__(
    self,
    sample_rate: int,
    mel_bins: int,
    mel_hop_length: int,
    n_fft: int,
) -> None:
    super().__init__()
    self.sample_rate = sample_rate
    self.mel_transform = torchaudio.transforms.MelSpectrogram(
        sample_rate=sample_rate,
        n_fft=n_fft,
        win_length=n_fft,
        hop_length=mel_hop_length,
        f_min=0.0,
        f_max=sample_rate / 2.0,
        n_mels=mel_bins,
        window_fn=torch.hann_window,
        center=True,
        pad_mode="reflect",
        power=1.0,
        mel_scale="slaney",
        norm="slaney",
    )