encoders ¶

Classes¶

fastvideo.configs.models.encoders.LingBotVideoQwen3VLTextConfig `dataclass` ¶

LingBotVideoQwen3VLTextConfig(arch_config: TextEncoderArchConfig = LingBotVideoQwen3VLTextArchConfig(), prefix: str = 'language_model', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, is_chat_model: bool = False, treat_empty_as_dot: bool = False, *, chat_template_enable_thinking: bool = False)

Bases: Qwen3TextConfig

FastVideo loader config for the LingBot-Video text-only Qwen3-VL path.

fastvideo.configs.models.encoders.Mistral3TextConfig `dataclass` ¶

Mistral3TextConfig(arch_config: TextEncoderArchConfig = Mistral3TextArchConfig(), prefix: str = 'mistral3', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, is_chat_model: bool = True, treat_empty_as_dot: bool = False, *, chat_template_enable_thinking: bool = False)

Bases: TextEncoderConfig

Top-level config for the Mistral3 full Flux2 text encoder.

fastvideo.configs.models.encoders.Qwen3TextConfig `dataclass` ¶

Qwen3TextConfig(arch_config: TextEncoderArchConfig = Qwen3TextArchConfig(), prefix: str = 'qwen3', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, is_chat_model: bool = True, treat_empty_as_dot: bool = False, *, chat_template_enable_thinking: bool = False)

Bases: TextEncoderConfig

Top-level config for Qwen3 text encoder.

fastvideo.configs.models.encoders.Reason1ArchConfig `dataclass` ¶

Reason1ArchConfig(stacked_params_mapping: list[tuple[str, str, str]] = list(), architectures: list[str] = (lambda: ['Qwen2_5_VLForConditionalGeneration'])(), _supported_attention_backends: tuple[AttentionBackendEnum, ...] = (FLASH_ATTN, TORCH_SDPA), output_hidden_states: bool = True, use_return_dict: bool = True, vocab_size: int = 152064, hidden_size: int = 3584, num_hidden_layers: int = 28, num_attention_heads: int = 28, pad_token_id: int = 151643, eos_token_id: int = 151645, text_len: int = 512, hidden_state_skip_layer: int = 0, decoder_start_token_id: int = 0, output_past: bool = True, scalable_attention: bool = True, tie_word_embeddings: bool = False, tokenizer_kwargs: dict[str, Any] = dict(), _fsdp_shard_conditions: list = (lambda: [_is_transformer_layer, _is_embeddings, _is_final_norm])(), require_processor: bool = False, model_type: str = 'qwen2_5_vl', num_key_value_heads: int = 4, intermediate_size: int = 18944, bos_token_id: int = 151643, image_token_id: int = 151655, video_token_id: int = 151656, vision_token_id: int = 151654, vision_start_token_id: int = 151652, vision_end_token_id: int = 151653, vision_config: dict[str, Any] | None = None, rope_theta: float = 1000000.0, rope_scaling: dict[str, Any] | None = (lambda: {'type': 'mrope', 'mrope_section': [16, 24, 24]})(), max_position_embeddings: int = 128000, max_window_layers: int = 28, embedding_concat_strategy: str = 'mean_pooling', n_layers_per_group: int = 5, num_embedding_padding_tokens: int = 512, attention_dropout: float = 0.0, hidden_act: str = 'silu', initializer_range: float = 0.02, rms_norm_eps: float = 1e-06, use_sliding_window: bool = False, sliding_window: int = 32768, use_cache: bool = False, torch_dtype: str = 'bfloat16', _attn_implementation: str = 'flash_attention_2')

Bases: TextEncoderArchConfig

Architecture settings (defaults match Qwen2.5-VL-7B-Instruct).

fastvideo.configs.models.encoders.Reason1Config `dataclass` ¶

Reason1Config(arch_config: Reason1ArchConfig = Reason1ArchConfig(), prefix: str = '', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, is_chat_model: bool = False, treat_empty_as_dot: bool = False, tokenizer_type: str = 'Qwen/Qwen2.5-VL-7B-Instruct', *, chat_template_enable_thinking: bool = False)

Bases: TextEncoderConfig

Reason1 text encoder config.

fastvideo.configs.models.encoders.SiglipVisionConfig `dataclass` ¶

SiglipVisionConfig(arch_config: ImageEncoderArchConfig = SiglipVisionArchConfig(), prefix: str = 'siglip', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, num_hidden_layers_override: int | None = None, require_post_norm: bool | None = None, enable_scale: bool = True, is_causal: bool = False)

Bases: ImageEncoderConfig

Configuration for SigLIP vision encoder.

fastvideo.configs.models.encoders.T5LargeConfig `dataclass` ¶

T5LargeConfig(arch_config: TextEncoderArchConfig = T5LargeArchConfig(), prefix: str = 't5', quant_config: QuantizationConfig | None = None, lora_config: Any | None = None, is_chat_model: bool = False, treat_empty_as_dot: bool = False, *, chat_template_enable_thinking: bool = False)

Bases: TextEncoderConfig

T5 Large configuration for your specific model.

encoders ¶

Classes¶

fastvideo.configs.models.encoders.LingBotVideoQwen3VLTextConfig dataclass ¶

fastvideo.configs.models.encoders.Mistral3TextConfig dataclass ¶

fastvideo.configs.models.encoders.Qwen3TextConfig dataclass ¶

fastvideo.configs.models.encoders.Reason1ArchConfig dataclass ¶

fastvideo.configs.models.encoders.Reason1Config dataclass ¶

fastvideo.configs.models.encoders.SiglipVisionConfig dataclass ¶

fastvideo.configs.models.encoders.T5LargeConfig dataclass ¶

fastvideo.configs.models.encoders.LingBotVideoQwen3VLTextConfig `dataclass` ¶

fastvideo.configs.models.encoders.Mistral3TextConfig `dataclass` ¶

fastvideo.configs.models.encoders.Qwen3TextConfig `dataclass` ¶

fastvideo.configs.models.encoders.Reason1ArchConfig `dataclass` ¶

fastvideo.configs.models.encoders.Reason1Config `dataclass` ¶

fastvideo.configs.models.encoders.SiglipVisionConfig `dataclass` ¶

fastvideo.configs.models.encoders.T5LargeConfig `dataclass` ¶