よくある質問

現在、モデルは機能に基づいて3つのカテゴリに分類されます。テキストモデル、画像モデル、音声モデルで、それぞれテキスト、視覚、聴覚コンテンツを生成します。

モデル間の違いは、その重みとネットワーク構造にあります。同じネットワーク構造を持つ2つのモデルが異なる重みを持つ場合、それらは同じベースモデルに属します。LoRAのような軽量ファインチューニングモデルの場合、同じベースモデル内でのみ互換性があります。

モデルのパフォーマンスを表示するために、モデルのプレビュー結果をアップロードする必要があります。

stable-diffusion-webuiを使用する場合、生成された画像には、画像を生成するために使用されたパラメータに関するメタデータが含まれます。

生成されたテキストのスクリーンショットをアップロードする必要があります。OCRを使用してテキストに変換します。ただし、テキストに干渉する画像に他の情報が含まれている場合、結果は正確ではなく、手動で入力する必要がある場合があります。

生成された音声ファイルをアップロードする必要があります。