Skip to Main Content

Dcard Emotion Post in Chinese

无论时代如何变化,八卦和情感话题始终在人们的生活中扮演着不可或缺的角色。

Dcard是台湾的一个热门社区,包括板块和帖子。Dcard分为各种板块,如“情感”、“美容”、“心情”等。每个板块都有各种帖子,用户可以对它们进行回复。

我们从Dcard论坛收集了一些数据,并在LLama模型上进行了微调,以构建一个可以生成Dcard帖子的示例应用程序。(在线体验仅支持一次用户。如果不可用,请使用简化版本进行体验。)

在线体验

简化版在线体验

生成您的第一篇Dcard情感帖子

请打开在线体验页面,输入故事的开头,例如“女友生气了”。

Untitled

然后点击“生成”,模型将自动完成故事。如果您对故事情节不满意,可以随时停止生成,自己修改故事,然后继续生成。

Untitled

您可以自己想出一些故事开头,例如“停电,男友”、“昨天”、“最近学校里有一些谣言”等,模型将为您补充故事。

文本生成过程

以这个应用程序为例,让我们简要体验一下文本生成的过程。

文本生成的逻辑比较简单。输入故事的开头,例如“男友”、“女友”、“最近”等,然后点击下方的“生成”按钮开始生成。如果需要停止生成,点击“停止”按钮,并通过右侧的“max_new_tokens”控制最大生成长度。

Untitled

参数调整

您可以调整参数以使生成的结果不同。

切换到“参数”选项卡。

Untitled

通过调整这些参数,您可以控制生成文本的多样性。

参数的具体含义如下表所示。

参数功能说明
seed随机种子
temperature控制输出随机性的主要因素0 = 确定性(仅使用最可能的标记)
较高的值=更多的随机性
Top-P控制输出随机性的因素如果设置为float <1,则仅保留最可能标记的概率最小集,其总和达到Top-K或更高的生成
较高的值=更广泛的可能随机结果
Top-K控制输出随机性的因素从最可能的下一个单词列表中选择下一个单词。如果Top-K设置为10,则仅从最可能的10种可能性中选择。
typical_p控制输出随机性的因素当“typical_p”参数设置为小于1的值时,算法基于先前的文本内容选择出现频率高于随机标记的标记。这可以用于过滤掉一些不常见或不相关的标记,仅选择那些更有意义或相关的标记。当“typical_p”参数设置为1时,所有标记都会被选择,无论它们相对于随机标记的概率如何。
repetition_penalty控制输出重复的参数1表示没有惩罚
较高的值=较少的重复
较低的值=更多的重复
encoder_repetition_penalty影响生成文本与先前文本之间连贯性的参数1.0表示没有惩罚
值越高,越有可能保持与先前文本相关的上下文;
值越低,越有可能偏离与先前文本相关的上下文。
no_repeat_ngram_size控制生成文本中是否允许重复片段的参数较高的值将防止较长的短语在生成的文本中重复出现,使生成的文本更加多样化。
较低的值将防止单词或字母重复,使生成的文本更加独特。
min_length生成文本的最小长度