Dcard Emotion Post in Chinese
无论时代如何变化,八卦和情感话题始终在人们的生活中扮演着不可或缺的角色。
Dcard是台湾的一个热门社区,包括板块和帖子。Dcard分为各种板块,如“情感”、“美容”、“心情”等。每个板块都有各种帖子,用户可以对它们进行回复。
我们从Dcard论坛收集了一些数据,并在LLama模型上进行了微调,以构建一个可以生成Dcard帖子的示例应用程序。(在线体验仅支持一次用户。如果不可用,请使用简化版本进行体验。)
生成您的第一篇Dcard情感帖子
请打开在线体验页面,输入故事的开头,例如“女友生气了”。
然后点击“生成”,模型将自动完成故事。如果您对故事情节不满意,可以随时停止生成,自己修改故事,然后继续生成。
您可以自己想出一些故事开头,例如“停电,男友”、“昨天”、“最近学校里有一些谣言”等,模型将为您补充故事。
文本生成过程
以这个应用程序为例,让我们简要体验一下文本生成的过程。
文本生成的逻辑比较简单。输入故事的开头,例如“男友”、“女友”、“最近”等,然后点击下方的“生成”按钮开始生成。如果需要停止生成,点击“停止”按钮,并通过右侧的“max_new_tokens”控制最大生成长度。
参数调整
您可以调整参数以使生成的结果不同。
切换到“参数”选项卡。
通过调整这些参数,您可以控制生成文本的多样性。
参数的具体含义如下表所示。
参数 | 功能 | 说明 |
---|---|---|
seed | 随机种子 | |
temperature | 控制输出随机性的主要因素 | 0 = 确定性(仅使用最可能的标记) 较高的值=更多的随机性 |
Top-P | 控制输出随机性的因素 | 如果设置为float <1,则仅保留最可能标记的概率最小集,其总和达到Top-K或更高的生成 较高的值=更广泛的可能随机结果 |
Top-K | 控制输出随机性的因素 | 从最可能的下一个单词列表中选择下一个单词。如果Top-K设置为10,则仅从最可能的10种可能性中选择。 |
typical_p | 控制输出随机性的因素 | 当“typical_p”参数设置为小于1的值时,算法基于先前的文本内容选择出现频率高于随机标记的标记。这可以用于过滤掉一些不常见或不相关的标记,仅选择那些更有意义或相关的标记。当“typical_p”参数设置为1时,所有标记都会被选择,无论它们相对于随机标记的概率如何。 |
repetition_penalty | 控制输出重复的参数 | 1表示没有惩罚 较高的值=较少的重复 较低的值=更多的重复 |
encoder_repetition_penalty | 影响生成文本与先前文本之间连贯性的参数 | 1.0表示没有惩罚 值越高,越有可能保持与先前文本相关的上下文; 值越低,越有可能偏离与先前文本相关的上下文。 |
no_repeat_ngram_size | 控制生成文本中是否允许重复片段的参数 | 较高的值将防止较长的短语在生成的文本中重复出现,使生成的文本更加多样化。 较低的值将防止单词或字母重复,使生成的文本更加独特。 |
min_length | 生成文本的最小长度 |