Skip to Main Content

Dcard Emotion Post

時代如何改變,八卦和情感話題總是在人們的生活中扮演不可或缺的角色。

Dcard是臺灣的一個熱門社區,由各個版面和帖子組成。Dcard分為各種版面,如“情感”,“美容”,“心情”等。每個版面都有各種帖子,用戶可以回復它們。

我們從Dcard論壇收集了一些數據,並在LLama模型上進行了微調,以構建一個可以生成Dcard帖子的樣本應用程序。(在線體驗僅支持一個用戶,如果不可用,請使用簡化版本進行體驗。)

在線體驗

簡化版在線體驗

生成您的第一篇Dcard情感帖子

請打開在線體驗頁面,輸入故事的開始,例如“女友生氣了”。

Untitled

然後點擊生成,模型將自動完成故事。如果您對故事情節不滿意,可以隨時停止生成,自己修改故事,然後繼續生成。

Untitled

您可以自己想出一些故事開頭,例如“停電,男朋友”,“昨天”,“最近學校有一些謠言”等,模型將為您補充故事。

文本生成過程

以此應用程序為例,讓我們簡要體驗文本生成的過程。

文本生成的邏輯相對簡單。輸入故事的開始,例如“男朋友”,“女朋友”,“最近”,“...”,然後點擊下面的生成按鈕開始生成。如果需要停止生成,請點擊停止按鈕,通過右側的max_new_tokens控制最大生成長度。

Untitled

參數調整

您可以調整參數以使生成的結果不同。

切換到參數選項卡。

Untitled

通過調整這些參數,您可以控制生成文本的多樣性。

具體參數的含義如下表所示。

參數功能說明
seed隨機種子
temperature控制輸出的隨機性的主要因素0 = 確定性(只使用最可能的令牌)
較高的值 = 更多的隨機性
Top-P控制輸出的隨機性的因素如果設置為浮點數<1,則只保留最可能的令牌的最小概率集,其概率總和為Top-K或更高,以進行生成
較高的值 = 更廣泛的可能隨機結果範圍
Top-K控制輸出的隨機性的因素從最可能的下一個單詞列表中選擇下一個單詞。如果Top-K設置為10,它只會從最可能的10個可能性中選擇。
typical_p控制輸出的隨機性的因素當“typical_p”參數設置為小於1的值時,該算法基於先前的文本內容選擇出現比隨機令牌更多的令牌。這可以用於過濾掉一些不常見或不相關的令牌,僅選擇那些更有意義或相關的令牌。當“typical_p”參數設置為1時,所有令牌都被選擇,無論它們相對於隨機令牌的概率如何。
repetition_penalty控制輸出的重複性的參數1表示沒有懲罰
較高的值 = 較少的重複
較低的值 = 較多的重複
encoder_repetition_penalty影響生成的文本與先前文本之間的連貫性的參數1.0表示沒有懲罰
值越高,越有可能保持與先前文本相關的上下文;
值越低,越有可能偏離與先前文本相關的上下文。
no_repeat_ngram_size控制生成的文本中是否允許重複片段的參數較高的值將防止較長的短語在生成的文本中反復出現,使生成的文本更多樣化。
較低的值將防止單詞或字母重複,使生成的文本更獨特。
min_length生成的文本的最小長度