Dcard Emotion Post
時代如何改變,八卦和情感話題總是在人們的生活中扮演不可或缺的角色。
Dcard是臺灣的一個熱門社區,由各個版面和帖子組成。Dcard分為各種版面,如“情感”,“美容”,“心情”等。每個版面都有各種帖子,用戶可以回復它們。
我們從Dcard論壇收集了一些數據,並在LLama模型上進行了微調,以構建一個可以生成Dcard帖子的樣本應用程序。(在線體驗僅支持一個用戶,如果不可用,請使用簡化版本進行體驗。)
生成您的第一篇Dcard情感帖子
請打開在線體驗頁面,輸入故事的開始,例如“女友生氣了”。
然後點擊生成,模型將自動完成故事。如果您對故事情節不滿意,可以隨時停止生成,自己修改故事,然後繼續生成。
您可以自己想出一些故事開頭,例如“停電,男朋友”,“昨天”,“最近學校有一些謠言”等,模型將為您補充故事。
文本生成過程
以此應用程序為例,讓我們簡要體驗文本生成的過程。
文本生成的邏輯相對簡單。輸入故事的開始,例如“男朋友”,“女朋友”,“最近”,“...”,然後點擊下面的生成按鈕開始生成。如果需要停止生成,請點擊停止按鈕,通過右側的max_new_tokens控制最大生成長度。
參數調整
您可以調整參數以使生成的結果不同。
切換到參數選項卡。
通過調整這些參數,您可以控制生成文本的多樣性。
具體參數的含義如下表所示。
參數 | 功能 | 說明 |
---|---|---|
seed | 隨機種子 | |
temperature | 控制輸出的隨機性的主要因素 | 0 = 確定性(只使用最可能的令牌) 較高的值 = 更多的隨機性 |
Top-P | 控制輸出的隨機性的因素 | 如果設置為浮點數<1,則只保留最可能的令牌的最小概率集,其概率總和為Top-K或更高,以進行生成 較高的值 = 更廣泛的可能隨機結果範圍 |
Top-K | 控制輸出的隨機性的因素 | 從最可能的下一個單詞列表中選擇下一個單詞。如果Top-K設置為10,它只會從最可能的10個可能性中選擇。 |
typical_p | 控制輸出的隨機性的因素 | 當“typical_p”參數設置為小於1的值時,該算法基於先前的文本內容選擇出現比隨機令牌更多的令牌。這可以用於過濾掉一些不常見或不相關的令牌,僅選擇那些更有意義或相關的令牌。當“typical_p”參數設置為1時,所有令牌都被選擇,無論它們相對於隨機令牌的概率如何。 |
repetition_penalty | 控制輸出的重複性的參數 | 1表示沒有懲罰 較高的值 = 較少的重複 較低的值 = 較多的重複 |
encoder_repetition_penalty | 影響生成的文本與先前文本之間的連貫性的參數 | 1.0表示沒有懲罰 值越高,越有可能保持與先前文本相關的上下文; 值越低,越有可能偏離與先前文本相關的上下文。 |
no_repeat_ngram_size | 控制生成的文本中是否允許重複片段的參數 | 較高的值將防止較長的短語在生成的文本中反復出現,使生成的文本更多樣化。 較低的值將防止單詞或字母重複,使生成的文本更獨特。 |
min_length | 生成的文本的最小長度 |