切片模型交叉驗證

🔬 切片模型交叉驗證 — 新細顆粒 prompt × 6 模型切同段(prof 8k)

推翻舊結論 + 驗證 #40 分層：
① gemini-2.5-flash 快 22 倍(76s vs deepseek 1680s)+細顆粒OK+無截斷——速度大勝。
② ⚠️ 但 Google 審查 NSFW：gemini-2.5-pro 被 content_filter 擋(成人)；flash 這次僥倖過但不保證穩定(Google 隨時擋/封 key)。deepseek(非Google)才安全。
③ deepseek 慢+截斷的根因=output太大(一步包出115 beats完整JSON含prompt)→正好驗證 #40 分層:LLM只出短結構→output小→deepseek也快+不截斷+安全。

模型	beats	coverage	截斷	時間	OK	結論
deepseek/deepseek-v3.2	115	1.0（incomplete=false，2/2 chunks 成功，0 failed）	否	1680s	✅	細顆粒OK：115 beats（遠超 80 細顆粒門檻）、18 影片 beat、coverage 完整無漏場景；唯 chunk1 首次 JSON 截斷報錯經內建 retry 救回，且耗時 28 分偏慢。
google/gemini-2.5-flash	70	1.0	否	76s	✅	細顆粒OK：exit 0、coverage=1.0、incomplete=False、2 chunks 全成功、70 beats 落在 40-80 細顆粒區間（19 影片 beat / 0 QTE），無截斷無漏場景。
google/gemini-2.5-pro	19	0.5 (chunks_failed=1/2, incomplete=true, 寫 .INCOMPLETE.json)	否	488s	❌	報錯：chunk 1(7470字)三次空回應，try2 finish=content_filter 被 Gemini 安全過濾擋掉；非長度截斷。僅 chunk 2 成功產 19 beats、coverage=0.5、exit 1 只寫 INCOMPLETE.json，正式檔未產出。reasoning 模型不適用此角色內容，建議改 gemini-2.5-flash。
x-ai/grok-2-1212		0.0 (incomplete=True, 2/2 chunks failed)	否	2s	❌	報錯：模型不存在。x-ai/grok-2-1212 已從 OpenRouter 下架（整個 grok-2 家族查無此模型），2/2 chunk 三次重試全 HTTP 404 Not Found，in=0/out=0，寫出 /tmp/xs_grok.json.INCOMPLETE.json（非正式檔）。非截斷、非切片品質問題——模型根本沒跑，無法評估顆粒度。需改用可用模型（如 deepseek/deepseek-v3.2 或 google/gemini-2.5-flash）；script header 亦註記 grok 歷史上「壓太兇漏場景」。
openai/gpt-4o		0.0 (incomplete，寫出 /tmp/xs_gpt4o.json.INCOMPLETE.json)	是	84s	❌	報錯+截斷：2/2段全失敗。chunk1首試finish=length截斷(7470字超出預設max_tokens)，重試6次全no_json(gpt-4o不穩遵守純JSON、out=16449 tokens卻無一可解析)。0 beats、coverage=0，script建議改非reasoning模型gemini-2.5-flash。gpt-4o不適用此切片任務。
anthropic/claude-3.7-sonnet		0.0 (寫出 /tmp/xs_claude.json.INCOMPLETE.json，2/2 段轉換失敗)	否	1s	❌	報錯：模型名不存在。OpenRouter 回 HTTP 404 "No endpoints found for anthropic/claude-3.7-sonnet"（2/2 chunk 各重試3次全 404），key 有效（已認證回 user_id），非截斷非 auth 問題——正確 slug 應為 anthropic/claude-3.7-sonnet:beta（OpenRouter 用 dash 不用 dot），故無 beats 可比顆粒度。

模型

beats

coverage

截斷

時間

結論

deepseek/deepseek-v3.2

115

1.0（incomplete=false，2/2 chunks 成功，0 failed）

否

1680s

✅

細顆粒OK：115 beats（遠超 80 細顆粒門檻）、18 影片 beat、coverage 完整無漏場景；唯 chunk1 首次 JSON 截斷報錯經內建 retry 救回，且耗時 28 分偏慢。

google/gemini-2.5-flash

1.0

否

76s

✅

細顆粒OK：exit 0、coverage=1.0、incomplete=False、2 chunks 全成功、70 beats 落在 40-80 細顆粒區間（19 影片 beat / 0 QTE），無截斷無漏場景。

google/gemini-2.5-pro

0.5 (chunks_failed=1/2, incomplete=true, 寫 .INCOMPLETE.json)

否

488s

❌

報錯：chunk 1(7470字)三次空回應，try2 finish=content_filter 被 Gemini 安全過濾擋掉；非長度截斷。僅 chunk 2 成功產 19 beats、coverage=0.5、exit 1 只寫 INCOMPLETE.json，正式檔未產出。reasoning 模型不適用此角色內容，建議改 gemini-2.5-flash。

x-ai/grok-2-1212

0.0 (incomplete=True, 2/2 chunks failed)

否

❌

報錯：模型不存在。x-ai/grok-2-1212 已從 OpenRouter 下架（整個 grok-2 家族查無此模型），2/2 chunk 三次重試全 HTTP 404 Not Found，in=0/out=0，寫出 /tmp/xs_grok.json.INCOMPLETE.json（非正式檔）。非截斷、非切片品質問題——模型根本沒跑，無法評估顆粒度。需改用可用模型（如 deepseek/deepseek-v3.2 或 google/gemini-2.5-flash）；script header 亦註記 grok 歷史上「壓太兇漏場景」。

openai/gpt-4o

0.0 (incomplete，寫出 /tmp/xs_gpt4o.json.INCOMPLETE.json)

是

84s

❌

報錯+截斷：2/2段全失敗。chunk1首試finish=length截斷(7470字超出預設max_tokens)，重試6次全no_json(gpt-4o不穩遵守純JSON、out=16449 tokens卻無一可解析)。0 beats、coverage=0，script建議改非reasoning模型gemini-2.5-flash。gpt-4o不適用此切片任務。

anthropic/claude-3.7-sonnet

0.0 (寫出 /tmp/xs_claude.json.INCOMPLETE.json，2/2 段轉換失敗)

否

❌

報錯：模型名不存在。OpenRouter 回 HTTP 404 "No endpoints found for anthropic/claude-3.7-sonnet"（2/2 chunk 各重試3次全 404），key 有效（已認證回 user_id），非截斷非 auth 問題——正確 slug 應為 anthropic/claude-3.7-sonnet:beta（OpenRouter 用 dash 不用 dot），故無 beats 可比顆粒度。

結論：不用 gemini(Google審查不可靠,pro已被擋)、gpt-4o(截斷+不遵守JSON)、grok-2(下架)、claude-3.7(名錯需:beta)。
deepseek-v3.2 + #40 分層架構(LLM只出短結構→快+不截斷)= 正解。細顆粒門檻:8000字應切40-80 beats(deepseek 115/gemini-flash 70 達標,gemini-pro 19 因被擋只切半)。

2026-06-05 · 切片交叉驗證 wd02zejph(6 agent)