基于最新 arXiv 研究,解释为什么长链思维在英文表现更强、在多语言场景掉队,并给出可落地的训练与评估路线。