我觉得是一件非常好的事情,在如今Transformer的autoregressive范式盛行的大背景下,能够有一些non-autoregressive的alternatives来作为竞品,应该是大家喜闻乐见的事。 我们知道现在主流的LLM都是autoregressively地生成token——也就是说只能根据上文信息预测下文。这样的 ...