下图显示,WizardMath 在 GSM8k 基准测试中获得第五名,超过了 Claude Instant 1(81.6 vs. 80.9)、ChatGPT(81.6 vs. 80.8)和 PaLM 2 540B(81.6 vs. 80.7)。值得注意的是,与这些模型相比,WizardMath 模型的尺寸要小得多。
如图 2 所示(见上文),WizardMath 目前在所有模型上排名前五。同时,WizardMath 70B 在 MATH 上也超越了 Text-davinci-002 。详细结果如下:
WizardMath 13B 在 GSM8k 上优于 PaLM 1 540B(63.9 vs 56.5)、Minerva 540B(63.9 vs 58.8)和 GPT-3.5(63.9 vs 57.1)。同时,它在 MATH 上超越了 PaLM 1 540B(14.0 vs. 8.8)、GPT-3 175B(14.0 vs. 5.2)。
WizardMath 70B 在 GSM8k 上实现了与 Claude Instant(81.6 vs 80.9)、ChatGPT(81.6 vs 80.8)和 PaLM 2(81.6 vs 80.7)更好或相当的性能。同时,WizardMath 70B 在 MATH 基准测试中也超过了 Text-davinci-002(22.7 比 19.1)。
与开源模型的比较。表 1 中所示的结果表明,WizardMath 70B 在 GSM8k 和 MATH 基准测试中明显优于所有开源模型。详细结果如下: