OpenAI王炸第二弹强化微调：12个例子惩处专科学习推理，Altman称为本年最大惊喜

　　起首：华尔街见闻

　　OpenAI推敲员演示，强化微调后的o1 mini测试通过率致使比郑再版o1高24%，比未强化微调的o1 mini普及了82%。

　　OpenAI畅达12天“王炸”的第二弹来了。不同于第一日聚焦东谈主工智能（AI）模子，第二日的王炸专注于就业企业等组织的一款新功能，固然看起来不太侧重于浅近消耗者，但据先容它致使不错绵薄版推理模子o1 mini的成果跨越本周四发布的郑再版o1、即所谓满血o1。

　　好意思东时刻12月6日周五，OpenAI在外交媒体X公布第二日举止的主题是新功能“强化微调”（Reinforcement Fine-Tuning）。这个主题是指，企业组织将概况通过“强化微调”微调o1 mini，感奋他们的特定需求。

　　OpenAI CEO Sam Altman在X发帖称，强化微调的成果相称棒，是他本年最大的惊喜之一，期待看到全国利用这种功能的创造。

　　OpenAI的推敲员本周五先容，科学家、开发东谈主员和推敲东谈主员不错字据我方的数据、而不是只是使用公开可用的数据，量身定制OpenAI的宽阔推理模子o1。不同业业的东谈主不错使用强化学习来创建基于 o1 的内行模子，从而普及该限度的全体专科常识水平。开发者、推敲者和机器学习工程师将初次能愚弄强化学习，打造在明慧他们各自专科限度的内行模子。

　　OpenAI的推敲员称，强化微调并不是单单教模子模子输出，它的运作样子是，当模子发现一个问题的时候，推敲者给模子空间区仔细想考这个问题，然后评估模子给出的最终解答，愚弄强化学习，推敲者不错强化产生正确谜底的想路，阻扰产生失实谜底的想路，只需要“几十个例子”（a few dozen examples）、致使12个例子，模子就能以灵验的新样子学习特定限度的推理。

　　通过强化学习，用户不错用大模子在特定数据上磨真金不怕火其他模子。这关于触及到多数数据的复杂限度或需要内行限度常识的新推敲相称有用。推敲者例如称，最近和汤森路透互助，愚弄强化微调微调o1 mini，让充任法务助理，匡助他们的法律专科东谈主士完成大部分分析使命流。

　　OpenAI称，OpenAI的定制模子平台将补助强化学习，强化学习亦然OpenAI里面用于磨真金不怕火自家前沿模子的工夫，如GPT-4o和o1系列模子。在OpenAi的内测中，强化微调一经在生升天学、安全、法律和医疗保健限度取得顺利。OpenAI绸缪，2025年头让强化微调面向公众发布，现时已对企业、大学和推敲院盛开央求测试通谈。

　　伯克利大学凄迷遗传病推敲员 Justin Reese参与了OpenAI本周五对o1 mini模子的现场演示。演示中，推敲者试图从样本数据池中赢得可能导致疾病的模子 ID 基因。

　　推敲员展示了一个评估表，下图可见，第一排是本周四OpenAI发布的郑再版o1测评弘扬，第二行是o1 mini的测评兑现，第三行兑现来自过程最终强化微调的o1 mini。推敲员进行了三类评估，其中，top @1是测试模子给出的正确谜底出现时哨表最前哨中的概率，top@5是正确谜底出现时前五列的概率，top@max是谜底出现时通盘正确谜底列表的概率。

　　如图所示，郑再版o1的测试通过率为25%，o1 mini为17%，而强化微调后的o1 mini的确达到31%，跨越了郑再版o1，比郑再版o1的测评兑现高24%，并且比拟未强化微调前，微调后的兑现普及了82.3%。

　　据OpenAI所说，用户不错轮廓愚弄o1、微长入数据创建定制的微型 o1模子 o1 mini。用户要作念的便是提供数据，然后在强化微调方面，劝诱一个数据集和一个“评分器”，字据磨真金不怕火和考据数据集评估模子的性能，其他使命交给OpenAI。

　　风险提醒及免责条件

　　市集有风险，投资需严慎。本文不组成个东谈主投资冷落，也未接洽到个别用户非凡的投资筹谋、财务状态或需要。用户应试虑本文中的任何看法、不雅点或论断是否适合其特定状态。据此投资，包袱逍遥。

海量资讯、精确解读，尽在新浪财经APP

包袱剪辑：陈钰嘉

让建站和SEO变得简单

OpenAI王炸第二弹强化微调：12个例子惩处专科学习推理，Altman称为本年最大惊喜