九游·体育(NineGameSports)官方网站-数智体育价值引领者

人工智能-2024年2月深度学习的论文推荐-deephub-SegmentFault思否-九游·体育科技集团
i1pcban.jpg i1pcban.jpg

新闻九游

人工智能-2024年2月深度学习的论文推荐-deephub-SegmentFault思否

2024-11-10 

分享到

  Searchformer是一个基于Transformer架构的人工智能模型,经过训练可以模拟A星寻路算法,在复杂的规划任务中实现更高的效率。它在Sokoban谜题中的表现优于A星,解决问题的准确率为93.7%,所需步骤减少26.8%。

  LongRoPE使用位置插值将上下文窗口从256k扩展到2048k。论文在在不同llm和各种长上下文任务中进行的大量实验强调了LongRoPE的有效性。它在4k到2048k的评估长度范围内保持了较低的困惑度,实现了超过90%的passkey检索精度,并在4096上下文窗口内设计的标准基准测试中提供了相当的精度。LongRoPE可以应用于任何基于RoPE嵌入的llm。

  在RL代理之间转移专业知识已被证明是相当困难的。这项工作优化了一套与环境无关的技术,SSO的其泛化性能非常有前途。

  论文提出了一种新的微调方法,称为Self-Play Fine-Tuning(SPIN),它从监九游智能体育科技督微调模型开始。SPIN的核心是一种自我游戏机制,LLM通过对抗自身实例来完善自己的能力。LLM从之前的迭代中生成训练数据,通过识别这些自生成的响应和从人类注释数据中获得的响应来改进策略。

  “Box o Flows”通过引入一个独特的实验系统,在动态的现实环境中测试强化学习(RL)算法,解决了为强化学习(RL)应用程序复制复杂流体动力学的困难。它展示了无模型强化学习算法如何从简单的奖励中产生复杂的行为,通过离线强化学习提高数据效率,并为在复杂系统中更广泛地使用强化学习打开了大门。

  模型使用ring attention和经过微调优化的7B个参数模型。它在检索基准上的表现异常准确,优于商用vlm。

  使用扩散模型来创建一种新的视频压缩技术,该技术可以在低数据速率下产生高质量的视频帧。

  研究人员提出了一种新的图像分割方法,该方法仅使用简单的图像标签来识别图像的特定部分,例如狗。通过弱监督九游智能体育科技实例分割,不仅提高了效率,降低了错误率,还克服了网络识别同一物体多次出现的困难。