240 发简信
IP属地:山东
  • Resize,w 360,h 240
    deepseek-r1是如何炼成的

    近来,DeepSeek R1 一鸣惊人,迅速席卷各大平台,成为科技领域的热议焦点。从专业论坛到社交媒体,甚至那些原本与人工智能毫无交集的亲朋好友...

  • Resize,w 360,h 240
    扩散模型原理解析

    去年写的文章,从notion的博客搬到这边来发一下(本来想搬到微信公众号的,但是那个格式真的反人类就作罢了),原文请到这里看mewimpetus...

  • Resize,w 360,h 240
    深入理解横向联邦学习

    联邦学习是Google在2017年提出来的,旨在在保护用户隐私的情况下使用用户更敏感的数据来训练机器学习模型。这种学习方式就是后来人们所谓的横向...

  • Resize,w 360,h 240
    深入理解TRPO和PPO算法

    最近在整理电脑文件,看到一份当初给同事讲解TRPO算法原理时写的PPT,感觉要比先前那篇写的更加清楚明白,加之这几天刚好在复习RL相关的知识,然...

  • Resize,w 360,h 240
    关于网络游戏中的同步机制

    当我们在做一些跟网络游戏相关的机器学习任务的时候,有时需要对整个游戏系统的运行机制有所了解才能更好的应对,对于网游而言,首当其冲的机制便是同步了...

  • Resize,w 360,h 240
    图神经网络是怎么炼成的:GNN基本原理简介

    此文算是对Google Research这篇A Gentle Introduction to Graph Neural Networks[htt...

    3.8 8554 4 21
  • Resize,w 360,h 240
    SAC算法解析

    上一篇文章介绍了利用确定策略来解决连续控制问题的DDPG,现在再来介绍一种非常牛的用随机策略来做连续控制的方法Soft Actor Critic...

  • Resize,w 360,h 240
    DDPG算法解析

    直接看名字就能看出DDPG(Deep Deterministic Policy Gradient )其实就是DPG(Deterministic ...

  • Resize,w 360,h 240
    TRPO算法解析

    这俗话说的好呀,这饭要一口一口吃,酒要一口一口喝,路要一步一步走,步子迈大了,喀,容易扯到蛋。这训练模型呢,也是这个理,欲速则不达,收敛慢并不可...

个人介绍
找一个秋山澪这样的女朋友。