金色暗影 - 简书

IP属地：浙江

deepseek-r1是如何炼成的
近来，DeepSeek R1 一鸣惊人，迅速席卷各大平台，成为科技领域的热议焦点。从专业论坛到社交媒体，甚至那些原本与人工智能毫无交集的亲朋好友...

260 0 0
扩散模型原理解析
去年写的文章,从notion的博客搬到这边来发一下（本来想搬到微信公众号的，但是那个格式真的反人类就作罢了），原文请到这里看mewimpetus...

4288 0 1

深入理解横向联邦学习
联邦学习是Google在2017年提出来的，旨在在保护用户隐私的情况下使用用户更敏感的数据来训练机器学习模型。这种学习方式就是后来人们所谓的横向...

0.3 1928 0 1
深入理解TRPO和PPO算法
最近在整理电脑文件，看到一份当初给同事讲解TRPO算法原理时写的PPT，感觉要比先前那篇写的更加清楚明白，加之这几天刚好在复习RL相关的知识，然...

0.4 8719 2 2
关于网络游戏中的同步机制
当我们在做一些跟网络游戏相关的机器学习任务的时候，有时需要对整个游戏系统的运行机制有所了解才能更好的应对，对于网游而言，首当其冲的机制便是同步了...

0.3 1440 0 1
图神经网络是怎么炼成的：GNN基本原理简介
此文算是对Google Research这篇A Gentle Introduction to Graph Neural Networks[htt...

3.8 8763 4 21
SAC算法解析
上一篇文章介绍了利用确定策略来解决连续控制问题的DDPG，现在再来介绍一种非常牛的用随机策略来做连续控制的方法Soft Actor Critic...

11687 0 2

DDPG算法解析
直接看名字就能看出DDPG（Deep Deterministic Policy Gradient ）其实就是DPG（Deterministic ...

0.1 6312 0 2
TRPO算法解析
这俗话说的好呀，这饭要一口一口吃，酒要一口一口喝，路要一步一步走，步子迈大了，喀，容易扯到蛋。这训练模型呢，也是这个理，欲速则不达，收敛慢并不可...

3995 3 3