IP属地:贵州
transformer decoder里的K和V为什么要用encoder输出的K和Vimage.pngIn "encoder-decoder a...
2049 统计最高分的节点数目[https://leetcode-cn.com/problems/count-nodes-with-the-hi...
attention mask如何使用 attention_mask List[int] 0-mask,1-attentionforward(,a...
快速加 快速幂 二分图的最大匹配 一次A掉
双向模型只在encoder,不在decoder(前向预测)吗?类的继承github页面上传只有25M类的写法,其中继承自父类的构造方法写作 fo...
1.9.10号每日一题,好的优化时间养成的好习惯,使得没有被暴力卡住 一个班级里有 n 个学生,编号为 0 到 n - 1 。每个学生会依次回答...
思想没错,缺点是没有理解题意+数据结构模糊+没有预处理+取模和去除多余数 给你一个整数数组 nums 。如果 nums 的一个子集中,所有元素的...
动态规划,仅仅与上一状态有关的,可以滚动数组 滚动数组时,一般生成一个新的数组,当作新数组,因为记忆数组需要在外部设置全局变量去记忆,占用大量内...
代码写的乱,更容易被卡 思路:模拟栈,先把乘除计算完(合成数字),再算加减(需要做个逆序)超出时间限制因为使用sum(op_stack),所以要...