transformer decoder里的K和V为什么要用encoder输出的K和Vimage.pngIn "encoder-decoder attention" layer...
transformer decoder里的K和V为什么要用encoder输出的K和Vimage.pngIn "encoder-decoder attention" layer...
基本类型偏执 基本类型偏执(Primitive Obsession)使用基本类型而不是小对象来实现简单任务(例如货币、范围、电话号码字符串等)。使用常量编码信息(例如一个用于...
2049 统计最高分的节点数目[https://leetcode-cn.com/problems/count-nodes-with-the-highest-score/] 0...
attention mask如何使用 attention_mask List[int] 0-mask,1-attentionforward(,attention_mask,)...
快速加 快速幂 二分图的最大匹配 一次A掉
双向模型只在encoder,不在decoder(前向预测)吗?类的继承github页面上传只有25M类的写法,其中继承自父类的构造方法写作 forward方法继承自父类的fo...
1.9.10号每日一题,好的优化时间养成的好习惯,使得没有被暴力卡住 一个班级里有 n 个学生,编号为 0 到 n - 1 。每个学生会依次回答问题,编号为 0 的学生先回答...
思想没错,缺点是没有理解题意+数据结构模糊+没有预处理+取模和去除多余数 给你一个整数数组 nums 。如果 nums 的一个子集中,所有元素的乘积可以用若干个 互不相同的质...
动态规划,仅仅与上一状态有关的,可以滚动数组 滚动数组时,一般生成一个新的数组,当作新数组,因为记忆数组需要在外部设置全局变量去记忆,占用大量内存 一般的,记数问题都可以使用...
代码写的乱,更容易被卡 思路:模拟栈,先把乘除计算完(合成数字),再算加减(需要做个逆序)超出时间限制因为使用sum(op_stack),所以要加入-num_per,故导致负...
认识defaultdict: 当我使用普通的字典时,用法一般是dict={},添加元素的只需要dict[element] =value即,调用的时候也是如此,dict[ele...
11981. 最小化目标值与所选元素的差[https://leetcode-cn.com/problems/minimize-the-difference-between-t...
背包问题进阶版,商品可无限选择直至选择到某固定金额 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。计算并返回可以凑成总金额所需...
区间dp降低时间复杂度 给你一个字符串 s ,找出其中最长的回文子序列,并返回该序列的长度。子序列定义为:不改变剩余字符顺序的情况下,删除某些字符或者不删除任何字符形成的一个...
快速幂+贪心思想 p=x+y min(xy)R(x,y)=xy+v(p-x-y)易知(v,v)是R的最大值,而向x,y距离越远,xy值越小,多变量亦具有该性质 给你一个正整数...
近几天使用的进阶python语法 zip(*)将列转换为行,是二维数组转换为[(),(),()]形式。 set()增加元素使用add 列表由值找索引,使用index(valu...
给定一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标。 通过规范代码,可以使得相...
题编写一个高效的算法来判断 m x n 矩阵中,是否存在一个目标值。该矩阵具有如下特性:每行中的整数从左到右按升序排列。每行的第一个整数大于前一行的最后一个整数。 下面的题与...
输入一个链表的头节点,从尾到头反过来返回每个节点的值(用数组返回)。示例 1:输入:head = [1,3,2]输出:[2,3,1]