TODO
- [ ] 确定研究方向
- [ ] DINO相关(新且好,好落地)
- [ ] 多模态(我喜欢)
- [ ] 时序预测(感觉如果能用傅立叶啥的比较帅)
叙事方式: 直接余弦相似度不好→去掉RoPE 目标检测视角→点监督→区域生长法
进行中
grower从BFS改为二维高斯生长
使用RL筛选相关维度,看着挺有效的。但是遇到了几个问题:
- 对于桥梁、篮球场这些background,似乎无法用同一算法有效表达
- 是否要将原图也加入输出feature中? 答:不清楚
- RoPE对模型到底要不要加上 答:w+wo都要有
- 多尺度怎么做?
- 缩放到patch喂dino计算相似度做reward?
- 如果是few-shot该怎么做?
归档
根据cls筛选相关维度。
DINOwithoutRoPE.pptx