Memory Networks

传统的机器学习模型都没有记忆模块，像RNN这样的模型虽然有一定的记忆能力，但是长期记忆能力仍然很弱

Memory networks首次提出了具有记忆模块的模型

该模型的记忆模块$m$类似于计算机内存，是一个由$m_i$索引的数组

模型由$I,G,O,R$四个部分组成：

显然这样的模型难以端到端训练

End-to-End Memory networks

这篇论文对Memory Network进行了End-to-End拓展

以QA为例，设记忆模块中存储了知识集合${x_i}$，$q,a$分别是提问和回答，每个$x_i,q,a$都由大小为$V$的字典中的词组成

模型首先通过模块$A$将原始记忆${x_i}$转换为记忆表示${m_i}$，通过模块$B$将提问$q$转换为嵌入向量$u$，于是知识抽取的权重为

$p_i=softmax(u^Tm_i)$

之后模型通过模块$C$将${x_i}$转换为另一记忆表示${c_i}$，并通过加权和得到记忆抽取结果

$o=\sum_ip_ic_i$

最终输出通过同时处理$q$和提取的记忆$o$得到

$a=softmax(W(o+u))$

整个模型其实可以看做具有显式记忆存储的attention

memory_network