如何从NumPy直接创建RNN?

 日本avi     |      2020-10-16 17:14
\u003cp>木易 发自 凹非寺\u003c/p>\u003cp>行使成熟的Tensorflow、PyTorch框架往实现递归神经网络(RNN),已经极大降矮了技术的行使门槛。\u003c/p>\u003cp>但是,对于初学者,这照样远远不足的。知其然,更需知其以是然。\u003c/p>\u003cp class="textAlignCenter">\u003cimg src="https://x0.ifengimg.com/res/2020/F19BCF5C1CFCA8D4B7F1D464830AB92FBE4EF77B_size68_w1080_h770.jpeg" />\u003c/p>\u003cp>要避免矮级舛讹,打益理论基础,然后行使RNN往解决更众实际的题目的话。\u003c/p>\u003cp>那么,有一个乐趣的题目能够思考一下:\u003c/p>\u003cp>不行使Tensorflow等框架,只有Numpy的话,你该如何构建RNN?\u003c/p>\u003cp>异国头绪也不必不安。这边便有一项教程:行使Numpy从头构建用于NLP周围的RNN。\u003c/p>\u003cp>能够带你走进一遍RNN的构建流程。\u003c/p>\u003cp>初起化参数\u003c/p>\u003cp>与传统的神经网络分别,RNN具有3个权重参数,即:\u003c/p>\u003cp>输入权重(input weights),内部状态权重(internal state weights)和输出权重(output weights)\u003c/p>\u003cp>最先用随机数值初起化上述三个参数。\u003c/p>\u003cp>之后,将词嵌入维度(word_embedding dimension)和输出维度(output dimension)别离初起化为100和80。\u003c/p>\u003cp>输出维度是词汇外中存在的唯一词向量的总数。\u003c/p>\u003cp>\u003ccode>hidden_dim = 100\u003c/code>\u003c/p>\u003cp>\u003ccode>output_dim = 80 # this is the total unique words in the vocabulary\u003c/code>\u003c/p>\u003cp>\u003ccode>input_weights = np.random.uniform(0, 1, (hidden_dim,hidden_dim))\u003c/code>\u003c/p>\u003cp>\u003ccode>internal_state_weights = np.random.uniform(0,1, (hidden_dim, hidden_dim))\u003c/code>\u003c/p>\u003cp>\u003ccode>output_weights = np.random.uniform(0,1, (output_dim,hidden_dim))\u003c/code>\u003c/p>\u003cp>变量prev_memory指的是internal_state(这些是先前序列的内存)。\u003c/p>\u003cp>其他参数也给予了初起化数值。\u003c/p>\u003cp>input_weight梯度,internal_state_weight梯度和output_weight梯度别离命名为dU,dW和dV。\u003c/p>\u003cp>变量bptt_truncate外示网络在逆向传播时必须回溯的时间戳数,如许做是为了克服梯度湮灭的题目。\u003c/p>\u003cp>\u003ccode>prev_memory = np.zeros((hidden_dim,1))\u003c/code>\u003c/p>\u003cp>\u003ccode>learning_rate = 0.0001\u003c/code>\u003c/p>\u003cp>\u003ccode>nepoch = 25\u003c/code>\u003c/p>\u003cp>\u003ccode>T = 4 # length of sequence\u003c/code>\u003c/p>\u003cp>\u003ccode>bptt_truncate = 2\u003c/code>\u003c/p>\u003cp>\u003ccode>dU = np.zeros(input_weights.shape)\u003c/code>\u003c/p>\u003cp>\u003ccode>dV = np.zeros(output_weights.shape)\u003c/code>\u003c/p>\u003cp>\u003ccode>dW = np.zeros(internal_state_weights.shape)\u003c/code>\u003c/p>\u003cp>前向传播\u003c/p>\u003cp>输出和输入向量\u003c/p>\u003cp>例如有一句话为:\u003cstrong>I like to play.\u003c/strong>,则倘若在词汇外中:\u003c/p>\u003cp>I被映射到索引2,like对答索引45,to对答索引10、\u003cstrong>**对答索引64而标点符号\u003c/strong>.** 对答索引1。\u003c/p>\u003cp>为了展现从输入到输出的情况,吾们先随机初起化每个单词的词嵌入。\u003c/p>\u003cp>\u003ccode>input_string = [2,45,10,65]\u003c/code>\u003c/p>\u003cp>\u003ccode>embeddings = [] # this is the sentence embedding list that contains the embeddings for each word\u003c/code>\u003c/p>\u003cp>\u003ccode>for i in range(0,T):\u003c/code>\u003c/p>\u003cp>\u003ccode>x = np.random.randn(hidden_dim,1)\u003c/code>\u003c/p>\u003cp>\u003ccode>embeddings.append(x)\u003c/code>\u003c/p>\u003cp>输入已经完善,接下来必要考虑输出。\u003c/p>\u003cp>在本项现在中,RNN单元批准输入后,输出的是下一个最能够展现的单词。\u003c/p>\u003cp>用于训练RNN,在给定第t+1个词行为输出的时候将第t个词行为输入,例如:在RNN单元输出字为“like”的时候给定的输入字为“I”.\u003c/p>\u003cp>现在输入是嵌入向量的形态,而计算亏损函数(Loss)所需的输出格式是\u003cstrong>独炎编码\u003c/strong>(One-Hot)矢量。\u003c/p>\u003cp>这是对输入字符串中除第一个单词以外的每个单词进走的操作,由于该神经网络学习只学习的是一个示例句子,而初起输入是该句子的第一个单词。\u003c/p>\u003cp>RNN的暗箱计算\u003c/p>\u003cp>现在有了权重参数,也清新输入和输出,于是能够开起前向传播的计算。\u003c/p>\u003cp>训练神经网络必要以下计算:\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/A40635511D0D693026F0FEDB9D1C911A4E2B37E7_size7_w300_h155.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:51.66666666666667%;" />\u003c/p>\u003cp>其中:\u003c/p>\u003cp>\u003cstrong>U\u003c/strong>代外输入权重、\u003cstrong>W\u003c/strong>代外内部状态权重,\u003cstrong>V\u003c/strong>代外输出权重。\u003c/p>\u003cp>输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。\u003c/p>\u003cp>层与层之间行使的激活函数用的是tanh。\u003c/p>\u003cp>\u003ccode>def tanh_activation(Z):\u003c/code>\u003c/p>\u003cp>\u003ccode>return (np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z)) # this is the tanh function can also be written as np.tanh(Z)\u003c/code>\u003c/p>\u003cp>\u003ccode>def softmax_activation(Z):\u003c/code>\u003c/p>\u003cp>\u003ccode>e_x = np.exp(Z - np.max(Z)) # this is the code for softmax function\u003c/code>\u003c/p>\u003cp>\u003ccode>return e_x / e_x.sum(axis=0)\u003c/code>\u003c/p>\u003cp>\u003ccode>def Rnn_forward(input_embedding, input_weights, internal_state_weights, prev_memory,output_weights):\u003c/code>\u003c/p>\u003cp>\u003ccode>forward_params = []\u003c/code>\u003c/p>\u003cp>\u003ccode>W_frd = np.dot(internal_state_weights,prev_memory)\u003c/code>\u003c/p>\u003cp>\u003ccode>U_frd = np.dot(input_weights,input_embedding)\u003c/code>\u003c/p>\u003cp>\u003ccode>sum_s = W_frd + U_frd\u003c/code>\u003c/p>\u003cp>\u003ccode>ht_activated = tanh_activation(sum_s)\u003c/code>\u003c/p>\u003cp>\u003ccode>yt_unactivated = np.asarray(np.dot(output_weights, tanh_activation(sum_s)))\u003c/code>\u003c/p>\u003cp>\u003ccode>yt_activated = softmax_activation(yt_unactivated)\u003c/code>\u003c/p>\u003cp>\u003ccode>forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])\u003c/code>\u003c/p>\u003cp>\u003ccode>return ht_activated,yt_activated,forward_params\u003c/code>\u003c/p>\u003cp>计算亏损函数\u003c/p>\u003cp>之后亏损函数行使的是\u003cstrong>交叉熵亏损函数\u003c/strong>,由下式给出:\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/7D58396EC070336A7B47564C6522E30D9DE08B98_size2_w178_h106.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:59.55056179775281%;" style="width: 178px;" />\u003c/p>\u003cp>\u003ccode>def calculate_loss(output_mapper,predicted_output):\u003c/code>\u003c/p>\u003cp>\u003ccode>total_loss = 0\u003c/code>\u003c/p>\u003cp>\u003ccode>layer_loss = []\u003c/code>\u003c/p>\u003cp>\u003ccode>for y,y_ in zip(output_mapper.values(),predicted_output): # this for loop calculation is for the first equation, where loss for each time-stamp is calculated\u003c/code>\u003c/p>\u003cp>\u003ccode>loss = -sum(y[i]*np.log2(y_[i]) for i in range(len(y)))\u003c/code>\u003c/p>\u003cp>\u003ccode>loss = loss/ float(len(y))\u003c/code>\u003c/p>\u003cp>\u003ccode>layer_loss.append(loss)\u003c/code>\u003c/p>\u003cp>\u003ccode>for i in range(len(layer_loss)): #this the total loss calculated for all the time-stamps considered together.\u003c/code>\u003c/p>\u003cp>\u003ccode>total_loss = total_loss + layer_loss[i]\u003c/code>\u003c/p>\u003cp>\u003ccode>return total_loss/float(len(predicted_output))\u003c/code>\u003c/p>\u003cp>最主要的是,吾们必要在上面的代码中望到第5走。\u003c/p>\u003cp>正如所知,ground_truth output(y)的形态是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形态,吾们必要亏损是单个值来从它测度总亏损。\u003c/p>\u003cp>为此,行使sum函数来获得特准时间戳下y和y^hat向量中每个值的偏差之和。\u003c/p>\u003cp>total_loss是整个模型(包括所未必间戳)的亏损。\u003c/p>\u003cp>逆向传播\u003c/p>\u003cp>逆向传播的链式法则:\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/7AFD376C9D0498D68AA7DDE1C7D1284025A251C5_size14_w457_h441.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:96.49890590809628%;" />\u003c/p>\u003cp>如上图所示:\u003c/p>\u003cp>Cost代外偏差,它外示的是y^hat到y的差值。\u003c/p>\u003cp>由于Cost是的函数输出,因此激活a所逆映的转折由dCost/da外示。\u003c/p>\u003cp>实际上,这意味着从激活节点的角度来望这个转折(偏差)值。\u003c/p>\u003cp>相通地,a相对于z的转折外示为da/dz,z相对于w的转折外示为dw/dz。\u003c/p>\u003cp>最后,吾们关心的是权重的转折(偏差)有众大。\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/C08C021E8C10939F9672A0639A6EDE072CF16423_size2_w246_h81.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:32.926829268292686%;" />\u003c/p>\u003cp>而由于权重与Cost之间异国直接有关,因此期间各个相对的转折值能够直接相乘(如上式所示)。\u003c/p>\u003cp>RNN的逆向传播\u003c/p>\u003cp>由于RNN中存在三个权重,因此吾们必要三个梯度。input_weights(dLoss / dU),internal_state_weights(dLoss / dW)和output_weights(dLoss / dV)的梯度。\u003c/p>\u003cp>这三个梯度的链能够外示如下:\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/91BDC766D15F78F94BE9C531261734F168B30131_size21_w683_h334.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:48.90190336749634%;" />\u003c/p>\u003cp>所述dLoss/dy_unactivated代码如下:\u003c/p>\u003cp>\u003ccode>def delta_cross_entropy(predicted_output,original_t_output):\u003c/code>\u003c/p>\u003cp>\u003ccode>li = []\u003c/code>\u003c/p>\u003cp>\u003ccode>grad = predicted_output\u003c/code>\u003c/p>\u003cp>\u003ccode>for i,l in enumerate(original_t_output): #check if the value in the index is 1 or not, if yes then take the same index value from the predicted_ouput list and subtract 1 from it.\u003c/code>\u003c/p>\u003cp>\u003ccode>if l == 1:\u003c/code>\u003c/p>\u003cp>\u003ccode>#grad = np.asarray(np.concatenate( grad, axis=0 ))\u003c/code>\u003c/p>\u003cp>\u003ccode>grad[i] -= 1\u003c/code>\u003c/p>\u003cp>\u003ccode>return grad\u003c/code>\u003c/p>\u003cp>计算两个梯度函数,一个是multiplication_backward,另一个是additional_backward。\u003c/p>\u003cp>在multiplication_backward的情况下,返回2个参数,一个是相对于权重的梯度(dLoss / dV),另一个是链梯度(chain gradient),该链梯度将成为计算另一个权重梯度的链的一片面。\u003c/p>\u003cp>在addition_backward的情况下,在计算导数时,添法函数(ht_unactivated)中各个组件的导数为1。例如:dh_unactivated / dU_frd=1(h_unactivated = U_frd + W_frd),且dU_frd / dU_frd的导数为1。\u003c/p>\u003cp>以是,计算梯度只必要这两个函数。multiplication_backward函数用于包含向量点积的方程,addition_backward用于包含两个向量相添的方程。\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/C66DE13BDE8AE44E882A0141A51266D961601340_size29_w679_h346.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:50.95729013254786%;" />\u003c/p>\u003cp>\u003ccode>def multiplication_backward(weights,x,dz):\u003c/code>\u003c/p>\u003cp>\u003ccode>gradient_weight = np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))\u003c/code>\u003c/p>\u003cp>\u003ccode>chain_gradient = np.dot(np.transpose(weights),dz)\u003c/code>\u003c/p>\u003cp>\u003ccode>return gradient_weight,chain_gradient\u003c/code>\u003c/p>\u003cp>\u003ccode>def add_backward(x1,x2,dz): # this function is for calculating the derivative of ht_unactivated function\u003c/code>\u003c/p>\u003cp>\u003ccode>dx1 = dz * np.ones_like(x1)\u003c/code>\u003c/p>\u003cp>\u003ccode>dx2 = dz * np.ones_like(x2)\u003c/code>\u003c/p>\u003cp>\u003ccode>return dx1,dx2\u003c/code>\u003c/p>\u003cp>\u003ccode>def tanh_activation_backward(x,top_diff):\u003c/code>\u003c/p>\u003cp>\u003ccode>output = np.tanh(x)\u003c/code>\u003c/p>\u003cp>\u003ccode>return (1.0 - np.square(output)) * top_diff\u003c/code>\u003c/p>\u003cp>至此,已经分析并理解了RNN的逆向传播,现在它是在单个时间戳上实现它的功能,之后能够将其用于计算所未必间戳上的梯度。\u003c/p>\u003cp>如下面的代码所示,forward_params_t是一个列外,其中包含特准时间步长的网络的前向参数。\u003c/p>\u003cp>变量ds是至关主要的片面,由于此走代码考虑了先前时间戳的暗藏状态,这将有助于挑取在逆向传播时所需的新闻。\u003c/p>\u003cp>\u003ccode>def single_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):# inlide all the param values for all the data thats there\u003c/code>\u003c/p>\u003cp>\u003ccode>W_frd = forward_params_t[0][0]\u003c/code>\u003c/p>\u003cp>\u003ccode>U_frd = forward_params_t[0][1]\u003c/code>\u003c/p>\u003cp>\u003ccode>ht_unactivated = forward_params_t[0][2]\u003c/code>\u003c/p>\u003cp>\u003ccode>yt_unactivated = forward_params_t[0][3]\u003c/code>\u003c/p>\u003cp>\u003ccode>dV,dsv = multiplication_backward(output_weights,ht_activated,dLo)\u003c/code>\u003c/p>\u003cp>\u003ccode>ds = np.add(dsv,diff_s) # used for truncation of memory\u003c/code>\u003c/p>\u003cp>\u003ccode>dadd = tanh_activation_backward(ht_unactivated, ds)\u003c/code>\u003c/p>\u003cp>\u003ccode>dmulw,dmulu = add_backward(U_frd,W_frd,dadd)\u003c/code>\u003c/p>\u003cp>\u003ccode>dW, dprev_s = multiplication_backward(internal_state_weights, prev_s ,dmulw)\u003c/code>\u003c/p>\u003cp>\u003ccode>dU, dx = multiplication_backward(input_weights, X, dmulu) #input weights\u003c/code>\u003c/p>\u003cp>\u003ccode>return (dprev_s, dU, dW, dV)\u003c/code>\u003c/p>\u003cp>对于RNN,由于存在梯度湮灭的题目,以是采用的是截断的逆向传播,而不是行使原起的。\u003c/p>\u003cp>在此技术中,现在单元将只查望k个时间戳,而不是只望一次时间戳,其中k外示要回溯的先前单元的数目。\u003c/p>\u003cp>\u003ccode>def rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):\u003c/code>\u003c/p>\u003cp>\u003ccode>T = 4\u003c/code>\u003c/p>\u003cp>\u003ccode># we start the backprop from the first timestamp.\u003c/code>\u003c/p>\u003cp>\u003ccode>for t in range(4):\u003c/code>\u003c/p>\u003cp>\u003ccode>prev_s_t = np.zeros((hidden_dim,1)) #required as the first timestamp does not have a previous memory,\u003c/code>\u003c/p>\u003cp>\u003ccode>diff_s = np.zeros((hidden_dim,1)) # this is used for the truncating purpose of restoring a previous information from the before level\u003c/code>\u003c/p>\u003cp>\u003ccode>predictions = memory["yt" + str(t)]\u003c/code>\u003c/p>\u003cp>\u003ccode>ht_activated = memory["ht" + str(t)]\u003c/code>\u003c/p>\u003cp>\u003ccode>forward_params_t = memory["params"+ str(t)]\u003c/code>\u003c/p>\u003cp>\u003ccode>dLo = delta_cross_entropy(predictions,output_t[t]) #the loss derivative for that particular timestamp\u003c/code>\u003c/p>\u003cp>\u003ccode>dprev_s, dU_t, dW_t, dV_t = single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)\u003c/code>\u003c/p>\u003cp>\u003ccode>prev_s_t = ht_activated\u003c/code>\u003c/p>\u003cp>\u003ccode>prev = t-1\u003c/code>\u003c/p>\u003cp>\u003ccode>dLo = np.zeros((output_dim,1)) #here the loss deriative is turned to 0 as we do not require it for the turncated information.\u003c/code>\u003c/p>\u003cp>\u003ccode># the following code is for the trunated bptt and its for each time-stamp.\u003c/code>\u003c/p>\u003cp>\u003ccode>for i in range(t-1,max(-1,t-bptt_truncate),-1):\u003c/code>\u003c/p>\u003cp>\u003ccode>forward_params_t = memory["params" + str(i)]\u003c/code>\u003c/p>\u003cp>\u003ccode>ht_activated = memory["ht" + str(i)]\u003c/code>\u003c/p>\u003cp>\u003ccode>prev_s_i = np.zeros((hidden_dim,1)) if i == 0 else memory["ht" + str(prev)]\u003c/code>\u003c/p>\u003cp>\u003ccode>dprev_s, dU_i, dW_i, dV_i = single_backprop(embeddings[t] ,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)\u003c/code>\u003c/p>\u003cp>\u003ccode>dU_t += dU_i #adding the previous gradients on lookback to the current time sequence\u003c/code>\u003c/p>\u003cp>\u003ccode>dW_t += dW_i\u003c/code>\u003c/p>\u003cp>\u003ccode>dV += dV_t\u003c/code>\u003c/p>\u003cp>\u003ccode>dU += dU_t\u003c/code>\u003c/p>\u003cp>\u003ccode>dW += dW_t\u003c/code>\u003c/p>\u003cp>\u003ccode>return (dU, dW, dV)\u003c/code>\u003c/p>\u003cp>权重更新\u003c/p>\u003cp>一旦行使逆向传播计算了梯度,则更新权重势在必走,而这些是经历批量梯度消极法\u003c/p>\u003cp>\u003ccode>def gd_step(learning_rate, dU,dW,dV, input_weights, internal_state_weights,output_weights ):\u003c/code>\u003c/p>\u003cp>\u003ccode>input_weights -= learning_rate* dU\u003c/code>\u003c/p>\u003cp>\u003ccode>internal_state_weights -= learning_rate * dW\u003c/code>\u003c/p>\u003cp>\u003ccode>output_weights -=learning_rate * dV\u003c/code>\u003c/p>\u003cp>\u003ccode>return input_weights,internal_state_weights,output_weights\u003c/code>\u003c/p>\u003cp>训练序列\u003c/p>\u003cp>完善了上述一切步骤,就能够开起训练神经网络了。\u003c/p>\u003cp>用于训练的学习率是静态的,还能够行使逐渐衰减等更改学习率的动态手段。\u003c/p>\u003cp>\u003ccode>def train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001, nepoch=100, evaluate_loss_after=2):\u003c/code>\u003c/p>\u003cp>\u003ccode>losses = []\u003c/code>\u003c/p>\u003cp>\u003ccode>for epoch in range(nepoch):\u003c/code>\u003c/p>\u003cp>\u003ccode>if(epoch % evaluate_loss_after == 0):\u003c/code>\u003c/p>\u003cp>\u003ccode>output_string,memory = full_forward_prop(T, embeddings ,input_weights,internal_state_weights,prev_memory,output_weights)\u003c/code>\u003c/p>\u003cp>\u003ccode>loss = calculate_loss(output_mapper, output_string)\u003c/code>\u003c/p>\u003cp>\u003ccode>losses.append(loss)\u003c/code>\u003c/p>\u003cp>\u003ccode>time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')\u003c/code>\u003c/p>\u003cp>\u003ccode>print("%s: Loss after epoch=%d: %f" % (time,epoch, loss))\u003c/code>\u003c/p>\u003cp>\u003ccode>sys.stdout.flush()\u003c/code>\u003c/p>\u003cp>\u003ccode>dU,dW,dV = rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)\u003c/code>\u003c/p>\u003cp>\u003ccode>input_weights,internal_state_weights,output_weights= sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)\u003c/code>\u003c/p>\u003cp>\u003ccode>return losses\u003c/code>\u003c/p>\u003cp>\u003ccode>losses = train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001, nepoch=10, evaluate_loss_after=2)\u003c/code>\u003c/p>\u003cp>恭喜你!你现在已经实现从头竖立递归神经网络了!\u003c/p>\u003cp>那么,是时候了,不息向LSTM和GRU等的高级架构提高吧。\u003c/p>