生成式模型在decoder阶段是一个单词一个单词蹦出来的，但是怎么个蹦法，有很多种方式。以seq2seq模型为例， $p(E|F\)=P(e_1^N|f_1^M)=\prod_{i=1}^NP(e_i|e_1^{i-1},f_1^M)$ , 那么在decoder阶段，我们的搜索复杂度是多大？假设输出序列 $e_1,e_2,e_3$ , target sequence的词汇表大小是 $V_E$ ，那么对于每个单词的搜索空间都是 $V_E$ ，那么长度为N的序列，搜索复杂度就是 $V_E^N$ ，可以看出，如果词汇量很大的话，N越长的话，效率太低。

decoder阶段搜索算法

贪心算法

贪心算法很简单，每一步选择概率最大的路径，就是以当前步为起点，找到下一步最大概率的边。

viterbi算法

viterbi算法经常被用于HMM的decoder阶段，使用动态规划的方法求解最优路径。

动态规划思想，在第t步的第k个结点，它的概率等于所有前驱节点概率加连接线概率和的最小值。整个过程可以抽象成一个填表的过程， $V_E*N$ 。找到最优路径后，然后再回溯父节点，就可以输出最优路径。整个过程时间复杂度为 $O(V_E^2*N\)$ ，空间复杂度为 $O(V_E*N\)$ 。

缺点：算法效率提升很高，当V的大小很小的时候，效率还是很高的。但是，如果词典V很大的话，还是有点高的。

beam search

beam search就是viterbi方法的近似解，可以降低一下时间复杂度，在第t步的第k个节点计算的时候，前驱节点从V降低到beam search size大小B，B « VE。第t步的所有节点计算完之后，排序，选择top B个概率最高的点，用于计算第t+1步。整个过程，每一步时间复杂度降低到 $BN+BV_Elog_{V_{E}}$ , 因为每一步排序所需要的时间复杂度 $V_Elog_{V_{E}}$ 。这样，整体的时间复杂度就是 $O(NBV_Elog_{V_{E}}\)$ ，空间复杂度是 $O(BN\)$ .

viterbi算法的过程是填一个V x N的表格，那么beam search算法的过程就是填一个B x N的表格,因此效率高了很多。

距离函数

网状结构的图中，搜索算法常使用的距离函数

如果只有上下左右四个方向，可以使用曼哈顿距离；
如果运行向8个方向移动，使用对角距离；
如果可以向任意方向易懂噢，使用欧几里得距离；

def manhattan_distance(node, goal):
    """D是一个常数，表示两个相邻节点之间的移动代价，可以取常数1
    """
    dx = abs(node.x - goal.x)
    dy = abs(node.y - goal.y)
    return D * (dx + dy)
    
def diagonal_distance(node, goal):
    '''D2是一个常数，表示两个斜着相邻节点之间的移动代价。如果是每个节点都是正方形，那么可以D2=根号2*D
    '''
    dx = abs(node.x - goal.x)
    dy = abs(node.y - goal.y)
    return D * (dx + dy) + (D2 - 2 * D) * min(dx, dy) 
    
def euclidean_distance(node, goal):
    dx = abs(node.x - goal.x)
    dy = abs(node.y - goal.y)
    return D * sqrt(dx * dx + dy * dy)

A*算法变种（续）

参考文章

decoder阶段的生成方式

January 31, 2020

decoder阶段搜索算法

贪心算法

viterbi算法

beam search

相关的搜索算法

广度搜索

Dijkstra算法

最佳优先搜索（Best First算法）

A*算法

距离函数

A*算法变种（续）

美式英语发音总结（节奏和语调）

美式英语发音总结（辅音篇）

美式英语发音总结（高阶技巧）

decoder阶段搜索算法

贪心算法

viterbi算法

beam search

相关的搜索算法

广度搜索

Dijkstra算法

最佳优先搜索（Best First算法）

A*算法

距离函数

A*算法变种 （续）

美式英语发音总结（节奏和语调）

美式英语发音总结（辅音篇）

美式英语发音总结（高阶技巧）

A*算法变种（续）