univasity

浏览: 801498 次
性别:
来自: 广州

最近访客更多访客>>

lxyg06

fishbaoyu

bcrun

r3562939

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

讲解极小极大 (Minimax Explained) [译]

博客分类：

算法学习
其他积累

minimax 算法翻译

原文链接：Minimax Explained

讲解极小极大

Written by Paulo Pinto .

本文讨论如何把搜索应用到带有完整信息的逻辑游戏上。会提及到博弈树，和一个对其进行搜索的算法。给出了伪代码并对变形alpha-beta进行了讲解。

算法 (The Algorithm)

简介(Introduction)

AI有广泛的应用领域，其中游戏是最有趣的。当今每个主流的操作系统都会附带一些游戏。因此，对于某些算法是专门为游戏设计的，并不需要感到意外。

极小极大算法 (The Min-Max Algorithm)

极小极大算法被应用于二人博弈中，比如井字过三关、西洋棋、国际象棋、围棋等等。所有这些游戏都有一个共通点，都是逻辑游戏。这意味着，可以通过一组规则和前置条件来定义它们。利用这些（规则和条件），就能够从一个给定的游戏局面得知下一步可能的移动。它们（这些游戏）同时还共同拥有其他一些特性，都是“拥有完整信息的博弈”。每个玩家都能知道一切关于对手可能的移动方式。

图1 ：展示了一个逻辑游戏的搜索树

在讲解算法之前，有必要简短地介绍一下搜索树。搜索树是展示搜索的一种途径。方形代表节点，标志了搜索中的决策点。这些节点通过分支连接在一起。搜索始于根节点，图中最顶上的那个。在每个决策点，可行搜索路径上的节点会被创建，直到再没有更多可能的决策。标志搜索结束的节点是叶节点。

这里涉及两个玩家，MAX与MIN。一颗搜索树按深度优先（从当前的游戏位置(进度)开始，直到游戏结束的位置）被生成。最终的选择的位置(走法) 是以MAX的角度来评估的，图1中展示的正是如此。然后，自底向上给树上的节点赋予一个估值。属于MAX玩家的节点获取其子节点中的最大值。MIN玩家的节点会选择其子节点中的最小值。该算法被描述在清单1中。

MinMax (GamePosition game) {
  return MaxMove (game);
}
 
MaxMove (GamePosition game) {
  if (GameEnded(game)) {
    return EvalGameState(game);
  }
  else {
    best_move < - {};
    moves <- GenerateMoves(game);
    ForEach moves {
       move <- MinMove(ApplyMove(game));
       if (Value(move) > Value(best_move)) {
          best_move < - move;
       }
    }
    return best_move;
  }
}

MinMove (GamePosition game) {
  best_move <- {};
  moves <- GenerateMoves(game);
  ForEach moves {
     move <- MaxMove(ApplyMove(game));
     if (Value(move) > Value(best_move)) {
        best_move < - move;
     }
  }

  return best_move;
}

这里发生了什么事？这些数值表明了该步移动有多好。因此，玩家MAX最终会选择最高分数的进行移动。对此玩家MIN也有所行动，将选择对其最有利的移动，即最小化了MAX的得益。

优化 (Optimisations)

优化(Optimisation)

然而，只有非常简单的博弈能够在短时间内生成整棵搜索树。对大多数博弈来说，这是不可能的，到那时可能宇宙都消失了(需要很长的时间)。因此，要对算法进行一些优化。

首先需要注意的是，优化是有代价的。我们用与博弈发展有关（几率和捷径）的完整信息来换取算法的最优化。把“通往胜利的完整路径”取代为“通过有机会获得胜利的路径”来进行决策。如果优化不是最佳选择，或者优化得不好，那么我们能用无用的AI来结束算法。但这也比使用随机选取要好。

一个基本的优化是，限制搜索树的深度。为什么这会有所帮助？因为生成完整的树要耗费年月。如果博弈树的分子因子是3，即每个节点都有子树，树中每个层次中节点的数量如下:

Depth	Node Count
0	1
1	3
2	9
3	27
…	..
n	3^n

这个序列展示了深度为n的树将有3^n个节点。要获得所有节点的总数，我们需要把每层的节点数加起来。因此，一棵n层的树其节点总数为(0, n, 3^n)。对于多数博弈，像国际象棋就有一个庞大的分支因子，这意味着整棵树可能无法被加载到内存中。即便能行，生成整棵树也将需要很长一段时间。如果分析一个节点需要1秒，那就是说在前面的例子中，每次搜索数都需要耗费(0, 3, 3^n)*1秒。对于一个5层的搜索树，那将是1+3+9+27+81+243 = 364 * 1 = 364秒 = 6分钟! 这对于一个博弈来说太久了。如果电脑的每次移动都要玩家等上6分钟，估计玩家就退出游戏了。

第二项优化是，使用一个函数，以某个玩家的角度对当前的棋步进行评估。它将对当前博弈状态给定一个值。例如，统计棋盘上棋子的数量、或离博弈结束还剩余的步数，或是任何我们可以用来衡量棋步的数值。

除了评估当前的棋步，该函数可能还计算出当前棋步对结束博弈的帮助有多大。或者换种说法，当前棋步带来的胜数有多大。在这种情况下，该函数被称为“评估函数”。

该函数必须把一些启发性考虑进去。启发性即我们对与博弈相关的事物的认知，这有助于创建更好的估值函数。例如，在西洋棋中，在角和边上的棋子是不会被吃掉的。因此我们可以创建一个估值函数，对在棋盘中这些位置上的棋子给出更高的分值，从而令棋子下到这些位置，使博弈获得更好的结果。

估值函数必须能够同时为两个玩家评估棋步，因为你不知道当前（有限的）深度是轮到哪个玩家了。

尽管如此，如果博弈是对称的（这是说一个玩家的损失等于另一个玩家的得益，这样的博弈被称为“零和博弈”），则可以不用分别创建两个估值函数。对于这些博弈，一个估值函数就足够了，其中一个玩家只要取反值即可。

改进后的算法在清单2中展示：

MinMax (GamePosition game) {
  return MaxMove (game);
}
 
MaxMove (GamePosition game) {
  if (GameEnded(game) || DepthLimitReached()) {
    return EvalGameState(game, MAX);
  }
  else {
    best_move < - {};
    moves <- GenerateMoves(game);
    ForEach moves {
       move <- MinMove(ApplyMove(game));
       if (Value(move) > Value(best_move)) {
          best_move < - move;
       }
    }
    return best_move;
  }
}
 
MinMove (GamePosition game) {
  if (GameEnded(game) || DepthLimitReached()) {
    return EvalGameState(game, MIN);
  }
  else {
    best_move <- {};
    moves <- GenerateMoves(game);
    ForEach moves {
       move <- MaxMove(ApplyMove(game));
       if (Value(move) > Value(best_move)) {
          best_move < - move;
       }
    }
    return best_move;
  }
}

即便如此，该算法仍然存在一些缺陷，某些缺陷能通过选择另一个算法来被修复。

其中一个缺陷是，如果博弈很复杂，即使有限的深度，答应也会耗费很长一段时间。一个解决方案是限制搜索的时间。如果超时了则返回当前所找到的最好选择。

而最大的缺陷是，“有限的视界问题”。一个看似很好的棋步，却可能导致糟糕的结果。这是因为算法没能预见对手将会采取并导致其获利的棋路所导致的。由于算法被有限的深度蒙住了双眼，错失了致命的一步棋。

给算法提速(Speeding the algorithm)

仍然有一些东西是可以用来降低搜索时间的。来看一下图2。节点A的值是3，对于起源自节点B的子树，被找到的第一个值是2。因为节点B是在MIN 层，我们是要为节点B选择小于等于2的值。同时我们知道节点A的值是3，并且节点A和B共享同一个在MAX层级的父节点。这意味着起源自节点B的路径不会被选择，因为对于MAX层的节点来说，3比2更好。因此，不值得继续对节点B的子树进行搜索，我们将安全地忽略掉所有剩余的子节点。

Minimax Cutoff

图2 ：极小极大搜索树，展示了可以被剪断的分支。

所有的这些都表明，当我们发现对子树的搜索不会带给我们任何有用的结论的时候，搜索可以被跳过。

这一优化被称为alpha-beat剪枝，算法描述如下：

1. 有两个值被传递到每个树的节点：

值alpha，记录着找到的最好的“大值”（MAX value）；

值beta，记录着找到的最好的“小值”（MIN value）。

2. 在MAX层时，在对每个子路径进行估值前，用前一路径的返回值与beta值作比较。如果该值大于beta值，那么跳过对当前节点的搜索；

3. 在MIN层时，在对每个子路径进行估值前，用前一路径的返回值与alpha值作比较。如果该值小于alpha值，那么跳过对当前节点的搜索。

清单3展示了使用了alpha-beta剪枝的MiniMax的完整伪代码：

MinMax (GamePosition game) {
  return MaxMove (game);
}
 
MaxMove (GamePosition game, Integer alpha, Integer beta) {
  if (GameEnded(game) || DepthLimitReached()) {
    return EvalGameState(game, MAX);
  }
  else {
    best_move < - {};
    moves <- GenerateMoves(game);
    ForEach moves {
       move <- MinMove(ApplyMove(game), alpha, beta);
       if (Value(move) > Value(best_move)) {
          best_move < - move;
          alpha <-  Value(move);
       }
 
       // Ignore remaining moves
       if (beta > alpha)
         return best_move;
    }

    return best_move;
  }

}
 
MinMove (GamePosition game) {
  if (GameEnded(game) || DepthLimitReached()) {
    return EvalGameState(game, MIN);
  }
  else {
    best_move < - {};
    moves <- GenerateMoves(game);
    ForEach moves {
       move <- MaxMove(ApplyMove(game), alpha, beta);
       if (Value(move) > Value(best_move)) {
          best_move < - move;
          beta <- Value(move);
       }
 
       // Ignore remaining moves
       if (beta < alpha)
         return best_move;
    }

    return best_move;
  }

}

使用了alpha-beta剪枝的MiniMax比默认的MiniMax好多少？这取决于搜索的次序。如果该步棋看起来不会造成影响，那么算法使用 alpha-beta剪枝也不会带来改善。但是，如果是估值函数和产生的棋步所导向的alpha-beta剪枝，会带来更显著的效果。

Alpha-Beta剪枝 (Alpha-Beta Cutoff)

增添Alpha-Beta剪枝 (Adding Alpha-Beta Cutoffs)

大部分人都很想知道这里所讲的“搜索速度”到底是什么。搜索速度在AI中是非常重要的，因为如果一个算法要耗费很长的时间才能给出一个满意的答复，那么该算法是不适合的。

例如，一个好的MiniMax算法实现，其估值函数能够给出高质量的评估，或许能够在1秒内探索1000种下法。在象棋比赛中，每个玩家有150秒来决定如何走棋。因此，在这段时间内函数将能够分析150 000种下法。但是，象棋中的每一步都有35种可能的分支！在最后，程序将只能分析出每个棋步的3-4个分支。即便是没有练习过的人也能做得比这好。

但是，如果我们把alpha-beta剪枝应用到MiniMax中，加上一个正确的估值函数，结果会更加好。这种情况下，程序就有可能对双倍数量的下法进行分析，从而变成一个更强大的对手。

一个实现的例子 (An example implementation)

例子总是用来说明算法如何实现的一个好途径。回到1999年，我和一个要好的朋友就已经实现了一个西洋棋游戏的Java应用（为了大学的AI课程）。我最近将游戏移植到了C#上。

其中的MiniMax算法不是一个最好的实现。其实我要说明的是“最重要的是它能运行”。无论如何，我认为这展示了算法的一种可能实现方式，并且作为例子它已经足够好了。

Minimax Board

图3 ：每个格子都带有估值的一个棋盘的例子

游戏中使用了带有alpha-beta剪枝的MiniMax来为电脑提供移动决策。估值函数为每个被棋子所占据的格子提供一个加权平均数。图3展示了对每个棋盘上格子的估值。每个格子上的数值被乘以该格子上棋子的类型，在清单5中列出。清单4展示了估值函数的Java实现。它已经被轻微的做了修改，以符合该主题。

                  Piece                                 Value
Normal                                                   5
Normal but close to being promoted       7
King                                                       10

表1 : Piece Values

// Snippet from Computer.java.
// Contains the evaluation function
/**
* Evaluation function.
*/
private int eval (CheckersBoard board) {
    int colorKing;
    // Finds out who is the current player
    if (color == CheckersBoard.WHITE)
        colorKing = CheckersBoard.WHITE_KING;
    else
        colorKing = CheckersBoard.BLACK_KING;
    int colorForce = 0;
    int enemyForce = 0;
    int piece;
    try {
        // Searchs all board positions for pieces
        // and evaluates each position.
        for (int i = 0; i < 32; i++) {
            piece = board.getPiece (i);
            if (piece != CheckersBoard.EMPTY)
                if (piece == color || piece == colorKing)
                    colorForce += calculateValue (piece, i);
                else
                    enemyForce += calculateValue (piece, i);
        }
    }
    catch (BadCoord bad) {
        bad.printStackTrace ();
        System.exit (-1);
    }
    return colorForce - enemyForce;
}


/**
* Measures the value of a checkers piece, given
* it’s position in the board
*/
private int calculateValue (int piece, int pos) {
    int value;
    if (piece == CheckersBoard.WHITE ) //Simple piece
    if (pos >= 4 && pos <= 7) // White pieces are more
        value = 7; // valuable the closer they get
    else // to the oponent
        value = 5;
    else if (piece != CheckersBoard.BLACK) //Simple piece
        if (pos >= 24 && pos <= 27) // White pieces are more
            value = 7; // valuable the closer they get
        else // to the oponent
            value = 5;
        else // King piece
            value = 10; // King pieces are always the
    // most valuable
    return value * tableWeight[pos];
}

清单5 : The Java implementation of the evaluation function.

注意，代码中使用了一个容器，基于0-31，用来表示棋盘上的位置。

游戏代码在这里下载：

Java version - http://www.progtools.org/games/projects/checkers/checkers.html
C# version - http://www.progtools.org/games/projects/sharp_checkers/sharp_checkers.html

结论(Conclusion)

对于各种需要模拟人类AI的电脑博弈，MiniMax可能并不是最好的。但是，一个好的实现也能创建出一个强大的对手。我希望这篇文章能在让你了解MiniMax算法并懂的如何将它用到你的游戏中。

参考资料(References)

[1] - Russell Stuart J., Norvig Peter. “Artificial Intelligence. A modern approach.”. Prentice Hall, 1995. ISBN 0-13-103805-2.
[2] - Bratko Ivan. “PROLOG. Programming for artificial intelligence” Addison-Wesley, 1990. ISBN 0-201-41606-9
[3] - Rich Elaine, Knight Kevin. “Artificial Intelligence”. McGraw-Hill Inc., 1991. ISBN 0-07-100894-2
[4] - Analytical Reasoning FAQ. Available at http://www.west.net/~stewart/lwfaq.htm

Written by Paulo Pinto .

1
顶

3
踩

分享到：

电子邮件收发原理和实现(POP3, SMTP) [整理 ... | 理解极小极大算法 (Understanding The Mini ...

2011-09-11 21:00
浏览 6786
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

讲解极小极大 (Minimax Explained) [译]

讲解极小极大

算法 (The Algorithm)

简介(Introduction)

极小极大算法 (The Min-Max Algorithm)

优化 (Optimisations)

优化(Optimisation)

给算法提速(Speeding the algorithm)

Alpha-Beta剪枝 (Alpha-Beta Cutoff)

增添Alpha-Beta剪枝 (Adding Alpha-Beta Cutoffs)

一个实现的例子 (An example implementation)

结论(Conclusion)

参考资料(References)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

讲解极小极大 (Minimax Explained) [译]

讲解极小极大

算法 (The Algorithm)

简介(Introduction)

极小极大算法 (The Min-Max Algorithm)

优化 (Optimisations)

优化(Optimisation)

给算法提速(Speeding the algorithm)

Alpha-Beta剪枝 (Alpha-Beta Cutoff)

增添Alpha-Beta剪枝 (Adding Alpha-Beta Cutoffs)

一个实现的例子 (An example implementation)

结论(Conclusion)

参考资料(References)

评论

发表评论

相关推荐

[问题解决]个推SDK使用侧记 -- 多个账号注册导致的问题

[问题解决] 个推(igetui)SDK使用侧记 -- 多个账号注册同一应用导致的问题

[SWT]打开Windows文件夹的方法 [整理]

[SWT]SashForm中固定单侧大小（&实现面板隐藏）

[Everything模仿] 相关项目资源整理

[问题解决]Ubuntu10.04安装出现的显示器“无信号”问题

9个主流的开源许可协议[整理]

电子邮件收发原理和实现(POP3, SMTP) [整理]

理解极小极大算法 (Understanding The Minimax Algorithm) [译]

Minimax算法研究（TicTacToe）

归并排序（MergeSort）

常见排序算法 [整理]

算法时间复杂度的计算 [整理]

Maven In Android

[概念]算法的复杂度 [整理]

[基础回顾]基于Eclipse的J2me和Android开发环境搭建

[SVN]423 Locked problem (Solved)

Everything研究之快速获取USN记录的文件路径

Everything研究之读取NTFS下的USN日志文件(2)

Everything研究之读取NTFS下的USN日志文件(1)

最近访客更多访客>>