PHP マニュアル: 指定したソースを PHP トークンに分割する

説明

array token_get_all(string $code, int $flags = 0)

token_get_all は指定した文字列 code をパースし、Zend engine の字句解析スキャナにより PHP 言語のトークンに分割します。

パーサートークンの一覧を得るには、パーサートークンの一覧を参照するか、あるいは token_name でトークン値を文字列表現に変換します。

パラメータ

code

パースする PHP ソース。

flags

以下のフラグが使えます。

TOKEN_PARSE - 特定のコンテキストで予約語を使った場合に、それを認識する。

戻り値

トークン ID の配列を返します。配列の各要素には、一文字単位の文字列 (例: ;、.、 >、! など...)、またはトークンのインデックスを 0 番目の要素、トークンの文字列表現を 1 番目の要素、行番号を 2 番目の要素とする配列が含まれます。

例

例1 token_get_all の例

<?php
$tokens = token_get_all('<?php echo; ?>');

foreach ($tokens as $token) {
    if (is_array($token)) {
        echo "Line {$token[2]}: ", token_name($token[0]), " ('{$token[1]}')", PHP_EOL;
    }
}
?>

上の例の出力は、たとえば以下のようになります。

Line 1: T_OPEN_TAG ('<?php ')
Line 1: T_ECHO ('echo')
Line 1: T_WHITESPACE (' ')
Line 1: T_CLOSE_TAG ('?>')

例2 token_get_all の間違った使いかた

<?php
$tokens = token_get_all('/* comment */');

foreach ($tokens as $token) {
    if (is_array($token)) {
        echo "Line {$token[2]}: ", token_name($token[0]), " ('{$token[1]}')", PHP_EOL;
    }
}
?>

上の例の出力は、たとえば以下のようになります。

Line 1: T_INLINE_HTML ('/* comment */')

先ほどの例では、文字列が T_COMMENT ではなく T_INLINE_HTML とパースされていたことに注意しましょう。これは、指定した "code" の中に開始タグが含まれていないからです。通常のファイルで、コメントを PHP タグの外部に書いた場合にも同じようになります。

例3 予約語を使ったクラスでの token_get_all の例

<?php

$source = <<<'code'
<?php

class A
{
    const PUBLIC = 1;
}
code;

$tokens = token_get_all($source, TOKEN_PARSE);

foreach ($tokens as $token) {
    if (is_array($token)) {
        echo token_name($token[0]) , PHP_EOL;
    }
}
?>

上の例の出力は、たとえば以下のようになります。

T_OPEN_TAG
T_WHITESPACE
T_CLASS
T_WHITESPACE
T_STRING
T_CONST
T_WHITESPACE
T_STRING
T_LNUMBER

TOKEN_PARSE フラグを指定しなければ、最後から二番目のトークン (T_STRING) が T_PUBLIC と解釈されてしまいます。

参考

PhpToken::tokenize
token_name