PHPの参照をめぐる冒険

知久です。

少しばかりPHPから離れてしまっていることもあって(最後にやったPHP案件はまだ数年前だけど、その1つ前はバージョン3や4の時代・・・w)、つい先日Facebook上で「Copy on write」っていうのがあって、特にPHPでは参照渡しなど使わなくても大丈夫などと教えてもらったりしたのですが、その時「やはり技術者は日々勉強だな」と反省し、少しPHPの参照周りを調べてみました。今回はちょっとその辺の報告です(間違いのご指摘、歓迎します)。

とりあえず、結論は以下のようです(説明はその後しますw)。

php_reference

そして、この結論をもう少し掘り下げてみます。

そもそも関数の引数は?

関数の呼び出しの種類として、よく聞かれる言葉に

  • Call by value(値渡し)
  • Call by reference(参照渡し)
  • Call by sharing(共有渡し)→参照の値渡しとも言われています

というものがあります。この中で「Call by reference(参照渡し)」と「Call by sharing(共有渡し)」の違いが多少難しく、Google先生に聞いても「わかっていない人が多い」という文言が目立ちますので、ここは気合いの入れどころのようですw。

じゃ、「参照渡し」ってなんだ?あたりを読んで(中の引用のところ)、僕なりに解釈すると

渡された仮引数が「左辺値」として使われる場合、
言い換えれば、「左辺値」として扱われることを意図した関数の呼び出しは
「Call by reference(参照渡し)」であり、
意味がない場合「Call by value(値渡し)」である。

という感じでしょうか。

function func($value)//←仮引数
{
    $value = うんたらかんたら;
}

という使い方をしているのが、くどいですが、「Call by reference(参照渡し)」だと解釈できます。

ちなみに「実引数は呼んでいる側の引数」で「仮引数は関数側で受ける引数」です。

もっと具体的に見ていきましょう(「渡し」という言い方が流通してしまっているので「参照による呼び出し」のような「呼び出し」を使わず、「渡し」を使っていきます)。

値渡し

下のコードを見て下さい。

<?php
function func1($value)//←仮引数
{
    $value = $value * 2;
}

function func2($value)
{
    $data = $value * 2;
    return $data;
}

$num = 123;
func1($num);//←実引数
echo $num."\n";// => 123
$num = func2($num);
echo $num."\n";// => 246

function func1($value)//←仮引数
{
    $value = $value * 2;
}

$num = 123;
func1($num);//←実引数

で呼ばれ、実引数で渡した123を2倍にして仮引数を上書していますが、その上書きが、関数の外のecho文では活かされていません。123のまま出力されています。

もちろん、func2のようにreturn文で$numを書き換えれば、$numに反映はできますが、この場合、仮引数の$valueは右辺としての意味はありますが、左辺としての意味はありません!

とうわけで、これらの関数の呼び出しでは仮引数を左辺においても意味がなく、「Call by value(値渡し)」ということになります。

参照渡し

次は前のとほんのちょっとだけ違うコードです。単に仮引数の前に「&」が付いてるのが違うだけです。

<?php
function func(&$value)//←仮引数
{
    $value = $value * 2;
}

$num = 123;
func($num);
echo $num."\n";// => 246

今度の場合は仮引数を左辺にして「値を2倍に」した結果が$numに反映されています(246が出力されています)。つまり、実引数を仮引数に渡し、これを左辺に利用して意味がある使い方になり「Call by reference(参照渡し)」ということになります。

C++やPascalなども同様のことができるようですが、Javaではできません(「Javaではできないだと〜」と思った人は次の章を読みましょうw)。PHPではこの&を仮引数に付けることにより、参照渡しが実現できるということです。

ちなみにJavaは次の「Cal by sharing(共有渡し)」であり、PHPもオブジェクトを代入した時の場合などもそうです。JavascriptやPython、Rubyなども「共有渡し」だそうなので、ここは重要です。

共有渡し

ちょっと長目ですが、次のコードを見て下さい。まずはRefTestというクラスは2つのインスタンス変数があり、コンストラクタでこれらの変数を初期化するという、とっても単純なクラスを定義しています。

通常はインスタンス変数はpublicではなく、privateでクラスを作るべきですが(そしてgetter、setterを作る)、話を単純にするために外からでもアクセスできるpublic変数にしています。

<?php
// コンストラクタとpublicな変数が2つある単純なクラス
class RefTest
{
    public $value1;
    public $value2;

    function __construct($v1, $v2)
    {
        $this->value1 = $v1;
        $this->value2 = $v2;
    }
}

このクラスをnewしていくつかの関数にそのオブジェクトを渡して、試してみましょう。

まずはref1関数。

// $refのメンバ変数value1を10に変更
function ref1($ref)
{
    $ref->value1 = 10;
}

$obj = new RefTest(1, 2);
// コンスタラクタの引数がそのまま出力
echo $obj->value1 . "\n"; // => 1
echo $obj->value2 . "\n"; // => 2

// ref1メソッドでvalue1の方が10に変更される
ref1($obj);
echo $obj->value1 . "\n"; // => 10
echo $obj->value2 . "\n"; // => 2

$obj = new RefTest(1, 2);
ref1($obj);

で、RefTestクラスをnewし、ref1関数に$objを渡します。関数の中身は

function ref1($ref)
{
    $ref->value1 = 10;
}

なので、value1の方を10に変更され、

echo $obj->value1 . "\n"; // => 10
echo $obj->value2 . "\n"; // => 2

となります。これは「Cal by sharing(共有渡し)」で、「「Cal by reference(参照渡し)」ではありません。どうして参照渡しじゃないかがポイントなんですが、次のref2関数の場合と比べてみましょう。

// 新しいオブジェクトで仮引数を上書き
function ref2($ref)
{
    $ref = new RefTest(100, 200);
}
$obj = new RefTest(1, 2);

// 仮引数に新しいRefTestオブジェクトをnewして代入←しかし、出力は前のまま
ref2($obj);
echo $obj->value1 . "\n"; // => 1
echo $obj->value2 . "\n"; // => 2

このref2の場合、関数の中で仮引数を新しくnewしたRefTestオブジェクトで上書きしています。そして、その時のコンストラクタの引数が(100,200)なのですが、関数実行後のvalue1やvalue2の出力はそのままです。

何が違うかというと下のように、仮引数である$refのメンバー変数を変更しているということと(左)、仮引数自体を書き換えていることです

$refのメンバー変数を変更している 仮引数自体を書き換えている


$ref->value1 = 10;


$ref = new RefTest(100, 200);

つまりPHPでは、変数にオブジェクトが格納されているという条件下では、明示的に&を仮引数に付けずに普通に関数を呼び出した場合、オブジェクトのリファレンスが実引数からコピーされて仮引数に渡り、別々の変数が同じオブジェクトを見ているのですが、仮引数を新しいオブジェクトで関数内で書き換えると、別々のオブジェクトを指すようになります。図にすると下のような感じでしょうか(上の2つの図)。

ref2

これは、結局アドレスという値がコピーされて仮引数に渡されるので「参照の値渡し」とも呼ばれ、人によっては「値渡し」という人もいますが、オブジェクトのメンバ等にはアクセスして、変更等もできるので、若干「値渡し」とは挙動が違いますので、ここでは共有渡しと呼んでおきます。

参照渡しと比べておきましょう。

// 新しいオブジェクトで仮引数を上書き(ただし参照渡し!)
function ref3(&$ref)
{
    $ref = new RefTest(100, 200);
}
// 参照渡しの仮引数を新しいRefTestオブジェクトをnewして代入←出力が変わる
ref3($obj);
echo $obj->value1 . "\n"; // => 100
echo $obj->value2 . "\n";// => 200

繰り返しですが、「function ref3(&$ref)」のように「&」が付いているだけで、アドレスがコピーされるのではなく、実質同じ変数になります(仮引数が実引数のエイリアスになるイメージでしょうか?変数のアドレス自体が渡るという言い方をする人もいます)。したがって、仮引数を新しいオブジェクトで関数内で書き換えると、どちらの変数も同じ新しいオブジェクトを指すようになります。

「実質」と言っているのは、内部的にPHPがどのように処理しているかは深入りしないということですw(「php zval」というキーワードで検索すると良いかもしれません)。

「値渡し/参照渡し/共有渡し」のまとめ

ここでまとめておきます。PHPでは、次のようになっています。

  • オブジェクトを入れた変数以外は「値渡し」
  • オブジェクトを入れた変数は「共有渡し」
  • 関数の仮引数に&を入れた場合は「参照渡し」

ということになります。以下、3つで違うことを頭に入れる必要がありそうですねw

共有渡しでも、オブジェクトの中身(メンバ変数)を変えることが可能 共有渡しでは、仮引数自体を書き換えても意味がない(左辺になれない) 参照渡しだと、左辺になれる(つまり実引数の方も変更される)
function ref1($ref)
{
    $ref->value1 = 10;
}
function ref2($ref)
{
    $ref = new RefTest(100, 200);
}
function ref3(&$ref)
{
    $ref = new RefTest(100, 200);
}
Copy-On-Write

さて、話がさらに複雑になります。上記でまとめた1番の項目オブジェクトを入れた変数以外は「値渡し」ですが、その値の内容を変えずに、参照だけをするだけなら「共有渡し」的に渡すというのが「Copy-On-Write」の考え方です。例えば、次のような大きな配列に値を入れた場合、値渡しするとメモリーがもったいないよね(大きな配列が2つになるので)、という発想です。

次のようなコードを実行すると、①のところをコメントアウトしていると普通に実行できますが、コメントを取るとメモリー不足のエラーが起こります。

<?php
#メソッド1
# 100万個の配列の値をすべて2倍にする
function func($arr)
{
    $end = count($arr);
    for ($i = 0; $i < $end; $i++) {
        // $arr[$i] = $arr[$i] * 2; // ①
    }
    return $arr;
}
# ここからMainメソッド
$array = Array();
# 100万個の配列作成
for ($i = 0; $i < 1000000; $i++) {
    $array[$i] = $i;
}

$array = func($array);

つまり、私のMacBook Airでは、デフォルトを倍にしたphp.ini内の「memory_limit」が

memory_limit = 256M

で①が実行されなければ、エラーもなく実行できるけれど、①が実行されると

Allowed memory size of 268435456 bytes exhausted

というエラーが起こる、ということです。

どうしてかというと、

        $arr[$i] = $arr[$i] * 2; // ①

では、配列に入っている値を2倍にして再格納しているので、渡された配列の中身を変えています。つまり渡された変数が変更されない限り、共有渡し的にになるわけですが、今回の例では実際には変更しているので、

この

$array = func($array);

で「func」というメソッドが呼ばれた時配列自体がコピーされて、100万個の配列が2個でき、メモリー不足になったわけです。「Copy On Write」はまさに「書きこむ時にはコピーする」ということなわけです。

ただ、今回何度も出てきた

function func(array &$arr)

&$arrの「&」をつけることにより、参照渡しになり、配列が2つできないので(コピーされないので)、先ほどの条件でもメモリー不足にはなりません。

とはいえ、「Copy On Write」の登場により、今回の例のように渡した配列の中身を変更したりしない限り、「&」を付けなくても大丈夫ということになります

このことによって、あまり「参照渡し」を利用する機会がなくなってきている(あるいはむしろバグの温床にもなる)というようなことを言っている人もいて、概ね、私も賛成です。ただ積極的に参照渡しにしないと困るという状況以外では、利用しない方が良いと思うのですが、一方で、配列の中身を変更する場合はコピーされるということでもあり、メモリー不足になってエラーになってしまう場合もあり得るということも事実です。

そもそも100万個の配列を扱うこと自体ダメじゃん、ということは言えますし、512Mではエラーにならないので、そうすることも可能ですが、それでも状況によっては、やはり、どうしても色々な理由で—予算の関係でメモリーを増やせないとか、配列をいくつかに分解して処理すると遅くなってしまうなど—100万個の配列を扱いたいというようなケースも現実にはあり、その場合は参照渡しを検討すべきかな、と思うわけです。

おまけ(どっちが速い?)

最後に参照渡しと値渡しでどれくらい速度が違うんだろうかな、と実験してみました。これは、与えられた条件で違ってくるものなので、PHPの関数では、参照渡しよりもreturnしたほうが速い!?では、どでかい文字列を参照変数に代入するのはパフォーマンス的に遅いというようなことを言っています。が、このリンク先の例では、「参照渡し」するような積極的な意義はなさそうです(先ほど、メモリー不足のような状況が起こるケースでは、と言いましたが、ここの例では空文字の変数を渡しており、単にリターン文で書き換えればもともと良い、というようなケースに見えますw)。

<?php
// reference.php
function func(array &$arr)
{
  $end = count($arr);
  for ($i = 0; $i < $end; $i++) {
        $arr[$i] = $arr[$i] * 2;
    }
}

for ($i = 0; $i < 1000000; $i++) {
    $array[$i] = $i;
}

func($array);

というような参照を渡した場合の結果が下のよう。

$ php reference.php 

real    0m0.481s
user    0m0.381s
sys     0m0.098s

また、値渡しの場合の下のようなコードでは

// value.php
function func(array $arr)
{
  $end = count($arr);
  for ($i = 0; $i < $end; $i++) {
        $arr[$i] = $arr[$i] * 2;
    }
    return $arr;
}

for ($i = 0; $i < 1000000; $i++) {
    $array[$i] = $i;
}

$array = func($array);

実行結果は、少しだけ、参照を渡したときよりも遅いですね。

time php value.php 

real    0m0.567s
user    0m0.449s
sys     0m0.116s

関数の値渡しと参照渡しどちらが速い?でも、似たような結果になっていますw

今回はこれでおしまい。

コメントを残す