Javaで特定の文字が出現する回数を数えるには？

いくつかの方法を考えてベンチマークしてみた結果、単純にfor文を回して数えるのが一番速いみたいでした。

Javaで文字の出現回数を数えたい

2015-11-08 22:28

RuuMusicをアンドロイダーに載せていただきまして、急激にインストール数が増えてうはうはです。アンドロイダーさまさまです。でまあ、改良を続けているわけなんですが。

ファイルパスの深さを知るためにスラッシュの数を数える、という処理があります。ググったらなんか出て来た適当な書き方をしているのですが、どうやらこれがとても重いらしく。しかたがないので、思い付いた4通りの書き方を試してみました。

一つめ。何も考えずに数える方法。

int simple(String str, char target){
    int count = 0;

    for(char x: str.toCharArray()){
        if(x == target){
            count++;
        }
    }

    return count;
}

考えてません。とてもシンプルです。

二つめ。replaceで数えたい文字を抜いた文字列を作って、長さを比較することで数える方法。

int replace(String str, char target){
    return str.length() - str.replace(target + "", "").length();
}

短かくて良いやってことで適当に採用したのですが、あまり効率的ではないようです。

三つめ。数えたい文字で文字列を分割して、出来た配列の要素数で数える方法。

int split(String str, char target){
    return str.split(target + "").length - 1;
}

より短かくてちょっとおしゃれっぽいです。 splitメソッドは正規表現を引数に取るので、ドットのような正規表現で意味を持つ文字を探すときには要注意です。

四つめ。正規表現を使ってみた方法。

int regex(String str, char target){
    Pattern p = Pattern.compile(target + "");
    Matcher m = p.matcher(str);
    int count = 0;

    while(m.find()){
        count++;
    }

    return count;
}

長くて格好悪い上に、とても非効率っぽいです。だめだめです。

で、この四つのメソッドに3885文字の文字列を渡して100万回ずつ数えてみました。結果は以下のような感じ。

	265文字ヒット	101文字ヒット	0文字ヒット
simple	988ms	884ms	884ms
replace	26,009ms	18,685ms	10,150ms
split	5,983ms	3,179ms	898ms
regex	13,418ms	10,237ms	8,105ms

なんと、もの凄い差です。何も考えずにfor文を回すのがベストなようです。 splitを使ったものだとヒットする文字が無いときに速くなるのに、regexではそうでもないというのがちょっと意外でした。splitはコンパイル結果をキャッシュしているのかもですね？

ともかくそんなわけで、難しいことを考えるのはやめましょうという結論でした。