在PHP中迭代字符串中的每一行

问题描述 投票:110回答:7

我有一个表单,允许用户上传文本文件或将文件的内容复制/粘贴到textarea。我可以很容易地区分这两者,并将他们输入的任何一个放入一个字符串变量,但是我从那里去哪里?

我需要遍历字符串的每一行(最好不要担心不同机器上的换行符),确保它只有一个令牌(没有空格,制表符,逗号等),清理数据,然后生成SQL查询基于所有线条。

我是一个相当优秀的程序员,所以我知道如何做到的一般想法,但是我用PHP工作已经很久了,我觉得我在寻找错误的东西,从而得出无用的信息。我遇到的关键问题是我想逐行读取字符串的内容。如果它是一个文件,那将很容易。

我主要寻找有用的PHP函数,而不是如何做到的算法。有什么建议?

php string
7个回答
163
投票

preg_split包含文本的变量,并迭代返回的数组:

foreach(preg_split("/((\r?\n)|(\r\n?))/", $subject) as $line){
    // do stuff with $line
} 

134
投票

我想提出一个明显更快(和内存效率)的替代方案:strtok而不是preg_split

$separator = "\r\n";
$line = strtok($subject, $separator);

while ($line !== false) {
    # do something with $line
    $line = strtok( $separator );
}

测试性能,我在17000行测试文件上迭代100次:preg_split用了27.7秒,而strtok用了1.4秒。

请注意,尽管$separator定义为"\r\n",但strtok将在任一字符上分开 - 从PHP4.1.0开始,跳过空行/标记。

请参阅strtok手册:http://php.net/strtok


92
投票

如果你需要处理不同系统中的换行,你可以简单地使用PHP预定义常量PHP_EOL(http://php.net/manual/en/reserved.constants.php)并简单地使用explode来避免正则表达式引擎的开销。

$lines = explode(PHP_EOL, $subject);

17
投票

这是过于复杂和丑陋,但在我看来这是要走的路:

$fp = fopen("php://memory", 'r+');
fputs($fp, $data);
rewind($fp);
while($line = fgets($fp)){
  // deal with $line
}
fclose($fp);

4
投票
foreach(preg_split('~[\r\n]+~', $text) as $line){
    if(empty($line) or ctype_space($line)) continue; // skip only spaces
    // if(!strlen($line = trim($line))) continue; // or trim by force and skip empty
    // $line is trimmed and nice here so use it
}

^这就是你如何正确打破线条,跨平台兼容Regexp :)


4
投票

考虑到你需要能够在不同的机器上处理换行,Kyril的答案是最好的。

“我主要是在寻找有用的PHP函数,而不是如何做到的算法。有什么建议吗?”

我经常使用这些:

  • 在给定单个分隔符的情况下,explode()可用于将字符串拆分为数组。
  • implode()是爆炸的对应物,从数组返回到字符串。

3
投票

strtok可能存在的内存问题:

由于其中一个建议的解决方案使用strtok,遗憾的是它没有指出潜在的内存问题(尽管它声称内存有效)。根据strtok使用the manual时,:

请注意,只有第一次调用strtok才会使用字符串参数。每次对strtok的后续调用只需要使用令牌,因为它会跟踪它在当前字符串中的位置。

它通过将文件加载到内存中来完成此操作。如果您正在使用大文件,则需要在循环浏览文件时对其进行刷新。

<?php
function process($str) {
    $line = strtok($str, PHP_EOL);

    /*do something with the first line here...*/

    while ($line !== FALSE) {
        // get the next line
        $line = strtok(PHP_EOL);

        /*do something with the rest of the lines here...*/

    }
    //the bit that frees up memory
    strtok('', '');
}

如果您只关心物理文件(例如数据挖掘):

According to the manual,对于文件上传部分,您可以使用file命令:

 //Create the array
 $lines = file( $some_file );

 foreach ( $lines as $line ) {
   //do something here.
 }
© www.soinside.com 2019 - 2024. All rights reserved.