text-parsing 相关问题

文本解析是解析的一种变体，它指的是将文本流分解为不同组件并捕获这些组件之间关系的操作。

我该如何转型数组1 ( [0] => 一些文字 [1] => 一些其他文本 (+14.20 英镑) [2] => 文本文本 (+26.88 英镑) [3] => 另一件 (+68.04 英镑) ）像这样的关联数组...

php arrays associative-array text-parsing

回答 3 投票 0

从 HTML 字符串中包裹在 标签中的所有 标签中获取文本

我在 PHP 方面有点挣扎。我创建了一个数组并用一些curl 返回数据填充了一些位置。我不知道如何在每个数组位置中搜索并返回... 我在 PHP 方面有点挣扎。我创建了一个数组，并用一些curl返回数据填充了一些位置。我不知道如何在每个数组位置中搜索 并将其中的每个字符返回到 。从终端我可能会做这样的事情： grep -A 2 strong | sed -e 's///' -e 's/<\/strong><br\/>//' -e 's/ //' -e 's/<\/p>//' -e 's/--//' -e 's/^[ \t]*//;s/[ \t]*$//' 但是我在 PHP 中迷失了有什么建议吗？编辑：我想要每个的内容到 编辑2：这是我正在尝试的代码： $m=array(); preg_match_all('/(.*?)<\/p>/',$buffer,$m); $sizeM = count($m); for ( $counter2 = 0; $counter2 <= $sizeM; $counter2++) { $displayString.= $m[$counter2]; } 并获取 ArrayArrayArray...作为我的 $displayString 编辑3：我正在这样做： $curl_handle=curl_init(); curl_setopt($curl_handle,CURLOPT_URL, $url); curl_setopt($curl_handle, CURLOPT_USERAGENT, "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.15) Gecko/20110303 Ubuntu/10.04 (lucid) Firefox/3.6.15"); curl_setopt($curl_handle, CURLOPT_HEADER, 0); curl_setopt($curl_handle,CURLOPT_RETURNTRANSFER,1); $buffer = curl_exec($curl_handle); curl_close($curl_handle); $m=array(); preg_match_all('/.*?(.*?)<\/p>/i',$buffer,$m); foreach($m[1] as $mnum=>$match) { $displayString.='Match '.$mnum.' is: '.$match."\n"; } 在 PHP 和许多其他语言中，最好不要使用字符串函数或正则表达式来匹配 HTML，因为 HTML 不是正则的，并且可能会出现真正的错误。您应该看到的是一个 DOM 系统，您可以将 html 作为对象进行迭代，就像 JavaScript 访问 DOM 一样。您应该查看以下本机 PHP 库来帮助您入门：http://php.net/manual/en/class.domdocument.php 您可以像这样简单地使用： $xml = new DOMDocument(); // Load the url's contents into the DOM $xml->loadHTMLFile($url); //Loop through each <a> tag in the dom and add it to the link array foreach($xml->getElementsByTagName('a') as $link) { echo $link->href . "\n"; } 这将找到文档中的所有链接。另请参阅我创建的帖子以及 Gordon 的精彩回答：How do you parse and process HTML/XML in PHP? preg_match_all() $m=array(); preg_match_all('/\s*([\s\S]*?)<\/p>/i',$string,$m); foreach($m[1] as $mnum=>$match){ $displayString.='Match '.$mnum.' is: '.$match."\n"; } $m 现在包含所有匹配项。 $m[0] 持有整场比赛， $m[1] 保存括号匹配项正如其他帖子中所指出的，如果您尝试处理 HTML，则不应使用正则表达式。要处理查找，您可以使用DOMDocument： $doc = new DOMDocument(); $doc->loadHTML($html); $pTags = $doc->getElemetsByTagName('p'); for ($pTags as $pTag) { if ($pTag->firstChild->nodeName === 'strong') { $data = $pTag->firstChild->nodeValue; } } 或者使用 XPath: $doc = new DOMDocument(); $doc->loadHTML($html); $xpath = new DOMXPath($doc); $matchingNodes = $xpath->query('//p/strong'); 或者您甚至可以使用外籍人士。这些方法比使用正则表达式更清晰、经过验证、灵活且更安全。我个人最喜欢从 xml 样式文档中提取数据的是 xpath。这是一组很好的 xpath 示例：http://msdn.microsoft.com/en-us/library/ms256086.aspx 编辑： *注意：如果您尝试处理非常大的 XML/HTML 文档，您将不想使用 DOMDocument 或 XPath，因为它们对于大型文档可能会很慢。对于这些情况，请使用事件驱动的 XML 解析器。我们在工作中遇到过使用 XPath 解析大型 XML 文件需要几分钟的情况，而使用事件驱动解析器解析同一文件只需要几秒钟。正则表达式将是你的朋友。 strpos、substr 和 explode 是有用的 php 函数。好吧，如果位置与您期望的结果不相关，您可以尝试将数组合并到单个字符串中，并在其中执行正则表达式... 这是代码 <?php $data = array( 'DONT MATCH THISDONT MATCH THIShello1!DONT MATCH THISDONT MATCH THISDONT MATCH THIS', 'DONT MATCH THISDONT MATCH THIShello2!DONT MATCH THISDONT MATCH THISDONT MATCH THIS', 'DONT MATCH THISDONT MATCH THIShello3!DONT MATCH THISDONT MATCH THISDONT MATCH THIS', 'hello4!DONT MATCH THISDONT MATCH THIShello5! test testDONT MATCH THISDONT MATCH THISDONT MATCH THIS', 'DONT MATCH THISDONT MATCH THIShello6!DONT MATCH THISDONT MATCH THISDONT MATCH THIS', ); preg_match_all('/.*?<\/p>/',implode($data,''),$results); print_r($results); ?> 让我知道这是否适合您。干杯！

php html string text-extraction text-parsing

回答 5 投票 0

获取分隔字符串中的第二个和第三个值并分配给变量

我有以下字符串： CAE33D8E804334D5B490EA273F36830A9849ACDF|xx|yy|46|13896|9550 在下面的代码中对应于$track_matches[0][0]。唯一的恒定长度字段是第一个 (

php string text-parsing delimited

回答 3 投票 0

sed 中的行号和否定搜索组合

我有一个 csv，其尾部缺少列数据，例如下列：数据1、数据2、用户 abc,def,foo 嗨，荷航，foo 没有，qrs tuv,wxy 在本例中，我想将 bar 添加到不带 foo 的行末尾。那是

text sed command-line text-parsing

回答 1 投票 0

PowerAutomate Flow 帮助 - 更新两个不同阵列的列表

有人能够帮助我弄清楚电力自动化流程的逻辑吗？我正在尝试解析电子邮件，并且已经达到了提取我想要的数据并将其保存在 2 小时内的地步...