使用 PHP 的 DOMDocument->loadHTML()
系统获取以下数据(
</b>
标签后的 4.0m)的最佳方法是什么?我猜是某种 CSS 样式选择器?
(LINE 240, always 240) <b>Current Price:</b> 4.0m
http://site.com/q=item/viewitem.php?obj=11928
obj=#
最小/最大值是已知的(我需要刮掉多少页),我想逐步抓取所有这些值,并输出
name
description
和
price
(不太关心到目前为止的上升/下降百分比)到 MySQL 数据库,这样我就可以从那里获取它并将其显示在我的网站中。这是我感兴趣的主要代码块:
<div class="subsectionHeader">
<h2>
Item Name
</h2>
</div>
<div id="item_additional" class="inner_brown_box">
Description of item goes here.
<br>
<br>
<b>Current Price:</b> 4.0m
<br><br>
<b>Change in Price:</b><br>
<span>
<b>30 Days:</b> <span class="rise">+2.5%</span>
</span>
<span class="spaced_span">
<b>90 Days:</b> <span class="drop">-30.4%</span>
</span>
<span class="spaced-span">
<b>180 Days:</b> <span class="drop">-33.3%</span>
</span>
<br class="clear">
</div> </div> <div class="brown_box main_page">
<div class="subsectionHeader"> `
如果有人可以提供有关如何解决此问题的任何基本提示,我们将不胜感激!
使用上面给出的源 HTML 尝试此示例:
//checked with php 5.3.3
if (preg_match('#<h2>(?P<itemName>[^>]+)</h2>.*?<div[^>]+id=([\'"])item_additional(\2)[^>]*>\s*(?P<description>[^<]+).*?<b>\s*Current\s+Price\s?:?</b>\s*(?P<price>[^<]+)#six',$src, $matches))
{
print_r($matches);
}
正则表达式可能看起来太复杂,但有了文档和像 RegexBuddy 或 Expresso 这样的好工具,任何人都可以编写简单的表达式;)
如果您想要最快的方法,并且知道 HTML 结构是一致的,那么使用
strpos
搜索偏移量可能会更快。不过,如果页面结构发生变化,它更有可能崩溃。像这样的东西:
$needles = array(
'name' => "<div class=\"subsectionHeader\">\n<h2>\n"
'description' => "<div id=\"item_additional\" class=\"inner_brown_box\">\n"
'price' => "<b>Current Price:</b> "
);
$buffer = file_get_contents("http://site.com/q=item/viewitem.php?obj=1234");
$result = array();
foreach ($needles as $key => $needle) {
$index1 = strpos($buffer, $needle);
$index2 = strpos($buffer, "\n", $index1);
$value = substr($buffer, $index1, $index2 - $index1);
$result[$key] = $value;
}
您需要使针完全正确,包括任何尾随空白。