html-parsing 相关问题

HTML解析是消耗HTML文档的序列化并产生可以以编程方式工作的表示的过程 - 例如,为了从中提取数据。 HTML规范定义了用于解析HTML的标准算法,该算法在所有主流浏览器中实现。



为什么我的HTML解析器未输出想要的数字

我的编程老师在Python中使我们的计划成为计算器,以计算L/100km的燃料完成,我决定走得更远,甚至可以计算出每100公里的价格,但我试图使用BeautifutSoup4(BS44)(BS4)(BS4)(BS4) )因此,它为我找到了汽油价格,如果它在网站上更改,我发现了该号码的CSS选择器,但是我不确定它是错误的还是解析器中的错误,因为当我运行它时,它会返回”初始数字:无”而不是CSS选择器指定的数字。这是我解析器的代码:

回答 1 投票 0

使用Beautifutsoup从WikiSource提取文本返回空效果

正在使用的是我正在使用的代码:

回答 1 投票 0

Yelp的评论 - BeautifulSoup

SOIM试图从Yelp那里获得所有评论:https://www.yelp.com/biz/capri-laguna-laguna-beach 我在下面有我的代码,但我无法提取所有评论。.我只能脉动...

回答 2 投票 0

从解析的 HTML 内容填充分组的多维数组

我正在尝试使用 foreach 循环在 PHP 中创建多维数组。这是迄今为止的代码: 对于 ($day1 = $day; $day1 <= 2; $day1++) { $train_list['option'][] = array('day' => $...

回答 1 投票 0

python 上的解析器返回一个空列表(我猜这是一个 HTML 类选择问题)

我的想法是:我想收集公寓的名称及其价格,作为网站上每套公寓的列表。 我在 python 上做了一个简单的解析器,但看起来我无法获取任何值,因为它返回一个

回答 1 投票 0

通过动态URL从外部网页获取标题文本

我尝试在 $feed_title 变量中使用 $value 。并生成所有 200 个 $feed_title 变量。 我想要完成的事情看起来像这样: 提要网址:http://example.com/term/###/fee...

回答 2 投票 0

将 HTML 文本解析为整个标签的平面数组

我想在 PHP 中拆分/分解字符串。该字符串如下所示: 标签值 得到这个结果: 大批( '标签 我想在 PHP 中拆分/分解字符串。该字符串如下所示: <strong>Label</strong><p>Value</p> 结果如下: array( '<strong>Label</strong>', '<p>Value</p>' ) 我该怎么做? 你可以这样做: $string = "<strong>Label</strong><p>Value</p>"; $pos = strpos($string,'<p>'); $array = array(); $array[] = substr($string, 0,$pos); $array[] = substr($string,$pos); 或者使用 preg_match: preg_match('%(.*g>)(.*)%',$string,$array); //$array[1] = '<strong>Label</strong>' //$array[2] = '<p>Value</p>' 这不是总是比 preg 函数更快吗? <?php $str = "<strong>Label</strong><p>Value</p>"; $str = explode( "g><p", $str ); $str = implode( "g>~<p", $str); $str = explode( "~", $str ); 请注意:标签可能会嵌套,逻辑会变得困难。 如果不做一些有点像黑客的事情,你将无法通过爆炸实现这一目标: $str = "<strong>Label</strong><p>Value</p>"; $strExp = explode("<p>", $str); $strExp[1] = "<p>" . $strExp[1]; 我建议使用正则表达式。 这不是 split 的工作原理。您需要将 preg_split 与 PREG_SPLIT_DELIM_CAPTURE 标志一起使用。 这应该可以解决问题; $string = "<strong>Label</strong><p>Value</p>"; $array = explode("\t", str_replace("><", ">\t<", $string));

回答 5 投票 0

使用 BeautifulSoup 获取标签的子项数量

我正在编写一个分析工具,可以计算源代码中有多少个孩子拥有 HTML 标签。 我用 BeautifulSoup 映射了代码,现在我想迭代页面中的任何标签并计数......

回答 5 投票 0

如何在C++中到达根目录?

我正在构建一个网络服务器。我正在尝试构建一个函数处理程序来解析根目录中的index.html 文件。它有效,但是当我访问本地主机 127.0.0.1:8080 上的网站时,我得到...

回答 1 投票 0

如何使用 iText 将带有图像和超链接的 HTML 转换为 PDF?

我正在尝试在同时使用 MVC 和 Web 表单的 ASP.NET Web 应用程序中使用 iTextSharp 将 HTML 转换为 PDF。 和 元素具有绝对和相对 URL,有些...

回答 2 投票 0

如何正确地将预格式化文本从网站导入 Excel 并且它看起来仍然像预格式化文本?

我工作的地方使用国家气象局的火灾天气预报产品为消防管理人员制作一个产品,该产品具有特定于其所在地区的火灾天气。我们曾经

回答 1 投票 0

使用 PHP 解析动态加载的 HTML

我正在尝试解析来自网络网址的数据。但是,相关 URL 似乎会在浏览器加载时动态加载内容。 到目前为止我已经尝试了几件事: $dom = 新的 DOMDocument; $dom...

回答 1 投票 0

AngleSharp 解析

在没有类名或id可供使用的情况下,找不到很多使用AngleSharp进行解析的示例。 超文本标记语言 当你没有类名或id可供使用时,找不到很多使用AngleSharp进行解析的示例。 HTML <span><a href="google.com" title="Google"><span class="icon icon_none"></span></a></span> <span><a href="bing.com" title="Bing"><span class="icon icon_none"></span></a></span> <span><a href="yahoo.com" title="Yahoo"><span class="icon icon_none"></span></a></span> 我想从任何具有 title = Bing 的 <a> 标签中查找 href 在 Python BeautifulSoup 中我会使用 item_needed = a_row.find('a', {'title': 'Bing'}) 然后获取 href 属性 或 jQuery a[title='Bing'] 但是,我无法使用 AngleSharp 例如。下面的例子 https://github.com/AngleSharp/AngleSharp/wiki/Examples#getting-certain-elements c# AngleSharp var parser = new AngleSharp.Parser.Html.HtmlParser(); var document = parser.Parse(@"<span><a href=""google.com"" title=""Google""><span class=""icon icon_none""></span></a></span>< span >< a href = ""bing.com"" title = ""Bing"" >< span class=""icon icon_none""></span></a></span><span><a href = ""yahoo.com"" title=""Yahoo""><span class=""icon icon_none""></span></a></span>"); //Do something with LINQ var blueListItemsLinq = document.All.Where(m => m.LocalName == "a" && //stuck); 看起来您的 HTML 标记存在问题,导致 AngleSharp 无法找到目标元素,即尖括号周围的空格: < span >< a href = ""bing.com"" title = ""Bing"" >< span class=""icon icon_none""> 修复 HTML 后,LINQ 和 CSS 选择器都成功选择了目标链接: var parser = new AngleSharp.Parser.Html.HtmlParser(); var document = parser.ParseDocument(@"<span><a href=""google.com"" title=""Google""><span class=""icon icon_none""></span></a></span><span><a href = ""bing.com"" title = ""Bing""><span class=""icon icon_none""></span></a></span><span><a href = ""yahoo.com"" title=""Yahoo""><span class=""icon icon_none""></span></a></span>"); //LINQ example var blueListItemsLinq = document.All .Where(m => m.LocalName == "a" && m.GetAttribute("title") == "Bing" ); //LINQ equivalent CSS selector example var blueListItemsCSS = document.QuerySelectorAll("a[title='Bing']"); //print href attributes value to console foreach (var item in blueListItemsCSS) { Console.WriteLine(item.GetAttribute("href")); }

回答 1 投票 0

代码不会向下滚动播放列表来解析歌曲名称

在Python中使用beautifulsoup和selenium,我试图向下滚动播放列表中的歌曲列表来解析歌曲名称。然而,代码不会越过前 30 首歌曲并向下滚动...

回答 1 投票 0

使用c#解析html以获取内容

我正在编写一个应用程序来抓取一组网页。我不想获取页面的整个源代码,而是想获取所有内容并存储它,并且能够存储页面......

回答 1 投票 0

如何解析 HTML 网页并删除 <br> 标签?

我需要解析一个包含 标签(其中很多)的网站,我想获取它们并将它们放在 csv 文件中(在同一列中)。 经过测试,我发现这些段落不在同一个c上... 我需要解析一个包含 <p> 标签(其中很多)的网站,我想获取它们并将它们放在 csv 文件中(在同一列中)。 测试后,我发现这些段落不在同一列上,这是因为 <br> 位于 <p> 标签示例: HTML: <div class="text"> <p> hello <br> friends </p> <p> parsing is cool <br> using <br> simpleHTMLdom </p> </div> 当我解析下面的 html 时,我得到两个 <p> 但不在同一个 csv“列”上。 我的代码: if($html_book_page->find('.text')){ foreach($html_book_page->find('div[class=text] p') as $bookPreview){ array_push($book, $bookPreview->plaintext); } } $book 是包含所有文本的数组,我将 $book 放在 csv 上,如下所示: fputcsv($open_csv, array_values($book), ',', ' '); 任何方式获得: (csv 标题:TEXT)和内部: “你好朋友,使用 simpleHTMLdom 解析很酷”?因为目前我有“你好”,在另一栏中我有“朋友”..“解析很酷”...“使用”....“simpleHTMLdom” 谢谢大家 为什么不在 CSV 插入之前执行 jQuery.remove() 操作?像这样的东西: $('.text p').find('br').remove() 如果您不想从页面中永久删除 <br>,您可以在 for 循环中执行以下操作: foreach($html_book_page - > find('div[class=text] p') as $bookPreview) { $bookPreview.innerHTML.replace("<br>", ""); array_push($book, $bookPreview - > plaintext); }

回答 1 投票 0

使用 Angular 编译器解析 html 时出现内部错误

我正在创建一个 Angular Shcematics 项目,以向我的 Angular 项目提出建议。我正在尝试使用内置的角度编译器来解析代码,因为诸如 parse5 和

回答 1 投票 0

替换<a>标签中href声明的查询字符串[关闭]

我想动态替换以下超链接 从 21 到 21<...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.