XML、HTML 和 XHTML 文档的正确内容类型是什么?
我需要编写一个简单的爬虫,只获取这些类型的文件。
现在 http://example.net/index.html 可以通过 mod_rewrite 提供 JPEG 文件等服务,因此我需要检查响应标头中的内容类型,并将其与允许的内容类型列表进行比较。
我可以从哪里获得这样的列表?
text/html
application/xhtml+xml
text/xml
application/xml
还有许多其他基于 XML 的媒体类型,例如
application/rss+xml
image/svg+xml
+xml
(对于未注册的
x-