jcr:创建(DATE)
有人可以向我解释,在以下情况下如何进行?
接收文档(MS文档,ODS,PDF)
通过Apache Tika的公共核心元数据提取+通过jackrabbit-content-extractors的内容提取
使用Jackrabbit将文档(内容)及其元数据一起存储到存储库中?
检索文档+元数据
我对第3点和第4点感兴趣...
详细信息:该应用程序正在以交互方式处理文档(一些分析-语言检测,字数统计等+尽可能多地收集详细信息-都柏林核心+解析内容/事件处理),以便将处理结果返回给用户,然后将提取的内容返回给用户和元数据(提取的和自定义的用户元数据)存储到JCR存储库中>
感谢您的帮助,谢谢
有人可以向我解释,在以下情况下如何进行?接收文档(MS docs,ODS,PDF)通过Apache Tika进行双核心核心元数据提取+通过jackrabbit-content -...进行内容提取
jcr:创建(DATE)
jcr:createdBy(STRING)
jcr:lastModified(DATE)自动创建
// Get an input stream for the file ...
File file = ...
InputStream stream = new BufferedInputStream(new FileInputStream(file));
Node folder = session.getNode("/absolute/path/to/folder/node");
Node file = folder.addNode("Article.pdf","nt:file");
Node content = file.addNode("jcr:content","nt:resource");
Binary binary = session.getValueFactory().createBinary(stream);
content.setProperty("jcr:data",binary);
并且如果JCR实现未将“ jcr:mimeType”属性视为受保护的对象(即Jackrabbit和ModeShape),则必须手动设置此属性:
content.setProperty("jcr:mimeType","application/pdf");
元数据可以很容易地存储在“ nt:file”和“ jcr:content”节点上,但是现成的“ nt:file”和“ nt:resource”节点类型不允许额外的属性。因此,在添加其他属性之前,首先需要添加一个mixin(或多个mixin),这些mixin具有要存储的各种属性的属性定义。您甚至可以定义允许任何属性的混合。这是一个定义此类混合的CND文件:
<custom = 'http://example.com/mydomain'>
[custom:extensible] mixin
- * (undefined) multiple
- * (undefined)
注册此节点类型定义后,可以在节点上使用它:
content.addMixin("custom:extensible");
content.setProperty("anyProp","some value");
content.setProperty("custom:otherProp","some other value");
您还可以定义并使用允许任何Dublin Core element使用的mixin:
<dc = 'http://purl.org/dc/elements/1.1/'>
[dc:metadata] mixin
- dc:contributor (STRING)
- dc:coverage (STRING)
- dc:creator (STRING)
- dc:date (DATE)
- dc:description (STRING)
- dc:format (STRING)
- dc:identifier (STRING)
- dc:language (STRING)
- dc:publisher (STRING)
- dc:relation (STRING)
- dc:right (STRING)
- dc:source (STRING)
- dc:subject (STRING)
- dc:title (STRING)
- dc:type (STRING)
所有这些属性都是可选的,并且该mixin不允许使用任何名称或类型的属性。我也并没有真正解决“ dc:metadata”混合问题,因为其中一些已经用内置属性表示(例如,“ jcr:createBy”,“ jcr:lastModifiedBy”,“ jcr:created” ,“ jcr:lastModified”,“ jcr:mimeType”),其中一些可能与内容更相关,而其他一些与文件更相关。
您当然可以定义其他更适合您的元数据需求的混合,并在需要时使用继承。但是要谨慎使用继承与mixin-因为JCR允许一个节点使用多个mixin,所以通常最好将mixin设计为范围狭窄且面向方面的(例如,“ ex:taggable”,“ ex:describable”等)。然后只需根据需要将适当的mixin应用于节点。
((甚至可能要复杂得多,但可以定义一个混合模块来允许“ nt:file”节点下的更多子节点,并在其中存储一些元数据。)
Mixins非常棒,为您的JCR内容提供了极大的灵活性和力量。
哦,当您创建了所有想要的节点后,请确保保存会话:
session.save();
我对JCR有点生疏,我从未使用过2.0,但这应该可以让您入门。
Node folder = session.getRootNode().getNode("path/to/file/uploads");
Node file = folder.addNode(fileName, "nt:file");
Node fileContent = file.addNode("jcr:content");
fileContent.setProperty("jcr:data", fileStream);
// Add other metadata
session.save();
如何存储元数据取决于您。一种简单的方法是只存储键值对:
fileContent.setProperty(key, value, PropertyType.STRING);
要读取数据,您只需调用getProperty()
。
fileStream = fileContent.getProperty("jcr:data");
value = fileContent.getProperty(key);
我是Jackrabbit的新手,正在研究2.4.2。对于您的解决方案,您可以使用核心Java逻辑检查类型,并放入定义操作中任何变化的案例。您无需担心将其他.txt或.pdf内容另存为它们的问题内容转换为二进制文件并保存。这是一个小样本,我在该样本中从jackrabbit存储库中上传和下载了pdf文件。// Import the pdf file unless already imported // This program is for sample purpose only so everything is hard coded. if (!root.hasNode("Alfresco_E0_Training.pdf")) { System.out.print("Importing PDF... "); // Create an unstructured node under which to import the XML //Node node = root.addNode("importxml", "nt:unstructured"); Node file = root.addNode("Alfresco_E0_Training.pdf","nt:file"); // Import the file "Alfresco_E0_Training.pdf" under the created node FileInputStream stream = new FileInputStream("<path of file>\\Alfresco_E0_Training.pdf"); Node content = file.addNode("jcr:content","nt:resource"); Binary binary = session.getValueFactory().createBinary(stream); content.setProperty("jcr:data",binary); stream.close(); session.save(); //System.out.println("done."); System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::"); System.out.println("File Node Name : "+file.getName()); System.out.println("File Node Identifier : "+file.getIdentifier()); System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION); System.out.println("Content Node Name : "+content.getName()); System.out.println("Content Node Identifier : "+content.getIdentifier()); System.out.println("Content Node Content : "+content.getProperty("jcr:data")); System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::"); }else { session.save(); Node file = root.getNode("Alfresco_E0_Training.pdf"); Node content = file.getNode("jcr:content"); String path = content.getPath(); Binary bin = session.getNode(path).getProperty("jcr:data").getBinary(); InputStream stream = bin.getStream(); File f=new File("C:<path of the output file>\\Alfresco_E0_Training.pdf"); OutputStream out=new FileOutputStream(f); byte buf[]=new byte[1024]; int len; while((len=stream.read(buf))>0) out.write(buf,0,len); out.close(); stream.close(); System.out.println("\nFile is created..................................."); System.out.println("done."); System.out.println("::::::::::::::::::::Checking content of the node:::::::::::::::::::::::::"); System.out.println("File Node Name : "+file.getName()); System.out.println("File Node Identifier : "+file.getIdentifier()); //System.out.println("File Node child : "+file.JCR_CHILD_NODE_DEFINITION); System.out.println("Content Node Name : "+content.getName()); System.out.println("Content Node Identifier : "+content.getIdentifier()); System.out.println("Content Node Content : "+content.getProperty("jcr:data")); System.out.println(":::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::"); } //output the repository content } catch (IOException e){ System.out.println("Exception: "+e); } finally { session.logout(); } } }
希望这会有所帮助
谁知道,如果我尝试在一个节点中存储多个文件,会怎么样?我试过了(存储2个文件),但是我的第一个文件内容被第二个文件内容替换。我的意思是,我只能使用一次JCR_DATAm JCR_CONTENT,NT_RESOURCE吗?希望有人可以帮助我,谢谢:)
jcr:创建(DATE)