提取文本,包括Unicode字符。和Jakarta Lucene等文本搜索引擎的整合過(guò)程十分簡(jiǎn)單。加密/解密PDF文檔。PDFBox從PDF和XFDF格式中導(dǎo)入或?qū)С霰韱螖?shù)據(jù)。向已有PDF文檔中追加內(nèi)容。將一個(gè)PDF文檔切分為多個(gè)文檔。覆蓋PDF文檔。
PDFBox
自從Adobe公司1993年第一次發(fā)布公共PDF參考以來(lái),支持各種語(yǔ)言和平臺(tái)的PDF工具和類(lèi)庫(kù)就如雨后春筍般不斷冒出。然而,java應(yīng)用程序開(kāi)發(fā)的Adobe技術(shù)支持卻相對(duì)滯后。。這是個(gè)奇怪的現(xiàn)象,因?yàn)镻DF文檔是企業(yè)信息系統(tǒng)存儲(chǔ)和交換信息的大勢(shì)所趨,而Java技術(shù)特別適合這種應(yīng)用。然而,Java開(kāi)發(fā)人員似乎直到最近才獲得成熟可用的PDF支持。
功能介紹
1、文本提?。簭腜DF文檔中提取文本。
2、合并&分割:可以把多個(gè)PDF文檔合并成單個(gè),也可以把單個(gè)PDF分拆成多個(gè)PDF文檔。
PDFBox
3、表單填充:可以從PDF表單中提取數(shù)據(jù),或者是填充PDF表單。
4、PDF/A驗(yàn)證:驗(yàn)證PDF文檔是否滿(mǎn)足PDF/A ISO標(biāo)準(zhǔn)。
5、PDF打?。喊裀DF文檔輸出到打印機(jī)——利用了Java的打印API。
6、PDF轉(zhuǎn)換:可以把PDF文檔轉(zhuǎn)換成映像文件。
7、PDF創(chuàng)建:可以從頭創(chuàng)建新的PDF文檔。
8、集成Lucene搜索引擎:Lucene搜索引擎與PDF索引相集成。
PDFBox
更新日志
這個(gè)版本是基于 2.0.5 版本的增量式 bug 修復(fù)版本,包含了幾個(gè)修復(fù)和小改進(jìn),更新如下:
Bug 修復(fù)
[PDFBOX-3313] - Java 9 InaccessibleObjectException
[PDFBOX-3318] - IllegalArgumentException in PDPageTree constructor: root cannot be null
[PDFBOX-3347] - COSName parsing doesn't handle ISO-8859-1 encoded bytes
您的評(píng)論需要經(jīng)過(guò)審核才能顯示
有用
有用
有用