pdf解析可以用來讀取PDF文件中字符串文本,圖片數據。Apache PDFbox是一個開源的、基于Java的、支持PDF文檔生成的工具庫,它可以用于創建新的PDF文檔,修改現有的PDF文檔,還可以從PDF文檔中提取所需的內容。Apache PDFBox還包含了數個命令行工具。
Apache PDFBox主要有以下特征:
PDF讀取、創建、打印、轉換、驗證、合并分割等特征。
(1) 讀取文本數據
讀取文本并沒有特別需要說明的地方,就是獲取PDF文本起始頁,結束頁,通過getText函數直接獲取PDF的所有文本。
(2) 獲取PDF的中圖片
將獲取的PDF中圖片對象保存到另一個PDF中
此方法可以取出源PDF中圖片對象PDImageXObject,然后可以對該對象進行相關處理,本代碼實現了將提取出來的每一個圖片對象,插入到一個空白的PDF文檔中。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
數據
+關注
關注
8文章
6518瀏覽量
87705 -
字符串
+關注
關注
1文章
553瀏覽量
20181 -
PDF
+關注
關注
1文章
163瀏覽量
33042
原文標題:PDF解析思路
文章出處:【微信號:gh_757915171cb5,微信公眾號:FPGA自學筆記】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
如何讓串口輸出的字符串以十六進制形式寫入文本文件
求教,串口輸出字符串如果直接用字符串顯示的話可以選擇十六進制顯示,這樣結果就是正確的,但如果寫入文本文件,顯示的就是亂碼,如何能讓字符串以十
發表于 04-27 16:40
如何修改簇中字符串控件文本顏色
`labview如何修改簇中字符串控件的文本顏色。我用簇的control[]屬性節點,再調用具體控件的屬性節點,只看見標簽與標題的選項,卻找不到文本的選項。有哪位大神知道怎么做嗎?`
發表于 05-19 22:43
怎么把圖片jpg轉換成pdf文件呢
` 當大家想在文章中插圖的時候,往往都會在網上下載很多的圖片,但日積月累儲存的圖片越來越多,根本就不知道想要的圖片哪一張,這該怎么辦呢,其實只需要把
發表于 10-26 15:49
labview中字符串顯示控件顯示最新數據的方法
在labview中字符串顯示控件默認的顯示模式是顯示最早的數據,在做串口顯示時查看即時數據比較麻煩,其實簡單的設置一下字符串顯示控件參數就
發表于 07-23 08:22
Harmony Graphic Composer:包裹字符串/文本
嗨,我使用和聲V2.06.有一個函數,如果字符串長,字符串會自動包裝在一個標簽中?或者,有可能在字符串中添加一個新的行
發表于 09-03 16:24
解決讀取TXT文件時輸出字符串亂碼問題
解決讀取TXT文件時輸出字符串亂碼問題打開TXT文件時如果內容中存在中文,輸出時會出現亂碼問題,因為labview默認的編碼格式是UTF-8
發表于 12-23 14:23
聊聊字符串
大家好,我是驚覺,今天聊聊字符串。字符串的使用場景非常之多,人機交互和雙機通信都會用到。比如:通過串口向單片機發送指令,以執行操作或配置參數。單片機讀取傳感器數據,
發表于 02-28 06:52
評論