<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Camelot:Python超強大的PDF表格提取器

科技綠洲 ? 來源:Python實用寶典 ? 作者:Python實用寶典 ? 2023-10-21 10:57 ? 次閱讀

如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。

Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數據結構,而且還能導出為多種格式:JSON,Excel,HTML和Sqlite。

下面給大家介紹這個模塊的使用方法:

1.準備

開始之前,你要確保Python和pip已經成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細Python安裝指南 進行安裝。

如果你用Python的目的是數據分析,可以直接安裝Anaconda:Python數據分析與挖掘好幫手—Anaconda,它內置了Python和pip.

此外,推薦大家用VSCode編輯器,它有許多的優點:Python 編程的最好搭檔—VSCode 詳細指南。

請選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環境 打開 Cmd (開始-運行-CMD)。
  2. MacOS 環境 打開 Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]

2.使用

最簡單的使用方式如下:

import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,導入了camelot這個模塊。

第二行,以stream的模式讀取當前目錄的foo.pdf文件。

第三行,將所有表格數據導出為 foo.csv 文件,并保存在當前文件夾下。

相當簡單,請注意,read_pdf 的 flavor 參數是可選的,如果你不帶這個參數,請注意需要安裝 ghostscript 這個驅動,因為它默認使用 ghostscript 去用 lattice 模式。

3.進階

3.1 處理背景線:

圖片

可以看到,很多表格的線都隱藏在背景中。這種表格默認是不支持的,這時候我們需要讓程序能夠自動識別這樣的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 參數即可。

3.2 指定表格區域

某些情況下無法正確識別到PDF中的表格,此時手動設定左上角和右下角的邊界可能是有效果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標空間中,頁面的左下角是原點,坐標為(0,0)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據結構
    +關注

    關注

    3

    文章

    564

    瀏覽量

    39934
  • python
    +關注

    關注

    52

    文章

    4697

    瀏覽量

    83591
  • 提取器
    +關注

    關注

    0

    文章

    14

    瀏覽量

    8100
收藏 人收藏

    評論

    相關推薦

    基于python讀取excel表格

    Python:利用python讀取excel表格的那些七七八八事
    發表于 12-28 14:23

    【建議收藏】Python庫大全

    -用Python進行新聞提取、文章提I取和內容策展。html2text -將HTML轉為Markdown格式文本。python-goose一HTML內容/文章提取
    發表于 09-06 15:58

    2021年度python13本電子書單含源碼PDF電子版百度網盤下載

    2021年度python書單PDF電子版下載鏈接:https://pan.baidu.com/s/10bR41hpAXpsWZWkbSPxaRA提取碼:cn85
    發表于 05-08 15:45

    python教程之如何使用XlsxWriter模塊創建aexcel表格

    本文檔的主要內容詳細介紹的是python教程之如何使用XlsxWriter模塊創建aexcel表格。
    發表于 01-18 17:01 ?10次下載
    <b class='flag-5'>python</b>教程之如何使用XlsxWriter模塊創建aexcel<b class='flag-5'>表格</b>

    使用Python操作excel表格的xlrd介紹

    本文檔的主要內容詳細介紹的是使用Python操作excel表格的xlrd介紹。
    發表于 07-02 08:00 ?2次下載

    Python編程入門》.pdf

    Python編程入門》.pdf
    發表于 02-11 16:03 ?0次下載

    reportlab如何輸入Python的第三方庫

    reportlab是Python的一個標準庫,可以畫圖、畫表格、編輯文字,最后可以輸出PDF格式。它的邏輯和編輯一個word文檔或者PPT很像。
    的頭像 發表于 08-08 10:35 ?812次閱讀

    PythonPDF表格提取器-Camelot

    Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數據結構,而且還能導出為多種格式:JSON,E
    的頭像 發表于 02-24 11:04 ?1758次閱讀
    <b class='flag-5'>Python</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b>器-<b class='flag-5'>Camelot</b>

    如何提取Word文檔表格保存到Excel

    提取到Excel表中。例如,提取word文檔中的財務數據、考勤數據等,將數據存儲到 Excel表中,本次項目我們專門針對word文檔中的表格數據進行解析與提取。
    的頭像 發表于 02-24 16:00 ?2194次閱讀
    如何<b class='flag-5'>提取</b>Word文檔<b class='flag-5'>表格</b>保存到Excel

    只需2行代碼,輕松將PDF轉換成Word

    可將 PDF 轉換成 docx 文件的 Python 庫。該項目通過 PyMuPDF 庫提取 PDF 文件中的數據,然后采用 python-
    的頭像 發表于 05-08 14:23 ?751次閱讀
    只需2行代碼,輕松將<b class='flag-5'>PDF</b>轉換成Word

    Camelot超強大PDF表格提取

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準識別
    的頭像 發表于 10-30 09:44 ?381次閱讀
    <b class='flag-5'>Camelot</b>:<b class='flag-5'>超強大</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b>器

    Newspaper:用于提取和整理文章的python

    Newspaper 是一個很棒的python庫,用于提取和整理文章。 它有以下的優點: 多線程文章下載框架 識別新聞網址 從html提取文本 從html提取頂部圖像 從html
    的頭像 發表于 10-30 14:24 ?353次閱讀

    Camelot模塊的使用方法

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準識別
    的頭像 發表于 11-01 10:02 ?441次閱讀
    <b class='flag-5'>Camelot</b>模塊的使用方法

    Python中Excel轉PDF的實現步驟

    將Excel文件轉換為PDF可以方便儲存表格數據,此外在打印或共享文檔時也能確保表格樣式布局等在不同設備和操作系統上保持一致。今天給大家分享一個使用第三方Python庫Spire.XL
    的頭像 發表于 11-20 15:02 ?447次閱讀
    <b class='flag-5'>Python</b>中Excel轉<b class='flag-5'>PDF</b>的實現步驟

    python如何遍歷列表并提取

    遍歷列表是Python中非常常見的操作之一,可以使用for循環或者while循環來實現。下面我將詳細介紹如何使用for循環遍歷列表并提取元素。 首先,讓我們簡單了解一下Python中的列表。列表
    的頭像 發表于 11-23 15:55 ?746次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>