4.18 文本挖掘

How did Axios rectangle Trump’s PDF schedule? A try with R 使用 pdftools 和 magick 处理表格,这两个 R 包分别依赖 Poppler C++ 和 ImageMagick++,在 Ubuntu 上安装 pdftools 和 magick 包

sudo apt-get install libpoppler-cpp-dev libmagick++-dev
install.packages(c("pdftools", "magick"))

除了 pdftools 包外,PDF 文档中表格抽取工具还有 tabulizer。扫描版 PDF 文档需要OCR识别技术支持的 tesseract 包