Apache Tika是美国阿帕奇(Apache)基金会的一个集成了POI(使用Java程序对MicrosoftOffice格式文档提供读和写功能的开源函数库)、Pdfbox(读取和创建PDF文档的纯Java类库)并为文本抽取工作提供了统一界面的内容抽取工具集合。 Apache Tika 1.28.2 版本之前的 1.x 版本存在安全漏洞,该漏洞源于 StandardsExtractingContentHandler 使用的 StandardsText 类中的正则表达式可能导致因回溯特制文件而导致拒绝服务。
Apache Tika是美国阿帕奇(Apache)基金会的一个集成了POI(使用Java程序对MicrosoftOffice格式文档提供读和写功能的开源函数库)、Pdfbox(读取和创建PDF文档的纯Java类库)并为文本抽取工作提供了统一界面的内容抽取工具集合。 Apache Tika 1.28.2 版本之前的 1.x 版本存在安全漏洞,该漏洞源于 StandardsExtractingContentHandler 使用的 StandardsText 类中的正则表达式可能导致因回溯特制文件而导致拒绝服务。