文档处理控件TX Text Control系列教程：使用 .NET C# 从 PDF 文档中提取基于模板的文本-控件新闻-慧都网

文档处理控件TX Text Control系列教程：使用 .NET C# 从 PDF 文档中提取基于模板的文本

翻译|使用教程|编辑：吉炜炜|2025-02-17 10:49:30.597|阅读 16 次

概述：使用 TX Text Control 进行基于模板的文本提取提供了一种从 PDF 文档中检索结构化数据的有效方法。本文介绍如何使用模板从 PDF 文档中提取文本。

# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>

实现基于模板的文本提取

第一步，我们希望确定已知文档中已知数据的文本位置。使用示例 PDF，找到在特定位置一致出现的已知文本（例如公司名称或发票号码）。

让我们看一下非常典型的美国税表W9。

PDF 表单

该文档仍然启用了表单字段，如果我们有权访问该文档，则只需遍历表单字段即可使用 TX Text Control 轻松提取数据。

但在这种情况下，我们无法访问源文档，只能访问扁平化版本，其中所有表单字段都已被删除，只有文本可见。

扁平化的 PDF 表单

现在我们要定义矩形来搜索公司名称。

长方形

创建应用程序

为了演示使用 TX 文本控制库实现这一点有多么简单，我们将使用 .NET 控制台应用程序。

确保您下载了.NET 8 SDK附带的最新版本的 Visual Studio 2022 。

在 Visual Studio 2022 中，通过选择“创建新项目”来创建新项目。
选择控制台应用程序作为项目模板然后单击下一步确认。
为您的项目选择一个名称然后单击下一步确认。
在下一个对话框中，选择.NET 8 (长期支持)作为框架并通过创建进行确认。

添加 NuGet 包

在解决方案资源管理器中，选择您创建的项目，然后从项目主菜单中选择管理 NuGet 包...。

从包源下拉菜单中选择文本控制离线包。

安装以下软件包的最新版本：
- TXTextControl.TextControl.ASP.SDK

训练数据

以下代码使用 TX Text Control 查找我们的训练数据“Text Control, LLC”的已知值，并返回稍后将用于所有其他文档的位置。

								
												using TXTextControl.DocumentServer.PDF.Contents;
											
												try
											
												{
											
												string pdfFilePath = "FormW9.pdf";
											
												// Check if the file exists before processing
											
												if (!File.Exists(pdfFilePath))
											
												{
											
												Console.WriteLine($"Error: File '{pdfFilePath}' not found.");
											
												return;
											
												}
											
												// Load PDF lines
											
												var pdfLines = new Lines(pdfFilePath);
											
												// Find the target text
											
												var trainLines = pdfLines.Find("Text Control, LLC");
											
												// Check if any lines were found before accessing the index
											
												if (trainLines.Count > 0)
											
												{
											
												Console.WriteLine(trainLines[0].Rectangle.ToString());
											
												}
											
												else
											
												{
											
												Console.WriteLine("Text not found in the PDF.");
											
												}
											
												}
											
												catch (Exception ex)
											
												{
											
												Console.WriteLine($"An error occurred: {ex.Message}");
											
												}

控制台包含找到的文本的位置。

{X=1192,Y=2566,Width=1510,Height=180}

提取文本

下一个代码片段加载第二个文档并在给定的矩形中搜索文本，该文本是我们从训练数据中检索到的。

								
												using System.Drawing;
											
												using TXTextControl.DocumentServer.PDF.Contents;
											
												try
											
												{
											
												string pdfFilePath = "FormW9_2.pdf";
											
												// Check if the file exists before processing
											
												if (!File.Exists(pdfFilePath))
											
												{
											
												Console.WriteLine($"Error: File '{pdfFilePath}' not found.");
											
												return;
											
												}
											
												// Load PDF lines
											
												var pdfLines = new Lines(pdfFilePath);
											
												// Define the search area
											
												var searchRectangle = new Rectangle(1192, 2566, 1510, 180);
											
												// Find text within the defined rectangle (include partial matches)
											
												var contentLines = pdfLines.Find(searchRectangle, true);
											
												// Filter only page 1 content lines
											
												var page1ContentLines = contentLines.Where(cl => cl.Page == 1).ToList();
											
												// Check if any content was found
											
												if (page1ContentLines.Count > 0)
											
												{
											
												Console.WriteLine(page1ContentLines[0].Text);
											
												}
											
												else
											
												{
											
												Console.WriteLine("No content found in the specified rectangle on page 1.");
											
												}
											
												}
											
												catch (Exception ex)
											
												{
											
												Console.WriteLine($"An error occurred: {ex.Message}");
											
												}

控制台包含从第二个文档中提取的文本。

Document Processing Enterprises Ltd.

因为我们使用了Findtrue方法的第二个参数，所以搜索将返回整行，即使在这种情况下公司名称更长。

即使公司名称到了行末，它也会找到正确的值。

长公司名称

This is a very long company name - This is a very long company name - This is a very long company name

结论

基于模板的文本提取是一项强大的功能，可用于从 PDF 文档中提取结构化信息。通过在已知文本周围定义一个矩形，TX Text Control 可以从类似文档中提取文本，即使文本不在表单字段中。

————————————————————————————————————————————

慧都是Text Control的官方授权代理商，提供TX Text Control 系列产品免费试用，咨询，正版销售等于一体的专业化服务。

下载或体验产品，请咨询，或拨打产品热线：023-68661681

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@dpuzeg.cn

上一篇：DevExpress WinForms中文教程：Grid View - 如何实现识别行操作？（一）下一篇：.NET版PDF处理控件Aspose.PDF教程：在 C# 中将 TIFF 文件转换为 PDF

世俱杯 2025

在线采购

中文文档库

试用/Demo下载

开发社群