这个演练场展示了 GY简历编辑简历解析器及其从简历 PDF 中解析信息的能力。点击下面的 PDF 示例，查看不同的解析结果。

您还可以在下面添加您的简历，以访问您的简历被工作申请中使用的类似应用程序跟踪系统（ATS）解析的程度。它可以解析的信息越多，它就越能表明简历格式良好且易于阅读。至少准确解析名称和电子邮件是有益的。

简历解析结果

Profile
Name
Email
Phone
Location
Link
Summary
Education
School
Degree
GPA
Date
Descriptions
Work Experience
Company
Job Title
Date
Descriptions
Skills
Descriptions

简历解析算法深入探讨

对于技术上感兴趣的人，这一部分将深入介绍 GY简历编辑解析器算法，并逐步介绍其工作原理的4个步骤。

第一步：从 PDF 文件中读取文本项

PDF 文件是由 ISO 32000 规范定义的标准化文件格式。当你使用文本编辑器打开一个 PDF 文件时，你会注意到原始内容看起来是编码的，很难阅读。要以可读的格式显示它，你需要一个 PDF 阅读器来解码和查看文件。类似地，简历解析器首先需要解码 PDF 文件以提取其文本内容。

虽然可以编写遵循 ISO 32000 规范的自定义 PDF 读取函数，但更简单的方法是利用现有的库。在这种情况下，简历解析器使用 Mozilla 的开源 pdf.js 库来首先提取文件中的所有文本项。

下表列出了从添加的简历 PDF 中提取的文本项数量为 0。文本项包含文本内容以及一些有关内容的元数据，例如内容的 x、y 位置在文档中，字体是否加粗，或者是否开始新行。（请注意，x、y 位置是相对于页面左下角的，即原点是 0,0）

#	Text Content	Metadata

第二步：将文本项分组成行

提取出的文本项尚不可直接使用，存在两个主要问题：

问题 1：存在一些不必要的噪音。一些单个文本项可能会被分成多个，正如你可能在上表中观察到的那样，例如电话号码 "(123) 456-7890" 可能会被分成3个文本项 "(123) 456"、"-" 和 "7890"。

解决方案：为了解决这个问题，简历解析器会将相邻的文本项连接成一个文本项，如果它们之间的距离小于平均典型字符宽度，则认为是一个文本项。 $距离 = 右侧文本项X₁ - 左侧文本项X₂$ 平均典型字符宽度通过将所有文本项的宽度总和除以文本项的总字符数来计算（加粗文本和换行元素被排除在外，以避免影响结果）。

问题 2：缺乏上下文和关联。当我们阅读简历时，我们会逐行扫描简历。我们的大脑可以通过视觉线索（如文本的加粗和接近度）来处理每个部分，从而快速将更接近的文本关联到一起成为相关联的组。然而，目前提取出的文本项缺乏这些上下文和关联，它们只是孤立的元素。

解决方案：为了解决这个问题，简历解析器重新构建这些上下文和关联，类似于我们的大脑阅读和处理简历的方式。它首先将文本项分组成行，因为我们是逐行阅读文本的。然后将行分组成节，这将在下一步中讨论。

在第二步结束时，简历解析器从添加的简历 PDF 中提取了 0 行，如下表所示。当以行显示时，结果更易读。（某些行可能有多个文本项，它们之间用蓝色垂直分隔线分隔） | )

Lines	Line Content

第三步:将行分组成节

在第二步中，简历解析器开始通过首先将文本项分组成行来构建上下文和关联。第三步继续这个过程，通过将行分组成节来构建额外的关联。

请注意，每个节（除了个人简介部分）都以占据整行的节标题开始。这不仅是简历中的常见模式，也是书籍和博客中的常见模式。简历解析器使用这种模式将行分组到这些行上方最接近的节标题中。

简历解析器应用一些启发式方法来检测节标题。确定节标题的主要启发式方法是检查它是否满足以下所有3个条件：
1. 它是行中唯一的文本项
2. 它是加粗的
3. 它的字母都是大写的

简单来说，如果一个文本项目被加粗和大写，那很可能是简历中的一个节标题。这通常适用于格式良好的简历。当然也可能有例外，但在这些情况下使用加粗和大写的情况较少见。

简历解析器还有一个备用启发式方法，如果主要的启发式方法不适用时会启用。备用启发式方法主要是根据一组常见的简历节标题关键词进行匹配。

在第三步结束时，简历解析器会从简历中识别出各个节，并将相应的文本行与所属节标题进行分组，如下表所示。请注意, 部分标题以粗体显示与该部分关联的行以相同的颜色突出显示。

Lines	Line Content

简历解析器演练场

简历模板 1

简历模板 2

简历解析结果

简历解析算法深入探讨

第一步：从 PDF 文件中读取文本项

第二步：将文本项分组成行

第三步:将行分组成节