中国专利数据元素标准第3部分:关于用XML处理中国专利申请数据的规范
中国专利数据元素标准第3部分:关于用XML处理中国专利申请数据的规范
中华人民共和国国家知识产权局 发布
2012-12-16实施
2012-11-16发布
中国专利数据元素标准
第3部分:关于用XML处理中国专利申请数据的规范
ZC 0012.3—2012
中华人民共和国知识产权行业标准
目 次
TOC o "1-3" h z u 前言.
引言.
1 范围.
2 规范性引用文件.
3 术语和定义.
3.1专利申请数据.
3.2专利申请文件代码化.
3.3可扩展的标记语言.
4 XML元素及其属性的定义和说明.
5数据格式的基本要求.
5.1字符集.
5.2属性.
5.2.1 id
5.2.2 idref
5.3文档实例.
5.3.1有效性.
5.3.2合法性.
5.3.3版本标注.
5.3.4元素内容.
5.4外部实体文件.
5.4.1 PDF 格式.
5.4.2 Tagged Image File Format (TIFF) 格式.
5.4.3 JPEG File Interchange Format (JFIF) 格式.
5.4.4 XML格式.
5.5与《关于用XML处理中国发明、实用新型专利文献数据的暂行办法》的关系.
5.6申请文件的XML表示.
5.7对申请文件所作修改的XML表示.
5.8主要元素说明.
5.8.1发明/实用新型申请文件主要元素说明.
5.8.2外观设计申请文件主要元素说明.
5.8.3补正文件主要元素说明.
5.8.4其他文件主要元素说明.
参考文献.
前 言
《中国专利数据元素标准 第3部分:关于用XML处理中国专利申请数据的规范》是中华人民共和国知识产权行业标准之一,编号为ZC 0012.3—2012。
ZC 0012《专利数据元素标准》分为三个部分:
——第1部分:关于用XML处理复审请求审查决定、无效请求审查决定和司法判决文件的暂行办法;
——第2部分:关于用XML处理中国发明、实用新型专利文献数据的暂行办法;
——第3部分:关于用XML处理中国专利申请数据的规范。
本部分为ZC 0012的第3部分。
本部分按照GB/T 1.1—2009给出的规则起草。
本部分由中华人民共和国国家知识产权局提出并归口。
本部分起草单位:中华人民共和国国家知识产权局专利局。
本部分主要起草人:张宇、徐暋华、唐俊松、陆新年、赵盛、王福廷、左健、毛永宁、苏春波、方克、刘胜奇。
引 言
信息化建设是实施我国知识产权战略的重要基础和保障,是国家知识产权事业发展的重要组成部分。XML网络技术处理知识产权信息已被当今世界各主要知识产权国家和组织广泛采用。同时,各个国家和组织也在积**力于制定采用XML处理知识产权信息的标准,以提高知识产权信息的处理、交换、应用的效率。
为加强国家知识产权局专利数据的规范化和标准化建设,使用XML技术处理中国专利申请,进一步提高专利审查信息化水平,方便数据交换,本部分针对中国专利申请数据的XML DTD进行了定义。
关于用XML处理中国专利申请数据的规范
1 范围
ZC 0012的本部分规定了在使用XML技术处理中国专利申请数据时应遵循的规则。除非特别声明,本标准其他部分所谓“专利申请”均指“中国专利申请”,所谓“专利申请数据”均指“中国专利申请数据”。
本部分适用于专利申请数据的加工、交换、处理、展示。即使用XML技术对专利审查业务过程中申请文件、补正文件、修改文件以及其它文件等专利申请数据相关的文件中所包含的数据进行加工、交换、处理、展示的规范。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其**版本(包括所有的修改单)适用于本文件。
ZC 0006-2003 《专利申请号标准》
ZC 0009-2012 《中国专利文献著录项目》
ZC 0012.1—2006 《专利数据元素标准 第1部分:关于用XML处理复审请求审查决定、无效请求审查决定和司法判决文件的暂行办法》
ZC 0012.2—2006 《专利数据元素标准 第2部分:关于用XML处理中国发明、实用新型专利文献数据的暂行办法》
WIPO ST.2 《采用公历标示日期的标准方法》
WIPO ST.3 《用双字母代码表示国家、其他实体及政府间组织的推荐标准》
WIPO ST.10/B 《著录项目数据的设计》
WIPO ST.14 《在专利文献中列入引证的参考文献的建议》
WIPO ST.34 《用于著录项目数据交换的以电子形式记录申请号的建议》
WIPO ST.36 《用于XML处理专利信息的建议》
WIPO ST.16 《用于标识不同种类专利文献的推荐标准代码》
ISO639:1988 语种名称代码
3 术语和定义
下列术语和定义适用于本标准。
3.1 专利申请数据
在提出专利申请、复审请求或无效宣告请求以及相关申请或请求的审理过程中,申请人向国家知识产权局递交的各种文件中与专利权内容密切相关的数据。通常专利申请数据包含在发明、实用新型专利申请的权利要求书、说明书、说明书附图、摘要、摘要附图中,外观设计专利申请的简要说明、图片或照片中。在专利审批过程中,申请人通过补正书或意见陈述书对专利申请数据进行修改。无效和复审案件的无效宣告请求书和复审请求书,以及复审及无效程序中的意见陈述书和补正书,也会影响专利申请数据。
3.2 专利申请文件代码化
专利申请文件代码化是将专利申请数据从纸件形式或者MS-WORD、PDF、TIFF、JPG等格式的电子文件形式提交的专利申请文件和中间文件中提取出来,转换成符合本标准的XML格式的文件的数据加工过程。
需要代码化的文件包括:
a)发明、实用新型专利申请的权利要求书、说明书、说明书附图、摘要、摘要附图,外观设计专利申请的简要说明、图片或照片以及上述文件的修改补正文件;
b)PCT进入国家阶段申请的权利要求书、说明书、摘要、RO134表以及上述文件的修改文件(根据专利合作条约第19条、34条、28条、41条的修改文件);
c)意见陈述书和中间文件中涉及上述1、2项文件的部分;
d)无效和复审案件的无效宣告请求书和复审请求书,以及复审及无效程序中的意见陈述书和补正书。
3.3 可扩展的标记语言
一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。
4 XML元素及其属性的定义和说明
ZC 0012的本部分涉及以下的DTD[1] 定义文件:
—— cn-application-body.dtd, 该DTD用于发明、实用新型专利申请文件的权利要求书、说明书、说明书附图、摘要以及摘要附图。
—— cn-design-application-body.dtd,该DTD用于外观设计专利申请文件的简要说明。
—— cn-amendment-request.dtd ,该DTD用于对于cn-application-body.dtd和cn-design-application-body.dtd 所定义的XML文件的补正文件(补正书的附件)、修改文件(意见陈述书的附件)。
—— cn-other-file. dtd 用于其他文件,这是一个对没有具体结构的一般文本的DTD定义,但是在其定义中也包含了对于cn-application-body.dtd和cn-design-application-body.dtd 所定义的XML文件的修改的说明,这主要是考虑到有些这样的说明不是以明显的附件的形式提交的情况。
5 数据格式的基本要求
5.1 字符集
ZC 0012的本部分的文档实例应采用UTF-8字符集,即在每一个文档的**行,应出现
对于UTF-8及wipo.ent中未定义的字符,应通过sipo.ent进行定义。
5.2 属性
5.2.1 id
id属性可用来标识文档中的特定对象。对于不同类型的对象,宜使用不同的前缀和后缀进行区分。例如,段落的各个元素的属性可以考虑依次设置为“p00001”, “p00002”等,同一文档中的id属性不能重复。
5.2.2 idref
可以通过idref属性来引用文档中特定的具有ID属性的对象,应保证idref仅作为文档中特定对象的引用使用。如权利要求引用claim-ref、交叉引用crossref、附图引用figref等。
5.3 文档实例
5.3.1 有效性
文档实例应是有效的,即格式应符合XML v1.1标准的要求。
5.3.2 合法性
文档实例应是合法的。文档实例中必须通过!DOCTYPE声明文档的类型,如
并且文档实例应符合DTD的要求。
5.3.3 版本标注
文档实例应通过根元素的相关属性明确指出文档使用的DTD的版本。例如:
5.3.4 元素内容
文档中的元素应尽可能的避免不必要的空格和回车等字符,例如:应使用20231;而不应使用 20231 。
5.3.4.1 数学公式
数学公式在文档中可用由W3C维护的MathML2表示,也可用图像表示,或者同时采用上述两种方式表示。
注:从http://www.w3.org/TR/MathML2/DTD-MathML-20010221.zip下载MathML2。
5.3.4.2 化学公式
化学公式在文档中可用符合CML定义的 xml外部实体文件表示,也可用图像表示,或者同时采用上述两种方式表示。
5.3.4.3 表格
表格在文档中可用由OASIS维护的soextblx表示,也可用图像表示,或者同时采用上述两种方式表示。
注:可从http://oasis-open.org/specs/soextblx.dtd下载soextblx。
5.4 外部实体文件
文档实例中可以引用符合以下规定的外部实体文件,包括TIFF、JPEG、PDF等格式的文件。
5.4.1 PDF 格式
所有的该格式的文件必须作为XML文件中的参照文件,且满足以下要求:
—— 与Adobe Acrobat v3 兼容 。
—— 未压缩的文本。
—— 未加密的文本。
—— 无数字签名。
—— 无嵌入的OLE对象。
—— 所有的字体应按照PS17标准内嵌的并且是许可发布的或者由Adobe Multiple Master(MM)创建。
5.4.2 Tagged Image File Format (TIFF) 格式
所有的该格式的文件应作为XML文件中的参照文件,且满足以下要求:
—— 与TIFF V6.0。 标准兼容,
—— 每个文件只表示一个特定页面的内容,不能包含多个页面的内容。
—— 黑白二值图,使用Group 4 压缩方式、采用单 strip格式,el 字节序使用Intel字节序。
—— 分辨率300——400DPI。
—— 图像尺寸: 整页的附图建议使用 A4(210x297mm);单幅的图不应超过 170mm x 255mm。
5.4.3 JPEG File Interchange Format (JFIF) 格式
所有的该格式的文件应作为XML文件中的参照文件,并且满足以下要求:
—— 每个文件只表示一个特定页面或一个特定图的内容,不能包含多个页面或多幅图的内容。
—— 分辨率150——400DPI。
—— 图像尺寸:整页的附图宜使用 A4(210x297mm,);单个的图不应超过 170mm x 255mm。
5.4.4 XML格式
所有的该格式的文件如果作为XML文件中的参照文件,应满足以下要求:
—— 数学公式的文件应使用MathML2描述;
—— 化学公式的文件应使用CML描述;
—— 表格的文件应使用soextblx描述。
5.5 与《关于用XML处理中国发明、实用新型专利文献数据的暂行办法》的关系
因为ZC 0012的本部分处理的文件是申请人原始提交的文件,其格式未经过专利局的形式审查,所以在相关文件(主要是专利说明书、权利要求书文件)实例的处理上无法和《关于用XML处理中国发明、实用新型专利文献数据的暂行办法》保持完全一致。但是,在本部分的实施中要尽量确保二者的一致性,减少以后的格式转换工作(如:对于那些能够划分出说明书五部分的说明书文件,以DTD定义中的相关元素来记录5部分的结构,而不是全部处理成无结构文本,以便实现自动的格式转换)。
5.6 申请文件的XML表示
cn-application-body.dtd中定义了用于表示发明和实用新型专利申请文件内容的XML文档结构,包括以下主要数据内容:
—— 案卷申请号application-reference;
—— 权利要求cn-claims;
—— 说明书description;
—— 说明书附图cn-drawings;
—— 说明书摘要cn-abstract。
cn-design-application-body.dtd中定义了用于表示外观设计专利申请文件内容的XML文档结构,包括以下主要数据内容:
—— 案卷申请号application-reference;
—— 外观设计简要说明cn-brief;
—— 外观设计图片或照片cn-figures-photoes。
5.7 对申请文件所作修改的XML表示
cn-amendment-request.dtd中定义了用于描述申请文件的XML文档实例进行修改所需的数据(其中XML文档实例应符合cn-application-body.dtd或cn-design-application-body.dtd要求),这些数据将有助于实现修改文件和原始文件的自动合并,或为人工合并提供必要的信息,包括以下主要数据元素:
—— 专利案卷申请号application-reference、复审/无效案卷的委内编号cn-internal-reference;
—— 补正内容说明amend-statement;
—— 补正内容cn-amend-text、cn-amend-body;
—— 内容操作信息,其中被引用的对象可以是权利要求、段落、附图等,包括
—— 删除对象delete-object,
—— 插入对象insert-before-object、insert-after-object,
—— 替换对象replace-object;
—— 注释remarks。
5.8 主要元素说明
5.8.1 发明/实用新型申请文件主要元素说明
元素
构成与说明
内容说明
cn-application-body
(application-reference?,cn-abnormal-formats? , (doc-page+ | (cn-claims?, description?, cn-drawings?, cn-abstract?)))
专利申请体(专利申请的主体)
application-reference
(document-id)
专利申请数据(申请号、申请日、申请种类等)
doc-page
EMPTY
以页为单位的图形文件
cn-claims
(doc-page+ | (p*, claim+))
该结构比较宽泛,既可是代码化的结构也可是图像方式的文档页。
权利要求
description
(doc-page+ | (invention-title?, (technical-field | background-art | disclosure | description-of-drawings | best-mode | mode-for-invention | industrial-applicability | sequence-list-text | (heading*, p+)+)+))
说明书
cn-drawing-p
(p)
附图的代码化内容
cn-drawings
(doc-page+ | ((br?, cn-drawing-p*, figure+, pb?), cn-drawing-p*)+)
说明书附图
cn-abstract
(doc-page+ | (abst-problem, abst-solution, cn-abst-figure?) | (p+, cn-abst-figure?)) 该结构比较宽泛,既可是代码化的结构也可是图像方式的文档页。
摘要,包括摘要附图
document-id
(country, doc-number, kind?, name?, date?)
文献标识
p
(#PCDATA | cn-abnormal-formats | cn-unregulated-part | b | pb | i | u | sup | sub | smallcaps | overscore | br | dl | ul | ol | figref | patcit | nplcit | crossref | img | chemistry | maths | tables | table-external-doc | pre | bio-deposit)*
段落
invention-title
(#PCDATA | b | pb | br | i | u | sup | sub | smallcaps | overscore | img)*
标题
claim
(claim-text+)
单项权利要求
cn-abnormal-formats
(cn-abnormal-format+)
一组对于异常情况的描述
cn-img-p
(p)
图像的代码化内容
img
(cn-img-p+)
图像
figure
(img)
单幅图形/图像
cn-abnormal-format
(cn-operator-note,cn-abnormal-original-img*)
异常情况的描述,包含加工操作员的说明和异常部分切图
cn-unregulated-part
(cn-unregulated-img,cn-unregulated-p)
非规范化部分的描述,包含非规范化部分的切图和非规范化部分的代码化内容
5.8.2 外观设计申请文件主要元素说明
元素
构成和说明
内容说明
cn-application-body
(application-reference? , cn-abnormal-formats , (doc-page+ | (cn-brief? , cn-figures-photoes?)))
专利申请体(专利申请的主体)
cn-brief
(heading* , p+)+
简要说明
cn-figures-photoes
(cn-drawings)
外观设计图
5.8.3 补正文件主要元素说明
元素
构成和说明
内容说明
cn-amendment-request
(application-reference?, cn-abnormal-formats ,cn-internal-reference?, (amend-statement?, (cn-amend-text | cn-amend-body | (delete-object | (insert-before-object | insert-after-object | replace-object))+)), remarks?)
专利补正请求(专利补正的请求)
cn-internal-reference
(#PCDATA)
复审委员会委内编号
amend-statement
(doc-page+ | statement)
补正说明
cn-amend-text
(cn-amend-text-abstract | cn-amend-text-claim | cn-amend-text-descrition | cn-amend-text-other)
用文本定义的补正内容
cn-amend-body
(doc-page+ | (description?, cn-claims?, cn-abstract?, cn-drawings?, cn-brief?, cn-figures-photoes?))
专利补正体,申请文件的各部分的全体替换
delete-object
EMPTY
删除任意的XML元素,如段、单幅图、单个权项等
insert-before-object
(%amend_content;)
插入任意的XML元素,如段、单幅图、单个权项等
replace-object
(%amend_content;)
替换任意的XML元素,如段、单幅图、单个权项等。
remarks
(p+)
注释
5.8.4 其他文件主要元素说明
元素
构成和说明
内容说明
cn-other-file
(application-reference?, cn-abnormal-formats , cn-internal-reference?,heading*, p+,cn-amendment-request*)+
按普通文本处理,但其中也可以含有元素cn-amendment-request
其他文件(专利的其他文件)
heading
(#PCDATA | b | pb | i | u | sup | sub | smallcaps | overscore)*
标题
参考文献
[1] WIPO ST.36 附件A:专利文献模板DTD定义
[2] WIPO ST.36 附件C:国际通用元素
[1] 各DTD定义详见附录的DTD定义文件。