干货!类案大数据报告制作实操指南

发表时间:2020-03-31 所属分类:

大数据报告渗透于律师工作的很多方面,尤其是在办理诉讼案件时,一份数据全面、精准的大数据报告,不仅能为疑难、复杂案件快速提供突破口,还能进一步为制作严密的诉讼策略提供判例数据支撑。

 

在本团队代理重大诉讼案件之前,作为案件工作流程的一个步骤,我们会全面梳理案件事实、法律关系、争议焦点、法条依据、涉案地块、经办法官及代理律师等信息,形成报告,以尽可能多的信息辅助主办律师制定精准的诉讼策略。

 

2018年到2019年,我们团队在 Alpha 数据库的支撑下已制作17篇类案大数据报告,本篇文章总结了我们团队的大数据报告制作经验,希望与读者交流分享。

 

本文会详解类案大数据报告的制作流程,共分为四大板块、八个步骤。

 

图片1

大数据报告制作流程

 

确定适当的选题

 

我们的大数据报告选题一般会分为被动选题与主动选题两种情形,前者是基于解决客户问题所选,后者则是为满足自身系统研究某一问题所选。 

 

图片2

大数据报告选题

 

一、被动选题

 

以客户的迫切需求为契机,根据客户的痛点确认选题。

 

以“违法建设”的行政篇与民事篇这两篇大数据报告为例。

 

在某个时间段,短短5天之内就有3单关于商务楼、居民楼被认定为违建,被拆除案件的客户通过各种途径找到我们。而找到我们的客户多半都已经是比较了多家律所,并且通过层层转介找到我们的,对于我们能解决他们痛点往往抱以厚望。

 

正是基于客户的这种需求以及客户已经对案件情况非常熟悉的情况下,为了不负客户的厚望并且解决客户的痛点,我们就对“违法建设”如何认定、涉民事合同效力如何确定、是否属于历史遗留、拆除程序如何确定、被强拆后如何进行赔偿及法院关于违建建设裁判倾向如何等问题进行全网检索,并进行全面深入的研究。

 

制作的违法建设民事篇和行政篇两篇大数据报告,对于解决客户痛点、树立我们团队的专业形象起到了关键作用。

 

二、主动选题

 

我们在选取类案大数据报告的选题时一般会结合我们团队的主要研究方向、案件需求以及团队开设的土地诉讼系列课程进行确定。

 

如我们开设的《违法建设治理中的诉讼实务》课程,为了让整个课程内容更加全面与详细,同时让课程内容可视化、数据化,能给来听课的客户及律师同仁答疑解惑,我们以“违法建设”为选题,精心制作了5篇大数据报告;为使下一期的《征收》课程圆满完成,我们以“征收”为选题,制作了7篇大数据报告。

 

筛选数据样本

 

类案大数据报告的制作是以案例样本为核心,通过案例样本研究,不仅可以对数据进行分析,发现案件突破口,而且可以从典型案例提取裁判要旨进而对案件进行精准把控,甚至还可以提炼法院裁判倾向,设计诉讼策略,最后综合上述分析得出律师建议。

 

故在确定大数据报告的选题后,还需要筛选数据样本。

 

筛选数据样本的完成需要我们完成第一次机器筛选与第二次人工筛选。

 

针对第一次的机器筛选,我们需要做的是如何通过从类案司法实务中总结提取、确定下载案例样本的关键词;

 

第二次的人工筛选,需要我们掌握的是如何逐一查看几百个数据样本并进行人工筛选。

 

下文将对如何确定关键词及如何筛选案例样本进行逐一讲解:

 

一、如何确定关键词,进行第一次机器筛选

 

图片3

提取关键词(图片截取自Alpha案例库)

 

根据选题从类案司法实务中提取关键词,在 Alpha 数据库经筛选的样本案例下载成 Excel 版本。

 

对于关键词的确定还需三步;

 

 

如根据法理发现关键词、从中文文本出发发现关键词、从相关法条的表述中发现关键词、从判决的行文中发现关键词及从司法裁判法官的习惯用语中发现关键词。

 

 

一篇大数据报告的样本一般200多例是比较合适的范围,多的会达到300多例,如果根据关键词下载案例量过多,则需要进入关键词的校对环节。

 

 

关键词的确定直接和案例数量挂钩,如果所得结果过多,人工筛选时工作量会相应加大,因此需要确定关键词,缩小检索口径。

 

需要注意的是:对于词语的使用,不同法官有不同习惯,因此会存在与关键词同义、近义的词语出现。

 

如违法用地大数据报告中的一个关键词是“违法用地|非法用地|违法占地|非法占地|违法占用土地|非法占用土地”,为了保证样本数量的准确及全面,这就需要我们在确定关键词时注意其相同或相近的词语。

 

对于关键词在 Alpha 数据库的输入问题:需要我们在下载案例之前将确定的关键词输入到检索条件中,为提高下载案例与选题的关联度,应在 Alpha 数据库案例检索栏目中的高级检索条件项下的“法院认为”部分输入关键词,而不是在全文中输入。

 

一部分是因为在全文输入关键词,下载的案例容易存在大量无关案例,另一部分是因为可能仅仅是当事人提及,法院针对此问题并没有审理,或仅仅是一笔带过,这些案例样本并没有研究价值。

 

为了防止后期筛选案例工作量的加大(需要花费更多的时间进行筛选),我们建议在“法院认为”部分输入关键词,进行下载案例,在下载案例导出时,建议导出 Excel 表格清单,这样方便接下来逐一对几百个案例样本进行精细分析并及时有效记录数据以便后期通过 Excel 的“筛选”功能,进行数据的统计与分析,一目了然。

 

例如“2018年最高院国有土地上房屋征收行政篇大数据报告”关键词的输入见下图。

 

图片4

筛选下载案例

 

二、如何浏览案例样本进行第二次人工筛选

 

图片5

人工筛选案例

 

此阶段的人工筛选案例不需要深入研究案例,只需3步初步筛选。

 

 

 

 

曾经的一个失败案例就是在做“2018年广东省国有土地上房屋征收大数据报告”的人工筛选阶段时,由于没有准确根据选题进行筛选,使得原本无关的案例如集体土地转国有土地、国有土地收回引发的补偿问题等也进入到有效案例样本中进行数据提取,导致在后期数据整理分析阶段才发现从247篇有效案例中竟然有185个案例是无关案例,有效案例才62篇,使得一篇大数据报告因有效案例过少而不得不终止。

 

在此之前团队成员3人耗时2周根据9个维度对247篇案例提取的数据被确认为无效,由于人工筛选出错,也导致在此之前所有的付出功亏一篑。

 

三、如何删除系列案

 

第一次机器筛选与第二次人工筛选后,还需要对系列案进行删除。

 

因为每一宗系列案会有N个相同案件事实及法院认为部分,针对系列案例不能全部作为样本数进行研究,而是应将N归为1,作为一个样本基数进行研究,这样得出的数据才会存在普遍性,更能说明选题问题。

 

如“2018年最高院国有土地上房屋征收行政篇大数据报告”通过第二次人工筛选后,我们已对所有案例情况有了初步了解,因此对此系列案的筛选方法是:

 

 

 

 

如上图中展示的部分相同颜色区域就是一宗系列案。

 

在我们团队针对征收做的7篇类案大数据报告中,系列案现象就非常突出。因为政府对一个片区同一时间进行征收时,往往涉及范围较大,被征收主体较多,对此征收行为产生异议,发生纠纷提起诉讼数量巨大,法院在审理上述纠纷时所认定的事实与“法院认为”部分一致,因此会存在很多系列案。

 

为保证一篇类案大数据报告数据的可用与准确性,我们需要将一宗系列案的N个案例作为一个案例样本使用。

 

数据整理分析

 

一篇类案大数据报告的骨骼所在是数据框架,血肉所在是对数据进行统计分析,灵魂是以数据分析为基础,结合典型案例的裁判要旨,体现在律师建议中。

 

通过确定类案大数据报告的分析维度,对每一篇案例样本进行维度数据提取,再到对几百篇案件样本的所有数据进行统计整合,最后绘制数据图表来完成一篇大数据报告的骨骼(数据框架)。

 

对于类案大数据报告数据框架的数据提取与整理分析,我们同时也可以挑选出典型案例,总结提炼出律师建议。

 

对于数据的整理分析需要我们做的是:

 

确定数据分析维度、明确团队工作人员分工;

 

提取并整合全部案例数据;

 

运用数据绘制图表;

 

针对图表进行数据分析。

 

一、确定数据分析维度、明确团队工作人员分工

 

图片6.webp

框架

 

所谓框架即一篇大数据报告要分析的维度,如“2018年最高院国有土地上房屋征收行政篇大数据报告”中分析的维度有地域分布、诉讼请求、法院审理情况、赔偿情况、评估程序争议点、征收决定争议点、补偿决定争议点、典型案例及律师建议。

 

对于这些分析维度的确定,需要我们结合类案司法实务、当前选题地域司法特色、阅读受众需求及起诉主体痛点,还需要团队人员头脑风暴会议的多次思想碰撞,通过汇集团队智慧,充分讨论并覆盖最值得关注的类案大数据报告的分析维度。

 

为方便后期数据提取与整合,在确定分析维度后,对于每一个维度内容的信息提取标准需统一。

 

但会存在对同一维度的提取内容因不同人对提取内容的措辞不统一,导致多人多标准多表达的情况出现,会导致后期统计数据的任务量加重,反而降低效率。

 

二、提取并整合全部案例数据

 

图片7.webp

数据整合

 

我们团队是如何避免上述问题呢?

 

如能进行一键生成的数据,如地域分布,审判法院及裁判结果等信息我们可以利用 Alpha 大数据【批量下载】功能、【检索报告】功能一键生成的 Excel 表格,进一步筛选达到事半功倍的效果。

 

对需人工提取、再统计分析的数据,虽然不能一键生成,但是我们可以对可统计的数据,利用数据透视功能,结合筛选的方法进行统计。

 

但值得注意的是,在统计维度即框架确定后,我们对信息的提取需要归纳总结到位,是“可统计”的信息,这样才能方便我们通过 Excel 表格的数据透视,再结合“筛选”功能,统计数据。如何总结出“可统计”的信息,具体大家可以读几份文书找到规律。

 

例如“2018年最高院国有土地上房屋征收行政篇大数据报告”中驳回诉讼请求原因问题,我们想研究“国有土地上房屋征收行政案件为什么那么多案件根本没有进入实体审理阶段就被法院裁定驳回起诉”这一问题,我们读了40份样本后,总结出了四类原因:主体资格问题、原告的起诉超过起诉期限、原告的起诉不属于行政受案范围、其他。

 

当然,如果在之后的统计过程中,又发现了新的原因,而且出现频率较高,就有必要将这个新的原因,从“其他”这个类别中单独列举出来。

 

有了“可统计”的信息后, Excel 列表的“筛选”功能让我们可以非常便捷地统计出数据,比如,我们选择“主体资格问题”,所有的案例中,只有“主体资格问题”的案例才会出现,统计出样本数据量。

 

同时在看案例提取数据的同时,对于案例中值得学习的点要进行记录,以便作为后期撰文统稿的素材;对比较好的案例要进行标记单独保存,为后期典型案例的确定进行储备。

 

大数据报告的制作是一个长期而又琐碎的事情,所以对于制作的每一步都要进行记录保存,以便后期出现错误时及时更正。

 

三、运用数据绘制图表

 

图片8

绘制图表

 

图表是大数据报告中的重要组成部分,将海量数据以可视化的图表呈现,便于读者直观感知数据,理解数据规律,这便是数据的价值。因此在数据统计完成后,我们需要制作图表。

 

图表的前提是数据,所以要确保数据的准确及完整。同时,不同图表如饼图、条形图、柱状图所呈现的视觉效果不一,要结合数据内容进行选择,以期对阅读者直接通过图表说明相关问题。如上图“争议焦点概览”,用柱状图要比条形图更加直观,对视觉更加具有冲击。

 

四、针对图表进行数据分析

 

图片9

数据分析

 

通过确定恰当选题、筛选数据样本、数据整理分析,终于到了一篇类案大数据报告的血肉所在部分之针对图表进行数据分析环节,这部分是透过数据表象到本质对数据背后的原因进行分析,是总结几百篇数据样本裁判倾向对裁判规律的揭示,是提炼法院观点对类案律师建议的分享,也是一篇类案大数据报告最干货的部分。

 

这里,不仅要统计争议焦点,归纳法院裁判要旨,还可以发现案件突破口及诉讼策略。

 

因为是最干货部分,所以也是自我逼疯的阶段,但除了自我逼疯之外,当然也有一些技法。

 

建议在写作前,针对本报告要写的每一个点有针对性的进行知网文章检索,每一个点看几篇核心期刊等权威文章,虽然很枯燥,但有用。

 

同时检索新闻、微信文章,可以充分了解数据背景之后再进行写作,在写作过程中,对不确定的点要回归到案例,翻阅法院认为部分,进行法理研究,这样才能写出一篇有理有据的大数据报告。

 

定稿

 

历经写作后的多次修改,一篇类案大数据报告的雏形已经完成,但这并不是结束,因为一篇大数据报告并不是仅仅写完就是完成使命,它还需要呈现在大众面前,在带给大家知识盛宴的同时还要给受众带来视觉享受。

 

这就需要我们对大数据报告进行严格的审核和校对,以确保报告的数据、图表、行文和排版不出现纰漏,呈现给受众精准、专业、权威的报告内容。

 

一篇大数据报告的制作完成并非易事,所以我们会通过线下团队开设的土地诉讼系列课程进行推广,同时也会尽可能地在专业法律平台上进行投稿,如在 iCourt 法秀的投稿。

 

大数据时代,数据让经验呈指数级增长。深谙数据之威力,让数据发声,我们通过多篇大数据报告的制作,结合我们正在准备的“土地诉讼系列课程——征收课程”,以期传递团队法律专业技能给每一位受众,课程也即将与大家见面。

 

最后,关于疑难复杂土地争议解决的更多专业知识,敬请期待我们的新书《土地争议行民交叉裁判规则与案例解析》将于2020年3月出版上市。

 

 

1585124088(1)

宋静律师团队 | 广东诺臣律师事务所

供   稿 | 宋静律师团队

排   版 | 麦瑞婷

核   稿 | 苏慧英