xu-song commited on
Commit
fd223ba
·
1 Parent(s): 4427304

add gpt-oss qwen3

Browse files
Files changed (32) hide show
  1. README.md +4 -1
  2. chat_template_app.py +2 -0
  3. css/venn_d3.css +79 -0
  4. images/VS.svg +6 -6
  5. js/load_json.js +2 -0
  6. js/onchange_d3.js +118 -0
  7. js/onload.js +19 -18
  8. js/onload_d3.js +111 -0
  9. js/venn.html +1943 -0
  10. playground_app2.py +272 -0
  11. playground_util.py +9 -0
  12. stats/character_stats.json +114 -0
  13. stats/compression_rate.json +648 -0
  14. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ar.diff.json +0 -0
  15. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.de.diff.json +109 -0
  16. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.fa.diff.json +248 -0
  17. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.fr.diff.json +105 -0
  18. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ja.diff.json +1046 -0
  19. stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ko.diff.json +216 -0
  20. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ar.diff.json +0 -0
  21. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.de.diff.json +109 -0
  22. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.fa.diff.json +248 -0
  23. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.fr.diff.json +105 -0
  24. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ja.diff.json +1046 -0
  25. stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ko.diff.json +216 -0
  26. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ar.diff.json +0 -0
  27. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.de.diff.json +109 -0
  28. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.fa.diff.json +248 -0
  29. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.fr.diff.json +105 -0
  30. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ja.diff.json +1046 -0
  31. stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ko.diff.json +216 -0
  32. vocab.py +12 -0
README.md CHANGED
@@ -22,7 +22,7 @@ Please visit our GitHub repo for more information: https://github.com/xu-song/to
22
 
23
  ## Run gradio demo
24
 
25
- ```
26
  python app.py
27
  ```
28
 
@@ -34,5 +34,8 @@ python app.py
34
  python compression_util.py # cache compression
35
  python character_util.py # cache character
36
  python stats/sample.py # ss
 
 
 
37
  ```
38
 
 
22
 
23
  ## Run gradio demo
24
 
25
+ ```sh
26
  python app.py
27
  ```
28
 
 
34
  python compression_util.py # cache compression
35
  python character_util.py # cache character
36
  python stats/sample.py # ss
37
+ git add stats/compression_rate/*
38
+ git add -u .
39
+
40
  ```
41
 
chat_template_app.py CHANGED
@@ -8,4 +8,6 @@
8
  - tool_call
9
 
10
 
 
 
11
  """
 
8
  - tool_call
9
 
10
 
11
+ - think (deepseek)
12
+
13
  """
css/venn_d3.css ADDED
@@ -0,0 +1,79 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ .mid-vs {
3
+ margin-bottom: -10px;
4
+ }
5
+ .mid-venn {
6
+ margin-top: -20px;
7
+ margin-bottom: -15px;
8
+ overflow: hidden !important;
9
+ }
10
+
11
+
12
+ #tooltell {
13
+ display: block;
14
+ width: 50%;
15
+ height: 100%;
16
+ font-size: 16px;
17
+ color: #111111;
18
+ }
19
+ .venntooltip {
20
+ position: absolute;
21
+ text-align: center;
22
+ width: 60px;
23
+ height: 60px;
24
+ background: #ddd;
25
+ color: #000;
26
+ padding: 2px;
27
+ border: 0px;
28
+ border-radius: 8px;
29
+ opacity: 0;
30
+ top: 0;
31
+ left: 0;
32
+
33
+ }
34
+ svg path {
35
+ /* stroke: rgba(33,33,33,0.6); */
36
+ /* stroke-width: 3px; */
37
+ }
38
+ svg text {
39
+ fill: white;
40
+ font-family: "Helvetica Neue",Helvetica,Arial,sans-serif;
41
+ font-size: 9px;
42
+ }
43
+ [data-venn-sets="0_1"] text {
44
+ fill: black;
45
+ }
46
+ [data-venn-sets="0_1"]:hover { }
47
+ /* [data-venn-sets="0"] { fill: #125FE3; }
48
+ [data-venn-sets="1"] { fill: #FD4DB0; }
49
+ [data-venn-sets="2"] { fill: #C94402; }
50
+ [data-venn-sets="0_1"] { fill: #FCE917; }
51
+ [data-venn-sets="0_2"] { fill: #2C4A68; }
52
+ [data-venn-sets="1_2"] { fill: #9244A6; }
53
+ [data-venn-sets="0_1_2"] { fill: #44A691; } */
54
+
55
+ [data-venn-sets="2"] { fill: #c94402; }
56
+ [data-venn-sets="1"] { fill: #fd4db0; }
57
+ [data-venn-sets="0"] { fill: #125fe3; }
58
+ [data-venn-sets="0_1"] { fill: #fce917; }
59
+ [data-venn-sets="0_2"] { fill: #9244a6; }
60
+ [data-venn-sets="1_2"] { fill: #2c4a68; }
61
+ [data-venn-sets="0_1_2"] { fill: #44a691; }
62
+ svg { mix-blend-mode: difference; }
63
+
64
+ /* svg:hover g:not(:hover) path
65
+ { opacity: .5;
66
+ -webkit-filter: grayscale(0%);
67
+ filter: grayscale(0%);
68
+ filter: blur(50);
69
+ }
70
+ svg:hover g:not(:hover) text
71
+ { opacity: .3; } */
72
+
73
+
74
+ g#venngroup:hover g:not(:hover) path {
75
+ opacity: .5;
76
+ z-index: 9999;
77
+ }
78
+ g#venngroup:hover g:not(:hover) text
79
+ { opacity: .5; }
images/VS.svg CHANGED
js/load_json.js ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ import data from './test.json';
2
+ console.log(data);
js/onchange_d3.js ADDED
@@ -0,0 +1,118 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ function() {
3
+ import data from './test.json';
4
+ console.log(data);
5
+
6
+ }
7
+
8
+
9
+ $.getJSON("test.json", function(json) {
10
+ console.log(json); // this will show the info it in firebug console
11
+ })
12
+
13
+
14
+ // function render_venn() {
15
+
16
+ // var tokenizer1 = document.querySelector("#tokenizer1 input").value
17
+ // var tokenizer2 = document.querySelector("#tokenizer2 input").value
18
+ // var sets = [
19
+ // {"sets": [0], "label": "Llama", "size": 100, "data":"7854"},
20
+ // {"sets": [1], "label": "GPT4o", "size": 100, "data":"8641"},
21
+ // {"sets": [0, 1], "label": "", "size": 20, "data":"45"},
22
+ // ];
23
+
24
+ // var svgContainer = d3.select("#venn").append("svg")
25
+ // .attr("width",100)
26
+ // .attr("height",100)
27
+ // .attr("style", "margin:auto");
28
+
29
+ // var venngroup = svgContainer.append("g")
30
+ // .attr("id", "venngroup");
31
+
32
+
33
+ // var chart = venn.VennDiagram()
34
+ // .width(100)
35
+ // .height(100 )
36
+ // .styled(false);
37
+
38
+ // var div = d3.select("#venngroup")
39
+ // div.datum(sets).call(chart);
40
+ // var tooltip = d3.select("#tooltell").append("div")
41
+ // .attr("class", "venntooltip");
42
+ // div.selectAll("path")
43
+ // .style("stroke-opacity", 0)
44
+ // .style("stroke", "rgba(22,22,22,1)")
45
+ // .style("stroke-width", 2)
46
+ // .style("transform-origin", "50% 50%");
47
+
48
+
49
+ // div.selectAll("g.venn-area")
50
+ // .on("mouseover", function(d, i) {
51
+ // // sort all the areas relative to the current item
52
+ // venn.sortAreas(div, d);
53
+ // // Display a tooltip with the current size
54
+ // tooltip.transition().duration(300).style("opacity", 1);
55
+ // tooltip.text(d.data);
56
+
57
+ // // d3.select("#venn").selectAll("path").transition("filter").duration(250).style("filter", "grayscale(20%)").style("filter", ("filter", "url(#desaturate)");
58
+
59
+ // // var circleUnderMouse = this;
60
+ // // d3.select("#venn").selectAll("path").transition("opacity").duration(250).style("opacity", function () {return (this === circleUnderMouse) ? 1.0 : 0.5;});
61
+
62
+
63
+ // // d3.select(this).selectAll("path").transition("opacity").duration(250).style("fill-opacity", 1);
64
+ // // d3.select(this).raise();
65
+
66
+ // // highlight the current path
67
+ // var selection = d3.select(this).transition("tooltip").duration(300);
68
+ // selection.select("path")
69
+ // .style("fill-opacity", 1)
70
+ // .style("stroke-opacity", 1)
71
+ // .style("transform", "scale(1.01,1.01)")
72
+ // .style("transform-origin", "50% 50%");
73
+ // })
74
+ // // .on("mousemove", function() {
75
+ // // tooltip.style("left", (d3.event.pageX) + "px")
76
+ // // .style("top", (d3.event.pageY - 28) + "px");
77
+ // // })
78
+ // .on("mouseout", function(d, i) {
79
+ // tooltip.transition().duration(500).style("opacity", 0);
80
+ // var selection = d3.select(this).transition("tooltip").duration(400);
81
+ // selection.select("path")
82
+ // .style("fill-opacity", d.sets.length == 1 ? 1 : 1)
83
+ // .style("stroke-opacity", 0)
84
+ // .style("transform", "scale(1,1)")
85
+ // .style("transform-origin", "50% 50%");
86
+ // // d3.select("#venn").selectAll("path").transition("opacity").duration(250).style("opacity", 1);
87
+ // // d3.select(this).lower();
88
+
89
+ // });
90
+
91
+ // //
92
+
93
+ // // var myLabel = svg.append('foreignObject')
94
+ // // .attr({
95
+ // // height: 150,
96
+ // // width: 100, // dimensions determined based on need
97
+ // // transform: 'translate(0,0)' // put it where you want it...
98
+ // // })
99
+ // // .html('<div class"style-me"><p>My label or other text</p></div>');
100
+
101
+ // // svg.append('filter')
102
+ // // .attr('id','desaturate')
103
+ // // .append('feColorMatrix')
104
+ // // .attr('type','matrix')
105
+ // // .attr('values',"0.3333 0.3333 0.3333 0 0 0.3333 0.3333 0.3333 0 0 0.3333 0.3333 0.3333 0 0 0 0 0 1 0");
106
+
107
+ // var stuffToBeWrapped = d3.selectAll("svg");
108
+
109
+ // stuffToBeWrapped.each(function() {
110
+
111
+ // d3.select( this.childNode ).insert("g", function(){return this;} )
112
+ // //insert a new <g> element immediately before this element
113
+ // .attr("class", "wrapper") //set anything you want to on the <g>
114
+ // .append( function(){return this;} );
115
+ // //move the content element into the group
116
+
117
+ // });
118
+ // }
js/onload.js CHANGED
@@ -1,18 +1,19 @@
1
- function() {
2
- // feedback
3
- //$("footer a")["href"] = "https://github.com/xu-song/tokenizer-arena/issues"
4
- //$("footer a").childNodes[0].textContent ="Send Feedback"
5
-
6
-
7
- // <a href="https://gradio.app" class="built-with svelte-16bt5n8" target="_blank" rel="noreferrer">
8
- // Built with Gradio <img src="http://127.0.0.1:7860/assets/logo-3707f936.svg" alt="logo" class="svelte-16bt5n8">
9
- // </a>
10
- console.log("nice")
11
- document.querySelectorAll("footer a")[0].childNodes[0].textContent ="Send Feedback"; // 🤔Reporting Issues, 💬Leave comments
12
- document.querySelectorAll("footer a")[0].href = "https://github.com/xu-song/tokenizer-arena/issues";
13
-
14
- // download button
15
-
16
- // API
17
- return 'Animation created';
18
- }
 
 
1
+ function() {
2
+ // feedback
3
+ //$("footer a")["href"] = "https://github.com/xu-song/tokenizer-arena/issues"
4
+ //$("footer a").childNodes[0].textContent ="Send Feedback"
5
+
6
+
7
+ // <a href="https://gradio.app" class="built-with svelte-16bt5n8" target="_blank" rel="noreferrer">
8
+ // Built with Gradio <img src="http://127.0.0.1:7860/assets/logo-3707f936.svg" alt="logo" class="svelte-16bt5n8">
9
+ // </a>
10
+ console.log("nice")
11
+ document.querySelectorAll("footer a")[0].childNodes[0].textContent ="Send Feedback"; // 🤔Reporting Issues, 💬Leave comments
12
+ document.querySelectorAll("footer a")[0].href = "https://github.com/xu-song/tokenizer-arena/issues";
13
+
14
+ // download button
15
+
16
+ // API
17
+ return 'Animation created';
18
+ }
19
+
js/onload_d3.js ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ function(param) {
2
+ console.log("calling venn");
3
+ console.log(param);
4
+
5
+ var tokenizer1 = document.querySelector("#tokenizer1 input").value;
6
+ var tokenizer2 = document.querySelector("#tokenizer2 input").value;
7
+ console.log(tokenizer1);
8
+ console.log(tokenizer2);
9
+
10
+ console.log("calling onload_d3");
11
+ var sets = [
12
+ {"sets": [0], "label": "Llama", "size": 100, "data":"7854"},
13
+ {"sets": [1], "label": "GPT4o", "size": 100, "data":"8641"},
14
+ {"sets": [0, 1], "label": "", "size": 20, "data":"45"},
15
+ ];
16
+
17
+ var svgContainer = d3.select("#venn").append("svg")
18
+ .attr("width",100)
19
+ .attr("height",100)
20
+ .attr("style", "margin:auto");
21
+
22
+ var venngroup = svgContainer.append("g")
23
+ .attr("id", "venngroup");
24
+
25
+
26
+ var chart = venn.VennDiagram()
27
+ .width(100)
28
+ .height(100 )
29
+ .styled(false);
30
+
31
+ var div = d3.select("#venngroup")
32
+ div.datum(sets).call(chart);
33
+ var tooltip = d3.select("#tooltell").append("div")
34
+ .attr("class", "venntooltip");
35
+ div.selectAll("path")
36
+ .style("stroke-opacity", 0)
37
+ .style("stroke", "rgba(22,22,22,1)")
38
+ .style("stroke-width", 2)
39
+ .style("transform-origin", "50% 50%");
40
+
41
+
42
+ div.selectAll("g.venn-area")
43
+ .on("mouseover", function(d, i) {
44
+ // sort all the areas relative to the current item
45
+ venn.sortAreas(div, d);
46
+ // Display a tooltip with the current size
47
+ tooltip.transition().duration(300).style("opacity", 1);
48
+ tooltip.text(d.data);
49
+
50
+ // d3.select("#venn").selectAll("path").transition("filter").duration(250).style("filter", "grayscale(20%)").style("filter", ("filter", "url(#desaturate)");
51
+
52
+ // var circleUnderMouse = this;
53
+ // d3.select("#venn").selectAll("path").transition("opacity").duration(250).style("opacity", function () {return (this === circleUnderMouse) ? 1.0 : 0.5;});
54
+
55
+
56
+ // d3.select(this).selectAll("path").transition("opacity").duration(250).style("fill-opacity", 1);
57
+ // d3.select(this).raise();
58
+
59
+ // highlight the current path
60
+ var selection = d3.select(this).transition("tooltip").duration(300);
61
+ selection.select("path")
62
+ .style("fill-opacity", 1)
63
+ .style("stroke-opacity", 1)
64
+ .style("transform", "scale(1.01,1.01)")
65
+ .style("transform-origin", "50% 50%");
66
+ })
67
+ // .on("mousemove", function() {
68
+ // tooltip.style("left", (d3.event.pageX) + "px")
69
+ // .style("top", (d3.event.pageY - 28) + "px");
70
+ // })
71
+ .on("mouseout", function(d, i) {
72
+ tooltip.transition().duration(500).style("opacity", 0);
73
+ var selection = d3.select(this).transition("tooltip").duration(400);
74
+ selection.select("path")
75
+ .style("fill-opacity", d.sets.length == 1 ? 1 : 1)
76
+ .style("stroke-opacity", 0)
77
+ .style("transform", "scale(1,1)")
78
+ .style("transform-origin", "50% 50%");
79
+ // d3.select("#venn").selectAll("path").transition("opacity").duration(250).style("opacity", 1);
80
+ // d3.select(this).lower();
81
+
82
+ });
83
+
84
+ //
85
+
86
+ // var myLabel = svg.append('foreignObject')
87
+ // .attr({
88
+ // height: 150,
89
+ // width: 100, // dimensions determined based on need
90
+ // transform: 'translate(0,0)' // put it where you want it...
91
+ // })
92
+ // .html('<div class"style-me"><p>My label or other text</p></div>');
93
+
94
+ // svg.append('filter')
95
+ // .attr('id','desaturate')
96
+ // .append('feColorMatrix')
97
+ // .attr('type','matrix')
98
+ // .attr('values',"0.3333 0.3333 0.3333 0 0 0.3333 0.3333 0.3333 0 0 0.3333 0.3333 0.3333 0 0 0 0 0 1 0");
99
+
100
+ var stuffToBeWrapped = d3.selectAll("svg");
101
+
102
+ stuffToBeWrapped.each(function() {
103
+
104
+ d3.select( this.childNode ).insert("g", function(){return this;} )
105
+ //insert a new <g> element immediately before this element
106
+ .attr("class", "wrapper") //set anything you want to on the <g>
107
+ .append( function(){return this;} );
108
+ //move the content element into the group
109
+
110
+ });
111
+ }
js/venn.html ADDED
@@ -0,0 +1,1943 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ <script src="https://d3js.org/d3.v4.min.js"></script>
3
+ <script src="http://benfred.github.io/venn.js/venn.js"></script>
4
+ <!-- <script type="module" src="/gradio_api/file/js/load_json.js"></script> -->
5
+ <script>
6
+ (function(global, factory) {
7
+ typeof exports === 'object' && typeof module !== 'undefined' ? factory(exports, require('d3-selection'), require('d3-transition')) :
8
+ typeof define === 'function' && define.amd ? define(['exports', 'd3-selection', 'd3-transition'], factory) :
9
+ (factory((global.venn = {}), global.d3, global.d3));
10
+ }(this, (function(exports, d3Selection, d3Transition) {
11
+ 'use strict';
12
+ var SMALL = 1e-10;
13
+ /** Returns the intersection area of a bunch of circles (where each circle
14
+ is an object having an x,y and radius property) */
15
+ function intersectionArea(circles, stats) {
16
+ // get all the intersection points of the circles
17
+ var intersectionPoints = getIntersectionPoints(circles);
18
+ // filter out points that aren't included in all the circles
19
+ var innerPoints = intersectionPoints.filter(function(p) {
20
+ return containedInCircles(p, circles);
21
+ });
22
+ var arcArea = 0,
23
+ polygonArea = 0,
24
+ arcs = [],
25
+ i;
26
+ // if we have intersection points that are within all the circles,
27
+ // then figure out the area contained by them
28
+ if (innerPoints.length > 1) {
29
+ // sort the points by angle from the center of the polygon, which lets
30
+ // us just iterate over points to get the edges
31
+ var center = getCenter(innerPoints);
32
+ for (i = 0; i < innerPoints.length; ++i) {
33
+ var p = innerPoints[i];
34
+ p.angle = Math.atan2(p.x - center.x, p.y - center.y);
35
+ }
36
+ innerPoints.sort(function(a, b) {
37
+ return b.angle - a.angle;
38
+ });
39
+ // iterate over all points, get arc between the points
40
+ // and update the areas
41
+ var p2 = innerPoints[innerPoints.length - 1];
42
+ for (i = 0; i < innerPoints.length; ++i) {
43
+ var p1 = innerPoints[i];
44
+ // polygon area updates easily ...
45
+ polygonArea += (p2.x + p1.x) * (p1.y - p2.y);
46
+ // updating the arc area is a little more involved
47
+ var midPoint = {
48
+ x: (p1.x + p2.x) / 2,
49
+ y: (p1.y + p2.y) / 2
50
+ },
51
+ arc = null;
52
+ for (var j = 0; j < p1.parentIndex.length; ++j) {
53
+ if (p2.parentIndex.indexOf(p1.parentIndex[j]) > -1) {
54
+ // figure out the angle halfway between the two points
55
+ // on the current circle
56
+ var circle = circles[p1.parentIndex[j]],
57
+ a1 = Math.atan2(p1.x - circle.x, p1.y - circle.y),
58
+ a2 = Math.atan2(p2.x - circle.x, p2.y - circle.y);
59
+ var angleDiff = (a2 - a1);
60
+ if (angleDiff < 0) {
61
+ angleDiff += 2 * Math.PI;
62
+ }
63
+ // and use that angle to figure out the width of the
64
+ // arc
65
+ var a = a2 - angleDiff / 2,
66
+ width = distance(midPoint, {
67
+ x: circle.x + circle.radius * Math.sin(a),
68
+ y: circle.y + circle.radius * Math.cos(a)
69
+ });
70
+ // clamp the width to the largest is can actually be
71
+ // (sometimes slightly overflows because of FP errors)
72
+ if (width > circle.radius * 2) {
73
+ width = circle.radius * 2;
74
+ }
75
+ // pick the circle whose arc has the smallest width
76
+ if ((arc === null) || (arc.width > width)) {
77
+ arc = {
78
+ circle: circle,
79
+ width: width,
80
+ p1: p1,
81
+ p2: p2
82
+ };
83
+ }
84
+ }
85
+ }
86
+ if (arc !== null) {
87
+ arcs.push(arc);
88
+ arcArea += circleArea(arc.circle.radius, arc.width);
89
+ p2 = p1;
90
+ }
91
+ }
92
+ } else {
93
+ // no intersection points, is either disjoint - or is completely
94
+ // overlapped. figure out which by examining the smallest circle
95
+ var smallest = circles[0];
96
+ for (i = 1; i < circles.length; ++i) {
97
+ if (circles[i].radius < smallest.radius) {
98
+ smallest = circles[i];
99
+ }
100
+ }
101
+ // make sure the smallest circle is completely contained in all
102
+ // the other circles
103
+ var disjoint = false;
104
+ for (i = 0; i < circles.length; ++i) {
105
+ if (distance(circles[i], smallest) > Math.abs(smallest.radius - circles[i].radius)) {
106
+ disjoint = true;
107
+ break;
108
+ }
109
+ }
110
+ if (disjoint) {
111
+ arcArea = polygonArea = 0;
112
+ } else {
113
+ arcArea = smallest.radius * smallest.radius * Math.PI;
114
+ arcs.push({
115
+ circle: smallest,
116
+ p1: {
117
+ x: smallest.x,
118
+ y: smallest.y + smallest.radius
119
+ },
120
+ p2: {
121
+ x: smallest.x - SMALL,
122
+ y: smallest.y + smallest.radius
123
+ },
124
+ width: smallest.radius * 2
125
+ });
126
+ }
127
+ }
128
+ polygonArea /= 2;
129
+ if (stats) {
130
+ stats.area = arcArea + polygonArea;
131
+ stats.arcArea = arcArea;
132
+ stats.polygonArea = polygonArea;
133
+ stats.arcs = arcs;
134
+ stats.innerPoints = innerPoints;
135
+ stats.intersectionPoints = intersectionPoints;
136
+ }
137
+ return arcArea + polygonArea;
138
+ }
139
+ /** returns whether a point is contained by all of a list of circles */
140
+ function containedInCircles(point, circles) {
141
+ for (var i = 0; i < circles.length; ++i) {
142
+ if (distance(point, circles[i]) > circles[i].radius + SMALL) {
143
+ return false;
144
+ }
145
+ }
146
+ return true;
147
+ }
148
+ /** Gets all intersection points between a bunch of circles */
149
+ function getIntersectionPoints(circles) {
150
+ var ret = [];
151
+ for (var i = 0; i < circles.length; ++i) {
152
+ for (var j = i + 1; j < circles.length; ++j) {
153
+ var intersect = circleCircleIntersection(circles[i],
154
+ circles[j]);
155
+ for (var k = 0; k < intersect.length; ++k) {
156
+ var p = intersect[k];
157
+ p.parentIndex = [i, j];
158
+ ret.push(p);
159
+ }
160
+ }
161
+ }
162
+ return ret;
163
+ }
164
+ /** Circular segment area calculation. See http://mathworld.wolfram.com/CircularSegment.html */
165
+ function circleArea(r, width) {
166
+ return r * r * Math.acos(1 - width / r) - (r - width) * Math.sqrt(width * (2 * r - width));
167
+ }
168
+ /** euclidean distance between two points */
169
+ function distance(p1, p2) {
170
+ return Math.sqrt((p1.x - p2.x) * (p1.x - p2.x) +
171
+ (p1.y - p2.y) * (p1.y - p2.y));
172
+ }
173
+ /** Returns the overlap area of two circles of radius r1 and r2 - that
174
+ have their centers separated by distance d. Simpler faster
175
+ circle intersection for only two circles */
176
+ function circleOverlap(r1, r2, d) {
177
+ // no overlap
178
+ if (d >= r1 + r2) {
179
+ return 0;
180
+ }
181
+ // completely overlapped
182
+ if (d <= Math.abs(r1 - r2)) {
183
+ return Math.PI * Math.min(r1, r2) * Math.min(r1, r2);
184
+ }
185
+ var w1 = r1 - (d * d - r2 * r2 + r1 * r1) / (2 * d),
186
+ w2 = r2 - (d * d - r1 * r1 + r2 * r2) / (2 * d);
187
+ return circleArea(r1, w1) + circleArea(r2, w2);
188
+ }
189
+ /** Given two circles (containing a x/y/radius attributes),
190
+ returns the intersecting points if possible.
191
+ note: doesn't handle cases where there are infinitely many
192
+ intersection points (circles are equivalent):, or only one intersection point*/
193
+ function circleCircleIntersection(p1, p2) {
194
+ var d = distance(p1, p2),
195
+ r1 = p1.radius,
196
+ r2 = p2.radius;
197
+ // if to far away, or self contained - can't be done
198
+ if ((d >= (r1 + r2)) || (d <= Math.abs(r1 - r2))) {
199
+ return [];
200
+ }
201
+ var a = (r1 * r1 - r2 * r2 + d * d) / (2 * d),
202
+ h = Math.sqrt(r1 * r1 - a * a),
203
+ x0 = p1.x + a * (p2.x - p1.x) / d,
204
+ y0 = p1.y + a * (p2.y - p1.y) / d,
205
+ rx = -(p2.y - p1.y) * (h / d),
206
+ ry = -(p2.x - p1.x) * (h / d);
207
+ return [{
208
+ x: x0 + rx,
209
+ y: y0 - ry
210
+ },
211
+ {
212
+ x: x0 - rx,
213
+ y: y0 + ry
214
+ }
215
+ ];
216
+ }
217
+ /** Returns the center of a bunch of points */
218
+ function getCenter(points) {
219
+ var center = {
220
+ x: 0,
221
+ y: 0
222
+ };
223
+ for (var i = 0; i < points.length; ++i) {
224
+ center.x += points[i].x;
225
+ center.y += points[i].y;
226
+ }
227
+ center.x /= points.length;
228
+ center.y /= points.length;
229
+ return center;
230
+ }
231
+ /** finds the zeros of a function, given two starting points (which must
232
+ * have opposite signs */
233
+ function bisect(f, a, b, parameters) {
234
+ parameters = parameters || {};
235
+ var maxIterations = parameters.maxIterations || 100,
236
+ tolerance = parameters.tolerance || 1e-10,
237
+ fA = f(a),
238
+ fB = f(b),
239
+ delta = b - a;
240
+ if (fA * fB > 0) {
241
+ throw "Initial bisect points must have opposite signs";
242
+ }
243
+ if (fA === 0) return a;
244
+ if (fB === 0) return b;
245
+ for (var i = 0; i < maxIterations; ++i) {
246
+ delta /= 2;
247
+ var mid = a + delta,
248
+ fMid = f(mid);
249
+ if (fMid * fA >= 0) {
250
+ a = mid;
251
+ }
252
+ if ((Math.abs(delta) < tolerance) || (fMid === 0)) {
253
+ return mid;
254
+ }
255
+ }
256
+ return a + delta;
257
+ }
258
+ // need some basic operations on vectors, rather than adding a dependency,
259
+ // just define here
260
+ function zeros(x) {
261
+ var r = new Array(x);
262
+ for (var i = 0; i < x; ++i) {
263
+ r[i] = 0;
264
+ }
265
+ return r;
266
+ }
267
+
268
+ function zerosM(x, y) {
269
+ return zeros(x).map(function() {
270
+ return zeros(y);
271
+ });
272
+ }
273
+
274
+ function dot(a, b) {
275
+ var ret = 0;
276
+ for (var i = 0; i < a.length; ++i) {
277
+ ret += a[i] * b[i];
278
+ }
279
+ return ret;
280
+ }
281
+
282
+ function norm2(a) {
283
+ return Math.sqrt(dot(a, a));
284
+ }
285
+
286
+ function scale(ret, value, c) {
287
+ for (var i = 0; i < value.length; ++i) {
288
+ ret[i] = value[i] * c;
289
+ }
290
+ }
291
+
292
+ function weightedSum(ret, w1, v1, w2, v2) {
293
+ for (var j = 0; j < ret.length; ++j) {
294
+ ret[j] = w1 * v1[j] + w2 * v2[j];
295
+ }
296
+ }
297
+ /** minimizes a function using the downhill simplex method */
298
+ function nelderMead(f, x0, parameters) {
299
+ parameters = parameters || {};
300
+ var maxIterations = parameters.maxIterations || x0.length * 200,
301
+ nonZeroDelta = parameters.nonZeroDelta || 1.05,
302
+ zeroDelta = parameters.zeroDelta || 0.001,
303
+ minErrorDelta = parameters.minErrorDelta || 1e-6,
304
+ minTolerance = parameters.minErrorDelta || 1e-5,
305
+ rho = (parameters.rho !== undefined) ? parameters.rho : 1,
306
+ chi = (parameters.chi !== undefined) ? parameters.chi : 2,
307
+ psi = (parameters.psi !== undefined) ? parameters.psi : -0.5,
308
+ sigma = (parameters.sigma !== undefined) ? parameters.sigma : 0.5,
309
+ maxDiff;
310
+ // initialize simplex.
311
+ var N = x0.length,
312
+ simplex = new Array(N + 1);
313
+ simplex[0] = x0;
314
+ simplex[0].fx = f(x0);
315
+ simplex[0].id = 0;
316
+ for (var i = 0; i < N; ++i) {
317
+ var point = x0.slice();
318
+ point[i] = point[i] ? point[i] * nonZeroDelta : zeroDelta;
319
+ simplex[i + 1] = point;
320
+ simplex[i + 1].fx = f(point);
321
+ simplex[i + 1].id = i + 1;
322
+ }
323
+
324
+ function updateSimplex(value) {
325
+ for (var i = 0; i < value.length; i++) {
326
+ simplex[N][i] = value[i];
327
+ }
328
+ simplex[N].fx = value.fx;
329
+ }
330
+ var sortOrder = function(a, b) {
331
+ return a.fx - b.fx;
332
+ };
333
+ var centroid = x0.slice(),
334
+ reflected = x0.slice(),
335
+ contracted = x0.slice(),
336
+ expanded = x0.slice();
337
+ for (var iteration = 0; iteration < maxIterations; ++iteration) {
338
+ simplex.sort(sortOrder);
339
+ if (parameters.history) {
340
+ // copy the simplex (since later iterations will mutate) and
341
+ // sort it to have a consistent order between iterations
342
+ var sortedSimplex = simplex.map(function(x) {
343
+ var state = x.slice();
344
+ state.fx = x.fx;
345
+ state.id = x.id;
346
+ return state;
347
+ });
348
+ sortedSimplex.sort(function(a, b) {
349
+ return a.id - b.id;
350
+ });
351
+ parameters.history.push({
352
+ x: simplex[0].slice(),
353
+ fx: simplex[0].fx,
354
+ simplex: sortedSimplex
355
+ });
356
+ }
357
+ maxDiff = 0;
358
+ for (i = 0; i < N; ++i) {
359
+ maxDiff = Math.max(maxDiff, Math.abs(simplex[0][i] - simplex[1][i]));
360
+ }
361
+ if ((Math.abs(simplex[0].fx - simplex[N].fx) < minErrorDelta) &&
362
+ (maxDiff < minTolerance)) {
363
+ break;
364
+ }
365
+ // compute the centroid of all but the worst point in the simplex
366
+ for (i = 0; i < N; ++i) {
367
+ centroid[i] = 0;
368
+ for (var j = 0; j < N; ++j) {
369
+ centroid[i] += simplex[j][i];
370
+ }
371
+ centroid[i] /= N;
372
+ }
373
+ // reflect the worst point past the centroid and compute loss at reflected
374
+ // point
375
+ var worst = simplex[N];
376
+ weightedSum(reflected, 1 + rho, centroid, -rho, worst);
377
+ reflected.fx = f(reflected);
378
+ // if the reflected point is the best seen, then possibly expand
379
+ if (reflected.fx < simplex[0].fx) {
380
+ weightedSum(expanded, 1 + chi, centroid, -chi, worst);
381
+ expanded.fx = f(expanded);
382
+ if (expanded.fx < reflected.fx) {
383
+ updateSimplex(expanded);
384
+ } else {
385
+ updateSimplex(reflected);
386
+ }
387
+ }
388
+ // if the reflected point is worse than the second worst, we need to
389
+ // contract
390
+ else if (reflected.fx >= simplex[N - 1].fx) {
391
+ var shouldReduce = false;
392
+ if (reflected.fx > worst.fx) {
393
+ // do an inside contraction
394
+ weightedSum(contracted, 1 + psi, centroid, -psi, worst);
395
+ contracted.fx = f(contracted);
396
+ if (contracted.fx < worst.fx) {
397
+ updateSimplex(contracted);
398
+ } else {
399
+ shouldReduce = true;
400
+ }
401
+ } else {
402
+ // do an outside contraction
403
+ weightedSum(contracted, 1 - psi * rho, centroid, psi * rho, worst);
404
+ contracted.fx = f(contracted);
405
+ if (contracted.fx < reflected.fx) {
406
+ updateSimplex(contracted);
407
+ } else {
408
+ shouldReduce = true;
409
+ }
410
+ }
411
+ if (shouldReduce) {
412
+ // if we don't contract here, we're done
413
+ if (sigma >= 1) break;
414
+ // do a reduction
415
+ for (i = 1; i < simplex.length; ++i) {
416
+ weightedSum(simplex[i], 1 - sigma, simplex[0], sigma, simplex[i]);
417
+ simplex[i].fx = f(simplex[i]);
418
+ }
419
+ }
420
+ } else {
421
+ updateSimplex(reflected);
422
+ }
423
+ }
424
+ simplex.sort(sortOrder);
425
+ return {
426
+ fx: simplex[0].fx,
427
+ x: simplex[0]
428
+ };
429
+ }
430
+ /// searches along line 'pk' for a point that satifies the wolfe conditions
431
+ /// See 'Numerical Optimization' by Nocedal and Wright p59-60
432
+ /// f : objective function
433
+ /// pk : search direction
434
+ /// current: object containing current gradient/loss
435
+ /// next: output: contains next gradient/loss
436
+ /// returns a: step size taken
437
+ function wolfeLineSearch(f, pk, current, next, a, c1, c2) {
438
+ var phi0 = current.fx,
439
+ phiPrime0 = dot(current.fxprime, pk),
440
+ phi = phi0,
441
+ phi_old = phi0,
442
+ phiPrime = phiPrime0,
443
+ a0 = 0;
444
+ a = a || 1;
445
+ c1 = c1 || 1e-6;
446
+ c2 = c2 || 0.1;
447
+
448
+ function zoom(a_lo, a_high, phi_lo) {
449
+ for (var iteration = 0; iteration < 16; ++iteration) {
450
+ a = (a_lo + a_high) / 2;
451
+ weightedSum(next.x, 1.0, current.x, a, pk);
452
+ phi = next.fx = f(next.x, next.fxprime);
453
+ phiPrime = dot(next.fxprime, pk);
454
+ if ((phi > (phi0 + c1 * a * phiPrime0)) ||
455
+ (phi >= phi_lo)) {
456
+ a_high = a;
457
+ } else {
458
+ if (Math.abs(phiPrime) <= -c2 * phiPrime0) {
459
+ return a;
460
+ }
461
+ if (phiPrime * (a_high - a_lo) >= 0) {
462
+ a_high = a_lo;
463
+ }
464
+ a_lo = a;
465
+ phi_lo = phi;
466
+ }
467
+ }
468
+ return 0;
469
+ }
470
+ for (var iteration = 0; iteration < 10; ++iteration) {
471
+ weightedSum(next.x, 1.0, current.x, a, pk);
472
+ phi = next.fx = f(next.x, next.fxprime);
473
+ phiPrime = dot(next.fxprime, pk);
474
+ if ((phi > (phi0 + c1 * a * phiPrime0)) ||
475
+ (iteration && (phi >= phi_old))) {
476
+ return zoom(a0, a, phi_old);
477
+ }
478
+ if (Math.abs(phiPrime) <= -c2 * phiPrime0) {
479
+ return a;
480
+ }
481
+ if (phiPrime >= 0) {
482
+ return zoom(a, a0, phi);
483
+ }
484
+ phi_old = phi;
485
+ a0 = a;
486
+ a *= 2;
487
+ }
488
+ return a;
489
+ }
490
+
491
+ function conjugateGradient(f, initial, params) {
492
+ // allocate all memory up front here, keep out of the loop for perfomance
493
+ // reasons
494
+ var current = {
495
+ x: initial.slice(),
496
+ fx: 0,
497
+ fxprime: initial.slice()
498
+ },
499
+ next = {
500
+ x: initial.slice(),
501
+ fx: 0,
502
+ fxprime: initial.slice()
503
+ },
504
+ yk = initial.slice(),
505
+ pk, temp,
506
+ a = 1,
507
+ maxIterations;
508
+ params = params || {};
509
+ maxIterations = params.maxIterations || initial.length * 20;
510
+ current.fx = f(current.x, current.fxprime);
511
+ pk = current.fxprime.slice();
512
+ scale(pk, current.fxprime, -1);
513
+ for (var i = 0; i < maxIterations; ++i) {
514
+ a = wolfeLineSearch(f, pk, current, next, a);
515
+ // todo: history in wrong spot?
516
+ if (params.history) {
517
+ params.history.push({
518
+ x: current.x.slice(),
519
+ fx: current.fx,
520
+ fxprime: current.fxprime.slice(),
521
+ alpha: a
522
+ });
523
+ }
524
+ if (!a) {
525
+ // faiiled to find point that satifies wolfe conditions.
526
+ // reset direction for next iteration
527
+ scale(pk, current.fxprime, -1);
528
+ } else {
529
+ // update direction using Polak–Ribiere CG method
530
+ weightedSum(yk, 1, next.fxprime, -1, current.fxprime);
531
+ var delta_k = dot(current.fxprime, current.fxprime),
532
+ beta_k = Math.max(0, dot(yk, next.fxprime) / delta_k);
533
+ weightedSum(pk, beta_k, pk, -1, next.fxprime);
534
+ temp = current;
535
+ current = next;
536
+ next = temp;
537
+ }
538
+ if (norm2(current.fxprime) <= 1e-5) {
539
+ break;
540
+ }
541
+ }
542
+ if (params.history) {
543
+ params.history.push({
544
+ x: current.x.slice(),
545
+ fx: current.fx,
546
+ fxprime: current.fxprime.slice(),
547
+ alpha: a
548
+ });
549
+ }
550
+ return current;
551
+ }
552
+ /** given a list of set objects, and their corresponding overlaps.
553
+ updates the (x, y, radius) attribute on each set such that their positions
554
+ roughly correspond to the desired overlaps */
555
+ function venn(areas, parameters) {
556
+ parameters = parameters || {};
557
+ parameters.maxIterations = parameters.maxIterations || 500;
558
+ var initialLayout = parameters.initialLayout || bestInitialLayout;
559
+ var loss = parameters.lossFunction || lossFunction;
560
+ // add in missing pairwise areas as having 0 size
561
+ areas = addMissingAreas(areas);
562
+ // initial layout is done greedily
563
+ var circles = initialLayout(areas, parameters);
564
+ // transform x/y coordinates to a vector to optimize
565
+ var initial = [],
566
+ setids = [],
567
+ setid;
568
+ for (setid in circles) {
569
+ if (circles.hasOwnProperty(setid)) {
570
+ initial.push(circles[setid].x);
571
+ initial.push(circles[setid].y);
572
+ setids.push(setid);
573
+ }
574
+ }
575
+ // optimize initial layout from our loss function
576
+ var solution = nelderMead(
577
+ function(values) {
578
+ var current = {};
579
+ for (var i = 0; i < setids.length; ++i) {
580
+ var setid = setids[i];
581
+ current[setid] = {
582
+ x: values[2 * i],
583
+ y: values[2 * i + 1],
584
+ radius: circles[setid].radius,
585
+ // size : circles[setid].size
586
+ };
587
+ }
588
+ return loss(current, areas);
589
+ },
590
+ initial,
591
+ parameters);
592
+ // transform solution vector back to x/y points
593
+ var positions = solution.x;
594
+ for (var i = 0; i < setids.length; ++i) {
595
+ setid = setids[i];
596
+ circles[setid].x = positions[2 * i];
597
+ circles[setid].y = positions[2 * i + 1];
598
+ }
599
+ return circles;
600
+ }
601
+ var SMALL$1 = 1e-10;
602
+ /** Returns the distance necessary for two circles of radius r1 + r2 to
603
+ have the overlap area 'overlap' */
604
+ function distanceFromIntersectArea(r1, r2, overlap) {
605
+ // handle complete overlapped circles
606
+ if (Math.min(r1, r2) * Math.min(r1, r2) * Math.PI <= overlap + SMALL$1) {
607
+ return Math.abs(r1 - r2);
608
+ }
609
+ return bisect(function(distance$$1) {
610
+ return circleOverlap(r1, r2, distance$$1) - overlap;
611
+ }, 0, r1 + r2);
612
+ }
613
+ /** Missing pair-wise intersection area data can cause problems:
614
+ treating as an unknown means that sets will be laid out overlapping,
615
+ which isn't what people expect. To reflect that we want disjoint sets
616
+ here, set the overlap to 0 for all missing pairwise set intersections */
617
+ function addMissingAreas(areas) {
618
+ areas = areas.slice();
619
+ // two circle intersections that aren't defined
620
+ var ids = [],
621
+ pairs = {},
622
+ i, j, a, b;
623
+ for (i = 0; i < areas.length; ++i) {
624
+ var area = areas[i];
625
+ if (area.sets.length == 1) {
626
+ ids.push(area.sets[0]);
627
+ } else if (area.sets.length == 2) {
628
+ a = area.sets[0];
629
+ b = area.sets[1];
630
+ pairs[[a, b]] = true;
631
+ pairs[[b, a]] = true;
632
+ }
633
+ }
634
+ ids.sort(function(a, b) {
635
+ return a > b;
636
+ });
637
+ for (i = 0; i < ids.length; ++i) {
638
+ a = ids[i];
639
+ for (j = i + 1; j < ids.length; ++j) {
640
+ b = ids[j];
641
+ if (!([a, b] in pairs)) {
642
+ areas.push({
643
+ 'sets': [a, b],
644
+ 'size': 0
645
+ });
646
+ }
647
+ }
648
+ }
649
+ return areas;
650
+ }
651
+ /// Returns two matrices, one of the euclidean distances between the sets
652
+ /// and the other indicating if there are subset or disjoint set relationships
653
+ function getDistanceMatrices(areas, sets, setids) {
654
+ // initialize an empty distance matrix between all the points
655
+ var distances = zerosM(sets.length, sets.length),
656
+ constraints = zerosM(sets.length, sets.length);
657
+ // compute required distances between all the sets such that
658
+ // the areas match
659
+ areas.filter(function(x) {
660
+ return x.sets.length == 2;
661
+ })
662
+ .map(function(current) {
663
+ var left = setids[current.sets[0]],
664
+ right = setids[current.sets[1]],
665
+ r1 = Math.sqrt(sets[left].size / Math.PI),
666
+ r2 = Math.sqrt(sets[right].size / Math.PI),
667
+ distance$$1 = distanceFromIntersectArea(r1, r2, current.size);
668
+ distances[left][right] = distances[right][left] = distance$$1;
669
+ // also update constraints to indicate if its a subset or disjoint
670
+ // relationship
671
+ var c = 0;
672
+ if (current.size + 1e-10 >= Math.min(sets[left].size,
673
+ sets[right].size)) {
674
+ c = 1;
675
+ } else if (current.size <= 1e-10) {
676
+ c = -1;
677
+ }
678
+ constraints[left][right] = constraints[right][left] = c;
679
+ });
680
+ return {
681
+ distances: distances,
682
+ constraints: constraints
683
+ };
684
+ }
685
+ /// computes the gradient and loss simulatenously for our constrained MDS optimizer
686
+ function constrainedMDSGradient(x, fxprime, distances, constraints) {
687
+ var loss = 0,
688
+ i;
689
+ for (i = 0; i < fxprime.length; ++i) {
690
+ fxprime[i] = 0;
691
+ }
692
+ for (i = 0; i < distances.length; ++i) {
693
+ var xi = x[2 * i],
694
+ yi = x[2 * i + 1];
695
+ for (var j = i + 1; j < distances.length; ++j) {
696
+ var xj = x[2 * j],
697
+ yj = x[2 * j + 1],
698
+ dij = distances[i][j],
699
+ constraint = constraints[i][j];
700
+ var squaredDistance = (xj - xi) * (xj - xi) + (yj - yi) * (yj - yi),
701
+ distance$$1 = Math.sqrt(squaredDistance),
702
+ delta = squaredDistance - dij * dij;
703
+ if (((constraint > 0) && (distance$$1 <= dij)) ||
704
+ ((constraint < 0) && (distance$$1 >= dij))) {
705
+ continue;
706
+ }
707
+ loss += 2 * delta * delta;
708
+ fxprime[2 * i] += 4 * delta * (xi - xj);
709
+ fxprime[2 * i + 1] += 4 * delta * (yi - yj);
710
+ fxprime[2 * j] += 4 * delta * (xj - xi);
711
+ fxprime[2 * j + 1] += 4 * delta * (yj - yi);
712
+ }
713
+ }
714
+ return loss;
715
+ }
716
+ /// takes the best working variant of either constrained MDS or greedy
717
+ function bestInitialLayout(areas, params) {
718
+ var initial = greedyLayout(areas, params);
719
+ var loss = params.lossFunction || lossFunction;
720
+ // greedylayout is sufficient for all 2/3 circle cases. try out
721
+ // constrained MDS for higher order problems, take its output
722
+ // if it outperforms. (greedy is aesthetically better on 2/3 circles
723
+ // since it axis aligns)
724
+ if (areas.length >= 8) {
725
+ var constrained = constrainedMDSLayout(areas, params),
726
+ constrainedLoss = loss(constrained, areas),
727
+ greedyLoss = loss(initial, areas);
728
+ if (constrainedLoss + 1e-8 < greedyLoss) {
729
+ initial = constrained;
730
+ }
731
+ }
732
+ return initial;
733
+ }
734
+ /// use the constrained MDS variant to generate an initial layout
735
+ function constrainedMDSLayout(areas, params) {
736
+ params = params || {};
737
+ var restarts = params.restarts || 10;
738
+ // bidirectionally map sets to a rowid (so we can create a matrix)
739
+ var sets = [],
740
+ setids = {},
741
+ i;
742
+ for (i = 0; i < areas.length; ++i) {
743
+ var area = areas[i];
744
+ if (area.sets.length == 1) {
745
+ setids[area.sets[0]] = sets.length;
746
+ sets.push(area);
747
+ }
748
+ }
749
+ var matrices = getDistanceMatrices(areas, sets, setids),
750
+ distances = matrices.distances,
751
+ constraints = matrices.constraints;
752
+ // keep distances bounded, things get messed up otherwise.
753
+ // TODO: proper preconditioner?
754
+ var norm = norm2(distances.map(norm2)) / (distances.length);
755
+ distances = distances.map(function(row) {
756
+ return row.map(function(value) {
757
+ return value / norm;
758
+ });
759
+ });
760
+ var obj = function(x, fxprime) {
761
+ return constrainedMDSGradient(x, fxprime, distances, constraints);
762
+ };
763
+ var best, current;
764
+ for (i = 0; i < restarts; ++i) {
765
+ var initial = zeros(distances.length * 2).map(Math.random);
766
+ current = conjugateGradient(obj, initial, params);
767
+ if (!best || (current.fx < best.fx)) {
768
+ best = current;
769
+ }
770
+ }
771
+ var positions = best.x;
772
+ // translate rows back to (x,y,radius) coordinates
773
+ var circles = {};
774
+ for (i = 0; i < sets.length; ++i) {
775
+ var set = sets[i];
776
+ circles[set.sets[0]] = {
777
+ x: positions[2 * i] * norm,
778
+ y: positions[2 * i + 1] * norm,
779
+ radius: Math.sqrt(set.size / Math.PI)
780
+ };
781
+ }
782
+ if (params.history) {
783
+ for (i = 0; i < params.history.length; ++i) {
784
+ scale(params.history[i].x, norm);
785
+ }
786
+ }
787
+ return circles;
788
+ }
789
+ /** Lays out a Venn diagram greedily, going from most overlapped sets to
790
+ least overlapped, attempting to position each new set such that the
791
+ overlapping areas to already positioned sets are basically right */
792
+ function greedyLayout(areas, params) {
793
+ var loss = params && params.lossFunction ? params.lossFunction : lossFunction;
794
+ // define a circle for each set
795
+ var circles = {},
796
+ setOverlaps = {},
797
+ set;
798
+ for (var i = 0; i < areas.length; ++i) {
799
+ var area = areas[i];
800
+ if (area.sets.length == 1) {
801
+ set = area.sets[0];
802
+ circles[set] = {
803
+ x: 1e10,
804
+ y: 1e10,
805
+ rowid: circles.length,
806
+ size: area.size,
807
+ radius: Math.sqrt(area.size / Math.PI)
808
+ };
809
+ setOverlaps[set] = [];
810
+ }
811
+ }
812
+ areas = areas.filter(function(a) {
813
+ return a.sets.length == 2;
814
+ });
815
+ // map each set to a list of all the other sets that overlap it
816
+ for (i = 0; i < areas.length; ++i) {
817
+ var current = areas[i];
818
+ var weight = current.hasOwnProperty('weight') ? current.weight : 1.0;
819
+ var left = current.sets[0],
820
+ right = current.sets[1];
821
+ // completely overlapped circles shouldn't be positioned early here
822
+ if (current.size + SMALL$1 >= Math.min(circles[left].size,
823
+ circles[right].size)) {
824
+ weight = 0;
825
+ }
826
+ setOverlaps[left].push({
827
+ set: right,
828
+ size: current.size,
829
+ weight: weight
830
+ });
831
+ setOverlaps[right].push({
832
+ set: left,
833
+ size: current.size,
834
+ weight: weight
835
+ });
836
+ }
837
+ // get list of most overlapped sets
838
+ var mostOverlapped = [];
839
+ for (set in setOverlaps) {
840
+ if (setOverlaps.hasOwnProperty(set)) {
841
+ var size = 0;
842
+ for (i = 0; i < setOverlaps[set].length; ++i) {
843
+ size += setOverlaps[set][i].size * setOverlaps[set][i].weight;
844
+ }
845
+ mostOverlapped.push({
846
+ set: set,
847
+ size: size
848
+ });
849
+ }
850
+ }
851
+ // sort by size desc
852
+ function sortOrder(a, b) {
853
+ return b.size - a.size;
854
+ }
855
+ mostOverlapped.sort(sortOrder);
856
+ // keep track of what sets have been laid out
857
+ var positioned = {};
858
+
859
+ function isPositioned(element) {
860
+ return element.set in positioned;
861
+ }
862
+ // adds a point to the output
863
+ function positionSet(point, index) {
864
+ circles[index].x = point.x;
865
+ circles[index].y = point.y;
866
+ positioned[index] = true;
867
+ }
868
+ // add most overlapped set at (0,0)
869
+ positionSet({
870
+ x: 0,
871
+ y: 0
872
+ }, mostOverlapped[0].set);
873
+ // get distances between all points. TODO, necessary?
874
+ // answer: probably not
875
+ // var distances = venn.getDistanceMatrices(circles, areas).distances;
876
+ for (i = 1; i < mostOverlapped.length; ++i) {
877
+ var setIndex = mostOverlapped[i].set,
878
+ overlap = setOverlaps[setIndex].filter(isPositioned);
879
+ set = circles[setIndex];
880
+ overlap.sort(sortOrder);
881
+ if (overlap.length === 0) {
882
+ // this shouldn't happen anymore with addMissingAreas
883
+ throw "ERROR: missing pairwise overlap information";
884
+ }
885
+ var points = [];
886
+ for (var j = 0; j < overlap.length; ++j) {
887
+ // get appropriate distance from most overlapped already added set
888
+ var p1 = circles[overlap[j].set],
889
+ d1 = distanceFromIntersectArea(set.radius, p1.radius,
890
+ overlap[j].size);
891
+ // sample positions at 90 degrees for maximum aesthetics
892
+ points.push({
893
+ x: p1.x + d1,
894
+ y: p1.y
895
+ });
896
+ points.push({
897
+ x: p1.x - d1,
898
+ y: p1.y
899
+ });
900
+ points.push({
901
+ y: p1.y + d1,
902
+ x: p1.x
903
+ });
904
+ points.push({
905
+ y: p1.y - d1,
906
+ x: p1.x
907
+ });
908
+ // if we have at least 2 overlaps, then figure out where the
909
+ // set should be positioned analytically and try those too
910
+ for (var k = j + 1; k < overlap.length; ++k) {
911
+ var p2 = circles[overlap[k].set],
912
+ d2 = distanceFromIntersectArea(set.radius, p2.radius,
913
+ overlap[k].size);
914
+ var extraPoints = circleCircleIntersection({
915
+ x: p1.x,
916
+ y: p1.y,
917
+ radius: d1
918
+ }, {
919
+ x: p2.x,
920
+ y: p2.y,
921
+ radius: d2
922
+ });
923
+ for (var l = 0; l < extraPoints.length; ++l) {
924
+ points.push(extraPoints[l]);
925
+ }
926
+ }
927
+ }
928
+ // we have some candidate positions for the set, examine loss
929
+ // at each position to figure out where to put it at
930
+ var bestLoss = 1e50,
931
+ bestPoint = points[0];
932
+ for (j = 0; j < points.length; ++j) {
933
+ circles[setIndex].x = points[j].x;
934
+ circles[setIndex].y = points[j].y;
935
+ var localLoss = loss(circles, areas);
936
+ if (localLoss < bestLoss) {
937
+ bestLoss = localLoss;
938
+ bestPoint = points[j];
939
+ }
940
+ }
941
+ positionSet(bestPoint, setIndex);
942
+ }
943
+ return circles;
944
+ }
945
+ /** Given a bunch of sets, and the desired overlaps between these sets - computes
946
+ the distance from the actual overlaps to the desired overlaps. Note that
947
+ this method ignores overlaps of more than 2 circles */
948
+ function lossFunction(sets, overlaps) {
949
+ var output = 0;
950
+
951
+ function getCircles(indices) {
952
+ return indices.map(function(i) {
953
+ return sets[i];
954
+ });
955
+ }
956
+ for (var i = 0; i < overlaps.length; ++i) {
957
+ var area = overlaps[i],
958
+ overlap;
959
+ if (area.sets.length == 1) {
960
+ continue;
961
+ } else if (area.sets.length == 2) {
962
+ var left = sets[area.sets[0]],
963
+ right = sets[area.sets[1]];
964
+ overlap = circleOverlap(left.radius, right.radius,
965
+ distance(left, right));
966
+ } else {
967
+ overlap = intersectionArea(getCircles(area.sets));
968
+ }
969
+ var weight = area.hasOwnProperty('weight') ? area.weight : 1.0;
970
+ output += weight * (overlap - area.size) * (overlap - area.size);
971
+ }
972
+ return output;
973
+ }
974
+ // orientates a bunch of circles to point in orientation
975
+ function orientateCircles(circles, orientation, orientationOrder) {
976
+ if (orientationOrder === null) {
977
+ circles.sort(function(a, b) {
978
+ return b.radius - a.radius;
979
+ });
980
+ } else {
981
+ circles.sort(orientationOrder);
982
+ }
983
+ var i;
984
+ // shift circles so largest circle is at (0, 0)
985
+ if (circles.length > 0) {
986
+ var largestX = circles[0].x,
987
+ largestY = circles[0].y;
988
+ for (i = 0; i < circles.length; ++i) {
989
+ circles[i].x -= largestX;
990
+ circles[i].y -= largestY;
991
+ }
992
+ }
993
+ if (circles.length == 2) {
994
+ // if the second circle is a subset of the first, arrange so that
995
+ // it is off to one side. hack for https://github.com/benfred/venn.js/issues/120
996
+ var dist = distance(circles[0], circles[1]);
997
+ if (dist < Math.abs(circles[1].radius - circles[0].radius)) {
998
+ circles[1].x = circles[0].x + circles[0].radius - circles[1].radius - 1e-10;
999
+ circles[1].y = circles[0].y;
1000
+ }
1001
+ }
1002
+ // rotate circles so that second largest is at an angle of 'orientation'
1003
+ // from largest
1004
+ if (circles.length > 1) {
1005
+ var rotation = Math.atan2(circles[1].x, circles[1].y) - orientation,
1006
+ c = Math.cos(rotation),
1007
+ s = Math.sin(rotation),
1008
+ x, y;
1009
+ for (i = 0; i < circles.length; ++i) {
1010
+ x = circles[i].x;
1011
+ y = circles[i].y;
1012
+ circles[i].x = c * x - s * y;
1013
+ circles[i].y = s * x + c * y;
1014
+ }
1015
+ }
1016
+ // mirror solution if third solution is above plane specified by
1017
+ // first two circles
1018
+ if (circles.length > 2) {
1019
+ var angle = Math.atan2(circles[2].x, circles[2].y) - orientation;
1020
+ while (angle < 0) {
1021
+ angle += 2 * Math.PI;
1022
+ }
1023
+ while (angle > 2 * Math.PI) {
1024
+ angle -= 2 * Math.PI;
1025
+ }
1026
+ if (angle > Math.PI) {
1027
+ var slope = circles[1].y / (1e-10 + circles[1].x);
1028
+ for (i = 0; i < circles.length; ++i) {
1029
+ var d = (circles[i].x + slope * circles[i].y) / (1 + slope * slope);
1030
+ circles[i].x = 2 * d - circles[i].x;
1031
+ circles[i].y = 2 * d * slope - circles[i].y;
1032
+ }
1033
+ }
1034
+ }
1035
+ }
1036
+
1037
+ function disjointCluster(circles) {
1038
+ // union-find clustering to get disjoint sets
1039
+ circles.map(function(circle) {
1040
+ circle.parent = circle;
1041
+ });
1042
+ // path compression step in union find
1043
+ function find(circle) {
1044
+ if (circle.parent !== circle) {
1045
+ circle.parent = find(circle.parent);
1046
+ }
1047
+ return circle.parent;
1048
+ }
1049
+
1050
+ function union(x, y) {
1051
+ var xRoot = find(x),
1052
+ yRoot = find(y);
1053
+ xRoot.parent = yRoot;
1054
+ }
1055
+ // get the union of all overlapping sets
1056
+ for (var i = 0; i < circles.length; ++i) {
1057
+ for (var j = i + 1; j < circles.length; ++j) {
1058
+ var maxDistance = circles[i].radius + circles[j].radius;
1059
+ if (distance(circles[i], circles[j]) + 1e-10 < maxDistance) {
1060
+ union(circles[j], circles[i]);
1061
+ }
1062
+ }
1063
+ }
1064
+ // find all the disjoint clusters and group them together
1065
+ var disjointClusters = {},
1066
+ setid;
1067
+ for (i = 0; i < circles.length; ++i) {
1068
+ setid = find(circles[i]).parent.setid;
1069
+ if (!(setid in disjointClusters)) {
1070
+ disjointClusters[setid] = [];
1071
+ }
1072
+ disjointClusters[setid].push(circles[i]);
1073
+ }
1074
+ // cleanup bookkeeping
1075
+ circles.map(function(circle) {
1076
+ delete circle.parent;
1077
+ });
1078
+ // return in more usable form
1079
+ var ret = [];
1080
+ for (setid in disjointClusters) {
1081
+ if (disjointClusters.hasOwnProperty(setid)) {
1082
+ ret.push(disjointClusters[setid]);
1083
+ }
1084
+ }
1085
+ return ret;
1086
+ }
1087
+
1088
+ function getBoundingBox(circles) {
1089
+ var minMax = function(d) {
1090
+ var hi = Math.max.apply(null, circles.map(
1091
+ function(c) {
1092
+ return c[d] + c.radius;
1093
+ })),
1094
+ lo = Math.min.apply(null, circles.map(
1095
+ function(c) {
1096
+ return c[d] - c.radius;
1097
+ }));
1098
+ return {
1099
+ max: hi,
1100
+ min: lo
1101
+ };
1102
+ };
1103
+ return {
1104
+ xRange: minMax('x'),
1105
+ yRange: minMax('y')
1106
+ };
1107
+ }
1108
+
1109
+ function normalizeSolution(solution, orientation, orientationOrder) {
1110
+ if (orientation === null) {
1111
+ orientation = Math.PI / 2;
1112
+ }
1113
+ // work with a list instead of a dictionary, and take a copy so we
1114
+ // don't mutate input
1115
+ var circles = [],
1116
+ i, setid;
1117
+ for (setid in solution) {
1118
+ if (solution.hasOwnProperty(setid)) {
1119
+ var previous = solution[setid];
1120
+ circles.push({
1121
+ x: previous.x,
1122
+ y: previous.y,
1123
+ radius: previous.radius,
1124
+ setid: setid
1125
+ });
1126
+ }
1127
+ }
1128
+ // get all the disjoint clusters
1129
+ var clusters = disjointCluster(circles);
1130
+ // orientate all disjoint sets, get sizes
1131
+ for (i = 0; i < clusters.length; ++i) {
1132
+ orientateCircles(clusters[i], orientation, orientationOrder);
1133
+ var bounds = getBoundingBox(clusters[i]);
1134
+ clusters[i].size = (bounds.xRange.max - bounds.xRange.min) * (bounds.yRange.max - bounds.yRange.min);
1135
+ clusters[i].bounds = bounds;
1136
+ }
1137
+ clusters.sort(function(a, b) {
1138
+ return b.size - a.size;
1139
+ });
1140
+ // orientate the largest at 0,0, and get the bounds
1141
+ circles = clusters[0];
1142
+ var returnBounds = circles.bounds;
1143
+ var spacing = (returnBounds.xRange.max - returnBounds.xRange.min) / 50;
1144
+
1145
+ function addCluster(cluster, right, bottom) {
1146
+ if (!cluster) return;
1147
+ var bounds = cluster.bounds,
1148
+ xOffset, yOffset, centreing;
1149
+ if (right) {
1150
+ xOffset = returnBounds.xRange.max - bounds.xRange.min + spacing;
1151
+ } else {
1152
+ xOffset = returnBounds.xRange.max - bounds.xRange.max;
1153
+ centreing = (bounds.xRange.max - bounds.xRange.min) / 2 -
1154
+ (returnBounds.xRange.max - returnBounds.xRange.min) / 2;
1155
+ if (centreing < 0) xOffset += centreing;
1156
+ }
1157
+ if (bottom) {
1158
+ yOffset = returnBounds.yRange.max - bounds.yRange.min + spacing;
1159
+ } else {
1160
+ yOffset = returnBounds.yRange.max - bounds.yRange.max;
1161
+ centreing = (bounds.yRange.max - bounds.yRange.min) / 2 -
1162
+ (returnBounds.yRange.max - returnBounds.yRange.min) / 2;
1163
+ if (centreing < 0) yOffset += centreing;
1164
+ }
1165
+ for (var j = 0; j < cluster.length; ++j) {
1166
+ cluster[j].x += xOffset;
1167
+ cluster[j].y += yOffset;
1168
+ circles.push(cluster[j]);
1169
+ }
1170
+ }
1171
+ var index = 1;
1172
+ while (index < clusters.length) {
1173
+ addCluster(clusters[index], true, false);
1174
+ addCluster(clusters[index + 1], false, true);
1175
+ addCluster(clusters[index + 2], true, true);
1176
+ index += 3;
1177
+ // have one cluster (in top left). lay out next three relative
1178
+ // to it in a grid
1179
+ returnBounds = getBoundingBox(circles);
1180
+ }
1181
+ // convert back to solution form
1182
+ var ret = {};
1183
+ for (i = 0; i < circles.length; ++i) {
1184
+ ret[circles[i].setid] = circles[i];
1185
+ }
1186
+ return ret;
1187
+ }
1188
+ /** Scales a solution from venn.venn or venn.greedyLayout such that it fits in
1189
+ a rectangle of width/height - with padding around the borders. also
1190
+ centers the diagram in the available space at the same time */
1191
+ function scaleSolution(solution, width, height, padding) {
1192
+ var circles = [],
1193
+ setids = [];
1194
+ for (var setid in solution) {
1195
+ if (solution.hasOwnProperty(setid)) {
1196
+ setids.push(setid);
1197
+ circles.push(solution[setid]);
1198
+ }
1199
+ }
1200
+ width -= 2 * padding;
1201
+ height -= 2 * padding;
1202
+ var bounds = getBoundingBox(circles),
1203
+ xRange = bounds.xRange,
1204
+ yRange = bounds.yRange;
1205
+ if ((xRange.max == xRange.min) ||
1206
+ (yRange.max == yRange.min)) {
1207
+ console.log("not scaling solution: zero size detected");
1208
+ return solution;
1209
+ }
1210
+ var xScaling = width / (xRange.max - xRange.min),
1211
+ yScaling = height / (yRange.max - yRange.min),
1212
+ scaling = Math.min(yScaling, xScaling),
1213
+ // while we're at it, center the diagram too
1214
+ xOffset = (width - (xRange.max - xRange.min) * scaling) / 2,
1215
+ yOffset = (height - (yRange.max - yRange.min) * scaling) / 2;
1216
+ var scaled = {};
1217
+ for (var i = 0; i < circles.length; ++i) {
1218
+ var circle = circles[i];
1219
+ scaled[setids[i]] = {
1220
+ radius: scaling * circle.radius,
1221
+ x: padding + xOffset + (circle.x - xRange.min) * scaling,
1222
+ y: padding + yOffset + (circle.y - yRange.min) * scaling,
1223
+ };
1224
+ }
1225
+ return scaled;
1226
+ }
1227
+ /*global console:true*/
1228
+ function VennDiagram() {
1229
+ var width = 600,
1230
+ height = 350,
1231
+ padding = 15,
1232
+ duration = 1000,
1233
+ orientation = Math.PI / 2,
1234
+ normalize = true,
1235
+ wrap = true,
1236
+ styled = true,
1237
+ fontSize = null,
1238
+ orientationOrder = null,
1239
+ // mimic the behaviour of d3.scale.category10 from the previous
1240
+ // version of d3
1241
+ colourMap = {},
1242
+ // so this is the same as d3.schemeCategory10, which is only defined in d3 4.0
1243
+ // since we can support older versions of d3 as long as we don't force this,
1244
+ // I'm hackily redefining below. TODO: remove this and change to d3.schemeCategory10
1245
+ colourScheme = ["#ffffff", "#ff7f0e", "#2ca02c", "#d62728", "#9467bd", "#8c564b", "#e377c2", "#7f7f7f", "#000000", "#17becf"],
1246
+ colourIndex = 0,
1247
+ colours = function(key) {
1248
+ if (key in colourMap) {
1249
+ return colourMap[key];
1250
+ }
1251
+ var ret = colourMap[key] = colourScheme[colourIndex];
1252
+ colourIndex += 1;
1253
+ if (colourIndex >= colourScheme.length) {
1254
+ colourIndex = 0;
1255
+ }
1256
+ return ret;
1257
+ },
1258
+ layoutFunction = venn,
1259
+ loss = lossFunction;
1260
+
1261
+ function chart(selection) {
1262
+ var data = selection.datum();
1263
+ // handle 0-sized sets by removing from input
1264
+ var toremove = {};
1265
+ data.forEach(function(datum) {
1266
+ if ((datum.size == 0) && datum.sets.length == 1) {
1267
+ toremove[datum.sets[0]] = 1;
1268
+ }
1269
+ });
1270
+ data = data.filter(function(datum) {
1271
+ return !datum.sets.some(function(set) {
1272
+ return set in toremove;
1273
+ });
1274
+ });
1275
+ var circles = {};
1276
+ var textCentres = {};
1277
+ if (data.length > 0) {
1278
+ var solution = layoutFunction(data, {
1279
+ lossFunction: loss
1280
+ });
1281
+ if (normalize) {
1282
+ solution = normalizeSolution(solution,
1283
+ orientation,
1284
+ orientationOrder);
1285
+ }
1286
+ circles = scaleSolution(solution, width, height, padding);
1287
+ textCentres = computeTextCentres(circles, data);
1288
+ }
1289
+ // Figure out the current label for each set. These can change
1290
+ // and D3 won't necessarily update (fixes https://github.com/benfred/venn.js/issues/103)
1291
+ var labels = {};
1292
+ data.forEach(function(datum) {
1293
+ if (datum.label) {
1294
+ labels[datum.sets] = datum.label;
1295
+ }
1296
+ });
1297
+
1298
+ function label(d) {
1299
+ if (d.sets in labels) {
1300
+ return labels[d.sets];
1301
+ }
1302
+ if (d.sets.length == 1) {
1303
+ return '' + d.sets[0];
1304
+ }
1305
+ }
1306
+ // create svg if not already existing
1307
+ selection.selectAll("svg").data([circles]).enter().append("svg");
1308
+ var svg = selection.select("svg")
1309
+ .attr("width", width)
1310
+ .attr("height", height);
1311
+ // to properly transition intersection areas, we need the
1312
+ // previous circles locations. load from elements
1313
+ var previous = {},
1314
+ hasPrevious = false;
1315
+ svg.selectAll(".venn-area path").each(function(d) {
1316
+ var path = d3Selection.select(this).attr("d");
1317
+ if ((d.sets.length == 1) && path) {
1318
+ hasPrevious = true;
1319
+ previous[d.sets[0]] = circleFromPath(path);
1320
+ }
1321
+ });
1322
+ // interpolate intersection area paths between previous and
1323
+ // current paths
1324
+ var pathTween = function(d) {
1325
+ return function(t) {
1326
+ var c = d.sets.map(function(set) {
1327
+ var start = previous[set],
1328
+ end = circles[set];
1329
+ if (!start) {
1330
+ start = {
1331
+ x: width / 2,
1332
+ y: height / 2,
1333
+ radius: 1
1334
+ };
1335
+ }
1336
+ if (!end) {
1337
+ end = {
1338
+ x: width / 2,
1339
+ y: height / 2,
1340
+ radius: 1
1341
+ };
1342
+ }
1343
+ return {
1344
+ 'x': start.x * (1 - t) + end.x * t,
1345
+ 'y': start.y * (1 - t) + end.y * t,
1346
+ 'radius': start.radius * (1 - t) + end.radius * t
1347
+ };
1348
+ });
1349
+ return intersectionAreaPath(c);
1350
+ };
1351
+ };
1352
+ // update data, joining on the set ids
1353
+ var nodes = svg.selectAll(".venn-area")
1354
+ .data(data, function(d) {
1355
+ return d.sets;
1356
+ });
1357
+ // create new nodes
1358
+ var enter = nodes.enter()
1359
+ .append('g')
1360
+ .attr("class", function(d) {
1361
+ return "venn-area venn-" +
1362
+ (d.sets.length == 1 ? "circle" : "intersection");
1363
+ })
1364
+ .attr("data-venn-sets", function(d) {
1365
+ return d.sets.join("_");
1366
+ });
1367
+ var enterPath = enter.append("path"),
1368
+ enterText = enter.append("text")
1369
+ .attr("class", "label")
1370
+ .text(function(d) {
1371
+ return label(d);
1372
+ })
1373
+ .attr("text-anchor", "middle")
1374
+ .attr("dy", ".35em")
1375
+ .attr("x", width / 2)
1376
+ .attr("y", height / 2);
1377
+ // apply minimal style if wanted
1378
+ if (styled) {
1379
+ enterPath.style("fill-opacity", "0")
1380
+ .filter(function(d) {
1381
+ return d.sets.length == 1;
1382
+ })
1383
+ .style("fill", function(d) {
1384
+ return colours(d.sets);
1385
+ })
1386
+ .style("fill-opacity", ".25");
1387
+ enterText
1388
+ .style("fill", function(d) {
1389
+ return d.sets.length == 1 ? colours(d.sets) : "#444";
1390
+ });
1391
+ }
1392
+ // update existing, using pathTween if necessary
1393
+ var update = selection;
1394
+ if (hasPrevious) {
1395
+ update = selection.transition("venn").duration(duration);
1396
+ update.selectAll("path")
1397
+ .attrTween("d", pathTween);
1398
+ } else {
1399
+ update.selectAll("path")
1400
+ .attr("d", function(d) {
1401
+ return intersectionAreaPath(d.sets.map(function(set) {
1402
+ return circles[set];
1403
+ }));
1404
+ });
1405
+ }
1406
+ var updateText = update.selectAll("text")
1407
+ .filter(function(d) {
1408
+ return d.sets in textCentres;
1409
+ })
1410
+ .text(function(d) {
1411
+ return label(d);
1412
+ })
1413
+ .attr("x", function(d) {
1414
+ return Math.floor(textCentres[d.sets].x);
1415
+ })
1416
+ .attr("y", function(d) {
1417
+ return Math.floor(textCentres[d.sets].y);
1418
+ });
1419
+ if (wrap) {
1420
+ if (hasPrevious) {
1421
+ // d3 4.0 uses 'on' for events on transitions,
1422
+ // but d3 3.0 used 'each' instead. switch appropiately
1423
+ if ('on' in updateText) {
1424
+ updateText.on("end", wrapText(circles, label));
1425
+ } else {
1426
+ updateText.each("end", wrapText(circles, label));
1427
+ }
1428
+ } else {
1429
+ updateText.each(wrapText(circles, label));
1430
+ }
1431
+ }
1432
+ // remove old
1433
+ var exit = nodes.exit().transition('venn').duration(duration).remove();
1434
+ exit.selectAll("path")
1435
+ .attrTween("d", pathTween);
1436
+ var exitText = exit.selectAll("text")
1437
+ .attr("x", width / 2)
1438
+ .attr("y", height / 2);
1439
+ // if we've been passed a fontSize explicitly, use it to
1440
+ // transition
1441
+ if (fontSize !== null) {
1442
+ enterText.style("font-size", "0px");
1443
+ updateText.style("font-size", fontSize);
1444
+ exitText.style("font-size", "0px");
1445
+ }
1446
+ return {
1447
+ 'circles': circles,
1448
+ 'textCentres': textCentres,
1449
+ 'nodes': nodes,
1450
+ 'enter': enter,
1451
+ 'update': update,
1452
+ 'exit': exit
1453
+ };
1454
+ }
1455
+ chart.wrap = function(_) {
1456
+ if (!arguments.length) return wrap;
1457
+ wrap = _;
1458
+ return chart;
1459
+ };
1460
+ chart.width = function(_) {
1461
+ if (!arguments.length) return width;
1462
+ width = _;
1463
+ return chart;
1464
+ };
1465
+ chart.height = function(_) {
1466
+ if (!arguments.length) return height;
1467
+ height = _;
1468
+ return chart;
1469
+ };
1470
+ chart.padding = function(_) {
1471
+ if (!arguments.length) return padding;
1472
+ padding = _;
1473
+ return chart;
1474
+ };
1475
+ chart.colours = function(_) {
1476
+ if (!arguments.length) return colours;
1477
+ colours = _;
1478
+ return chart;
1479
+ };
1480
+ chart.fontSize = function(_) {
1481
+ if (!arguments.length) return fontSize;
1482
+ fontSize = _;
1483
+ return chart;
1484
+ };
1485
+ chart.duration = function(_) {
1486
+ if (!arguments.length) return duration;
1487
+ duration = _;
1488
+ return chart;
1489
+ };
1490
+ chart.layoutFunction = function(_) {
1491
+ if (!arguments.length) return layoutFunction;
1492
+ layoutFunction = _;
1493
+ return chart;
1494
+ };
1495
+ chart.normalize = function(_) {
1496
+ if (!arguments.length) return normalize;
1497
+ normalize = _;
1498
+ return chart;
1499
+ };
1500
+ chart.styled = function(_) {
1501
+ if (!arguments.length) return styled;
1502
+ styled = _;
1503
+ return chart;
1504
+ };
1505
+ chart.orientation = function(_) {
1506
+ if (!arguments.length) return orientation;
1507
+ orientation = _;
1508
+ return chart;
1509
+ };
1510
+ chart.orientationOrder = function(_) {
1511
+ if (!arguments.length) return orientationOrder;
1512
+ orientationOrder = _;
1513
+ return chart;
1514
+ };
1515
+ chart.lossFunction = function(_) {
1516
+ if (!arguments.length) return loss;
1517
+ loss = _;
1518
+ return chart;
1519
+ };
1520
+ return chart;
1521
+ }
1522
+ // sometimes text doesn't fit inside the circle, if thats the case lets wrap
1523
+ // the text here such that it fits
1524
+ // todo: looks like this might be merged into d3 (
1525
+ // https://github.com/mbostock/d3/issues/1642),
1526
+ // also worth checking out is
1527
+ // http://engineering.findthebest.com/wrapping-axis-labels-in-d3-js/
1528
+ // this seems to be one of those things that should be easy but isn't
1529
+ function wrapText(circles, labeller) {
1530
+ return function() {
1531
+ var text = d3Selection.select(this),
1532
+ data = text.datum(),
1533
+ width = circles[data.sets[0]].radius / 2 || 50,
1534
+ label = labeller(data) || '';
1535
+ var words = label.split(/\s+/).reverse(),
1536
+ maxLines = 4,
1537
+ minChars = (label.length + words.length) / maxLines,
1538
+ word = words.pop(),
1539
+ line = [word],
1540
+ joined,
1541
+ lineNumber = 0,
1542
+ lineHeight = 1.3, // ems
1543
+ tspan = text.text(null).append("tspan").text(word);
1544
+ while (true) {
1545
+ word = words.pop();
1546
+ if (!word) break;
1547
+ line.push(word);
1548
+ joined = line.join(" ");
1549
+ tspan.text(joined);
1550
+ if (joined.length > minChars && tspan.node().getComputedTextLength() > width) {
1551
+ line.pop();
1552
+ tspan.text(line.join(" "));
1553
+ line = [word];
1554
+ tspan = text.append("tspan").text(word);
1555
+ lineNumber++;
1556
+ }
1557
+ }
1558
+ var initial = 0.35 - lineNumber * lineHeight / 2,
1559
+ x = text.attr("x"),
1560
+ y = text.attr("y");
1561
+ text.selectAll("tspan")
1562
+ .attr("x", x)
1563
+ .attr("y", y)
1564
+ .attr("dy", function(d, i) {
1565
+ return (initial + i * lineHeight) + "em";
1566
+ });
1567
+ };
1568
+ }
1569
+
1570
+ function circleMargin(current, interior, exterior) {
1571
+ var margin = interior[0].radius - distance(interior[0], current),
1572
+ i, m;
1573
+ for (i = 1; i < interior.length; ++i) {
1574
+ m = interior[i].radius - distance(interior[i], current);
1575
+ if (m <= margin) {
1576
+ margin = m;
1577
+ }
1578
+ }
1579
+ for (i = 0; i < exterior.length; ++i) {
1580
+ m = distance(exterior[i], current) - exterior[i].radius;
1581
+ if (m <= margin) {
1582
+ margin = m;
1583
+ }
1584
+ }
1585
+ return margin;
1586
+ }
1587
+ // compute the center of some circles by maximizing the margin of
1588
+ // the center point relative to the circles (interior) after subtracting
1589
+ // nearby circles (exterior)
1590
+ function computeTextCentre(interior, exterior) {
1591
+ // get an initial estimate by sampling around the interior circles
1592
+ // and taking the point with the biggest margin
1593
+ var points = [],
1594
+ i;
1595
+ for (i = 0; i < interior.length; ++i) {
1596
+ var c = interior[i];
1597
+ points.push({
1598
+ x: c.x,
1599
+ y: c.y
1600
+ });
1601
+ points.push({
1602
+ x: c.x + c.radius / 2,
1603
+ y: c.y
1604
+ });
1605
+ points.push({
1606
+ x: c.x - c.radius / 2,
1607
+ y: c.y
1608
+ });
1609
+ points.push({
1610
+ x: c.x,
1611
+ y: c.y + c.radius / 2
1612
+ });
1613
+ points.push({
1614
+ x: c.x,
1615
+ y: c.y - c.radius / 2
1616
+ });
1617
+ }
1618
+ var initial = points[0],
1619
+ margin = circleMargin(points[0], interior, exterior);
1620
+ for (i = 1; i < points.length; ++i) {
1621
+ var m = circleMargin(points[i], interior, exterior);
1622
+ if (m >= margin) {
1623
+ initial = points[i];
1624
+ margin = m;
1625
+ }
1626
+ }
1627
+ // maximize the margin numerically
1628
+ var solution = nelderMead(
1629
+ function(p) {
1630
+ return -1 * circleMargin({
1631
+ x: p[0],
1632
+ y: p[1]
1633
+ }, interior, exterior);
1634
+ },
1635
+ [initial.x, initial.y], {
1636
+ maxIterations: 500,
1637
+ minErrorDelta: 1e-10
1638
+ }).x;
1639
+ var ret = {
1640
+ x: solution[0],
1641
+ y: solution[1]
1642
+ };
1643
+ // check solution, fallback as needed (happens if fully overlapped
1644
+ // etc)
1645
+ var valid = true;
1646
+ for (i = 0; i < interior.length; ++i) {
1647
+ if (distance(ret, interior[i]) > interior[i].radius) {
1648
+ valid = false;
1649
+ break;
1650
+ }
1651
+ }
1652
+ for (i = 0; i < exterior.length; ++i) {
1653
+ if (distance(ret, exterior[i]) < exterior[i].radius) {
1654
+ valid = false;
1655
+ break;
1656
+ }
1657
+ }
1658
+ if (!valid) {
1659
+ if (interior.length == 1) {
1660
+ ret = {
1661
+ x: interior[0].x,
1662
+ y: interior[0].y
1663
+ };
1664
+ } else {
1665
+ var areaStats = {};
1666
+ intersectionArea(interior, areaStats);
1667
+ if (areaStats.arcs.length === 0) {
1668
+ ret = {
1669
+ 'x': 0,
1670
+ 'y': -1000,
1671
+ disjoint: true
1672
+ };
1673
+ } else if (areaStats.arcs.length == 1) {
1674
+ ret = {
1675
+ 'x': areaStats.arcs[0].circle.x,
1676
+ 'y': areaStats.arcs[0].circle.y
1677
+ };
1678
+ } else if (exterior.length) {
1679
+ // try again without other circles
1680
+ ret = computeTextCentre(interior, []);
1681
+ } else {
1682
+ // take average of all the points in the intersection
1683
+ // polygon. this should basically never happen
1684
+ // and has some issues:
1685
+ // https://github.com/benfred/venn.js/issues/48#issuecomment-146069777
1686
+ ret = getCenter(areaStats.arcs.map(function(a) {
1687
+ return a.p1;
1688
+ }));
1689
+ }
1690
+ }
1691
+ }
1692
+ return ret;
1693
+ }
1694
+ // given a dictionary of {setid : circle}, returns
1695
+ // a dictionary of setid to list of circles that completely overlap it
1696
+ function getOverlappingCircles(circles) {
1697
+ var ret = {},
1698
+ circleids = [];
1699
+ for (var circleid in circles) {
1700
+ circleids.push(circleid);
1701
+ ret[circleid] = [];
1702
+ }
1703
+ for (var i = 0; i < circleids.length; i++) {
1704
+ var a = circles[circleids[i]];
1705
+ for (var j = i + 1; j < circleids.length; ++j) {
1706
+ var b = circles[circleids[j]],
1707
+ d = distance(a, b);
1708
+ if (d + b.radius <= a.radius + 1e-10) {
1709
+ ret[circleids[j]].push(circleids[i]);
1710
+ } else if (d + a.radius <= b.radius + 1e-10) {
1711
+ ret[circleids[i]].push(circleids[j]);
1712
+ }
1713
+ }
1714
+ }
1715
+ return ret;
1716
+ }
1717
+
1718
+ function computeTextCentres(circles, areas) {
1719
+ var ret = {},
1720
+ overlapped = getOverlappingCircles(circles);
1721
+ for (var i = 0; i < areas.length; ++i) {
1722
+ var area = areas[i].sets,
1723
+ areaids = {},
1724
+ exclude = {};
1725
+ for (var j = 0; j < area.length; ++j) {
1726
+ areaids[area[j]] = true;
1727
+ var overlaps = overlapped[area[j]];
1728
+ // keep track of any circles that overlap this area,
1729
+ // and don't consider for purposes of computing the text
1730
+ // centre
1731
+ for (var k = 0; k < overlaps.length; ++k) {
1732
+ exclude[overlaps[k]] = true;
1733
+ }
1734
+ }
1735
+ var interior = [],
1736
+ exterior = [];
1737
+ for (var setid in circles) {
1738
+ if (setid in areaids) {
1739
+ interior.push(circles[setid]);
1740
+ } else if (!(setid in exclude)) {
1741
+ exterior.push(circles[setid]);
1742
+ }
1743
+ }
1744
+ var centre = computeTextCentre(interior, exterior);
1745
+ ret[area] = centre;
1746
+ if (centre.disjoint && (areas[i].size > 0)) {
1747
+ console.log("WARNING: area " + area + " not represented on screen");
1748
+ }
1749
+ }
1750
+ return ret;
1751
+ }
1752
+ // sorts all areas in the venn diagram, so that
1753
+ // a particular area is on top (relativeTo) - and
1754
+ // all other areas are so that the smallest areas are on top
1755
+ function sortAreas(div, relativeTo) {
1756
+ // figure out sets that are completly overlapped by relativeTo
1757
+ var overlaps = getOverlappingCircles(div.selectAll("svg").datum());
1758
+ var exclude = {};
1759
+ for (var i = 0; i < relativeTo.sets.length; ++i) {
1760
+ var check = relativeTo.sets[i];
1761
+ for (var setid in overlaps) {
1762
+ var overlap = overlaps[setid];
1763
+ for (var j = 0; j < overlap.length; ++j) {
1764
+ if (overlap[j] == check) {
1765
+ exclude[setid] = true;
1766
+ break;
1767
+ }
1768
+ }
1769
+ }
1770
+ }
1771
+ // checks that all sets are in exclude;
1772
+ function shouldExclude(sets) {
1773
+ for (var i = 0; i < sets.length; ++i) {
1774
+ if (!(sets[i] in exclude)) {
1775
+ return false;
1776
+ }
1777
+ }
1778
+ return true;
1779
+ }
1780
+ // need to sort div's so that Z order is correct
1781
+ div.selectAll("g").sort(function(a, b) {
1782
+ // highest order set intersections first
1783
+ if (a.sets.length != b.sets.length) {
1784
+ return a.sets.length - b.sets.length;
1785
+ }
1786
+ if (a == relativeTo) {
1787
+ return shouldExclude(b.sets) ? -1 : 1;
1788
+ }
1789
+ if (b == relativeTo) {
1790
+ return shouldExclude(a.sets) ? 1 : -1;
1791
+ }
1792
+ // finally by size
1793
+ return b.size - a.size;
1794
+ });
1795
+ }
1796
+
1797
+ function circlePath(x, y, r) {
1798
+ var ret = [];
1799
+ ret.push("\nM", x, y);
1800
+ ret.push("\nm", -r, 0);
1801
+ ret.push("\na", r, r, 0, 1, 0, r * 2, 0);
1802
+ ret.push("\na", r, r, 0, 1, 0, -r * 2, 0);
1803
+ return ret.join(" ");
1804
+ }
1805
+ // inverse of the circlePath function, returns a circle object from an svg path
1806
+ function circleFromPath(path) {
1807
+ var tokens = path.split(' ');
1808
+ return {
1809
+ 'x': parseFloat(tokens[1]),
1810
+ 'y': parseFloat(tokens[2]),
1811
+ 'radius': -parseFloat(tokens[4])
1812
+ };
1813
+ }
1814
+ /** returns a svg path of the intersection area of a bunch of circles */
1815
+ function intersectionAreaPath(circles) {
1816
+ var stats = {};
1817
+ intersectionArea(circles, stats);
1818
+ var arcs = stats.arcs;
1819
+ if (arcs.length === 0) {
1820
+ return "M 0 0";
1821
+ } else if (arcs.length == 1) {
1822
+ var circle = arcs[0].circle;
1823
+ return circlePath(circle.x, circle.y, circle.radius);
1824
+ } else {
1825
+ // draw path around arcs
1826
+ var ret = ["\nM", arcs[0].p2.x, arcs[0].p2.y];
1827
+ for (var i = 0; i < arcs.length; ++i) {
1828
+ var arc = arcs[i],
1829
+ r = arc.circle.radius,
1830
+ wide = arc.width > r;
1831
+ ret.push("\nA", r, r, 0, wide ? 1 : 0, 1,
1832
+ arc.p1.x, arc.p1.y);
1833
+ }
1834
+ return ret.join(" ");
1835
+ }
1836
+ }
1837
+ exports.intersectionArea = intersectionArea;
1838
+ exports.circleCircleIntersection = circleCircleIntersection;
1839
+ exports.circleOverlap = circleOverlap;
1840
+ exports.circleArea = circleArea;
1841
+ exports.distance = distance;
1842
+ exports.venn = venn;
1843
+ exports.greedyLayout = greedyLayout;
1844
+ exports.scaleSolution = scaleSolution;
1845
+ exports.normalizeSolution = normalizeSolution;
1846
+ exports.bestInitialLayout = bestInitialLayout;
1847
+ exports.lossFunction = lossFunction;
1848
+ exports.disjointCluster = disjointCluster;
1849
+ exports.distanceFromIntersectArea = distanceFromIntersectArea;
1850
+ exports.VennDiagram = VennDiagram;
1851
+ exports.wrapText = wrapText;
1852
+ exports.computeTextCentres = computeTextCentres;
1853
+ exports.computeTextCentre = computeTextCentre;
1854
+ exports.sortAreas = sortAreas;
1855
+ exports.circlePath = circlePath;
1856
+ exports.circleFromPath = circleFromPath;
1857
+ exports.intersectionAreaPath = intersectionAreaPath;
1858
+ Object.defineProperty(exports, '__esModule', {
1859
+ value: true
1860
+ });
1861
+ })));
1862
+
1863
+ console.log("nice");
1864
+ // $.getJSON("test.json", function(json) {
1865
+ // console.log(json); // this will show the info it in firebug console
1866
+ // });
1867
+
1868
+ function render_venn() {
1869
+ var tokenizer1 = document.querySelector("#tokenizer1 input").value;
1870
+ var tokenizer2 = document.querySelector("#tokenizer2 input").value;
1871
+ console.log(tokenizer1);
1872
+ }
1873
+
1874
+ // render_venn();
1875
+
1876
+ var lab_dict = {}; // lab_dict[lab]
1877
+
1878
+ // 可以将异步改为同步
1879
+ $.ajaxSettings.async = false;
1880
+ $.getJSON("./data/vocabsize.json", function(researchers_raw){
1881
+ // id_dict & lab_dict
1882
+ for(var r in researchers_raw) {
1883
+ id_dict[researchers_raw[r][id_field]] = researchers_raw[r];
1884
+
1885
+ var lab = researchers_raw[r]["lab"];
1886
+ if (lab in lab_dict) {
1887
+ lab_dict[lab].push(researchers_raw[r][id_field]);
1888
+ } else {
1889
+ lab_dict[lab] = [];
1890
+ lab_dict[lab].push(researchers_raw[r][id_field]);
1891
+ }
1892
+ }
1893
+
1894
+ // keyword_dict
1895
+ for(var r in researchers_raw) {
1896
+ // researcher info
1897
+ var lab = researchers_raw[r]['lab'];
1898
+ var email = researchers_raw[r][id_field];
1899
+ var keywords = researchers_raw[r]["keywords"];
1900
+
1901
+ for(var k in keywords){
1902
+ var keyword = trim(k).toLowerCase();
1903
+ var weight = researchers_raw[r]['keywords'][k];
1904
+ if(isNaN(weight)) {alert(keyword);}
1905
+ if(keyword == 'watch')
1906
+ continue; // remove javascript keyword
1907
+
1908
+ // new
1909
+ if (!(keyword in keyword_dict)){
1910
+ keyword_dict[keyword] = {};
1911
+ }
1912
+ if (!(lab in keyword_dict[keyword])) {
1913
+ keyword_dict[keyword][lab] = {};
1914
+ }
1915
+
1916
+
1917
+ // 用于处理keyword中的 speech Speech
1918
+ // 以及其他edit distance
1919
+ if (!(email in keyword_dict[keyword][lab])) {
1920
+ keyword_dict[keyword][lab][email] = weight;
1921
+ } else {
1922
+ keyword_dict[keyword][lab][email] = keyword_dict[keyword][lab][email] + weight;
1923
+ if(isNaN(keyword_dict[keyword][lab][email])) {alert(keyword);}
1924
+ }
1925
+ }
1926
+ }
1927
+
1928
+ // remove empty element from keyword_dict
1929
+ for(var keyword in keyword_dict){
1930
+ for(var lab in keyword_dict[keyword]) {
1931
+ for(var email in keyword_dict[keyword][lab]) {
1932
+ if(isNaN(keyword_dict[keyword][lab][email])) {
1933
+ alert(keyword);
1934
+ }
1935
+ }
1936
+
1937
+ }
1938
+ }
1939
+
1940
+ });
1941
+ $.ajaxSettings.async = true;
1942
+
1943
+ </script>
playground_app2.py ADDED
@@ -0,0 +1,272 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # coding=utf-8
2
+ # author: xusong
3
+ # time: 2022/8/23 16:06
4
+
5
+ import gradio as gr
6
+ from vocab import tokenizer_factory
7
+ from playground_examples import example_types, example_fn
8
+ from playground_util import (tokenize,
9
+ tokenize_pair, basic_count,
10
+ get_overlap_token_size, on_load)
11
+
12
+ get_window_url_params = """
13
+ function(url_params) {
14
+ console.log("calling get_window_url_params");
15
+ const params = new URLSearchParams(window.location.search);
16
+ url_params = JSON.stringify(Object.fromEntries(params));
17
+ return url_params;
18
+ }
19
+ """
20
+
21
+ # get_venn_vocab_size = """
22
+ # function(url_params) {
23
+ # console.log("calling get_venn_vocab_size");
24
+ # const params = new URLSearchParams(window.location.search);
25
+ # url_params = JSON.stringify(Object.fromEntries(params));
26
+ # return url_params;
27
+ # }
28
+ # """
29
+ get_venn_vocab_size = open("js/onload_d3.js").read()
30
+
31
+
32
+ all_tokenizer_name = [(config.name_display, config.name_or_path) for config in tokenizer_factory.all_tokenizer_configs]
33
+
34
+
35
+ head = open("js/venn.html").read()
36
+
37
+ # js = open("js/onload_d3.js").read()
38
+ # js = open("js/onchange_d3.js").read()
39
+ css = open("css/venn_d3.css").read()
40
+
41
+ with gr.Blocks(head=head, css=css) as demo:
42
+ # links: https://www.coderstool.com/utf8-encoding-decoding
43
+ # 功能:输入文本,进行分词
44
+ # 分词器:常见的分词器有集中,
45
+ # 背景:方便分词、看词粒度、对比
46
+
47
+ with gr.Row():
48
+ gr.Markdown("## Input Text")
49
+ dropdown_examples = gr.Dropdown(
50
+ example_types,
51
+ value="Examples",
52
+ type="index",
53
+ allow_custom_value=True,
54
+ show_label=False,
55
+ container=False,
56
+ scale=0,
57
+ elem_classes="example-style"
58
+ )
59
+ user_input = gr.Textbox(
60
+ # value=default_user_input,
61
+ label="Input Text",
62
+ lines=5,
63
+ show_label=False,
64
+ )
65
+ gr.Markdown("## Tokenization")
66
+
67
+ # compress rate setting TODO: 将 这个模块调整到下面
68
+ # with gr.Accordion("Compress Rate Setting", open=True):
69
+ # gr.Markdown(
70
+ # "Please select corpus and unit of compress rate, get more details at [github](https://github.com/xu-song/tokenizer-arena/). ")
71
+ # with gr.Row():
72
+ # compress_rate_corpus = gr.CheckboxGroup(
73
+ # common_corpuses, # , "code"
74
+ # value=["cc100-en", "cc100-zh-Hans"],
75
+ # label="corpus",
76
+ # # info=""
77
+ # )
78
+ # compress_rate_unit = gr.Radio(
79
+ # common_units,
80
+ # value="b_tokens/g_bytes",
81
+ # label="unit",
82
+ # )
83
+ # TODO: Token Setting
84
+ # with gr.Accordion("Token Filter Setting", open=False):
85
+ # gr.Markdown(
86
+ # "Get total number of tokens which contain the following character)")
87
+ # gr.Radio(
88
+ # ["zh-Hans", "", "number", "space"],
89
+ # value="zh",
90
+ # )
91
+
92
+ with gr.Row():
93
+ with gr.Column(scale=6):
94
+ with gr.Group():
95
+ tokenizer_name_1 = gr.Dropdown(
96
+ all_tokenizer_name,
97
+ label="Tokenizer 1",
98
+ elem_id="tokenizer1"
99
+ # value=default_tokenizer_name_1,
100
+ )
101
+ with gr.Group():
102
+ with gr.Row():
103
+ organization_1 = gr.TextArea(
104
+ label="Organization",
105
+ lines=1,
106
+ elem_classes="statistics",
107
+ )
108
+ stats_vocab_size_1 = gr.TextArea(
109
+ label="Vocab Size",
110
+ lines=1,
111
+ elem_classes="statistics"
112
+ )
113
+ # stats_zh_token_size_1 = gr.TextArea(
114
+ # label="ZH char/word",
115
+ # lines=1,
116
+ # elem_classes="statistics",
117
+ # )
118
+ # stats_compress_rate_1 = gr.TextArea(
119
+ # label="Compress Rate",
120
+ # lines=1,
121
+ # elem_classes="statistics",
122
+ # )
123
+ stats_overlap_token_size_1 = gr.TextArea(
124
+ # value=default_stats_overlap_token_size,
125
+ label="Overlap Tokens",
126
+ lines=1,
127
+ elem_classes="statistics"
128
+ )
129
+ # stats_3 = gr.TextArea(
130
+ # label="Compress Rate",
131
+ # lines=1,
132
+ # elem_classes="statistics"
133
+ # )
134
+ # https://www.onlinewebfonts.com/icon/418591
135
+ # gr.HTML('<div> <img src="/gradio_api/file/images/VS.svg" alt="Girl in a jacket"> <div id="venn"></div> </div>', elem_classes="vs", container=False,)
136
+ with gr.Column(scale=1, min_width=140):
137
+ gr.Image("images/VS.svg", show_label=False,
138
+ show_download_button=False, container=False, elem_classes="mid-vs",
139
+ show_share_button=False)
140
+ gr.HTML('<div id="venn"></div>', container=False, padding=False, elem_classes="mid-venn")
141
+
142
+ with gr.Column(scale=6):
143
+ with gr.Group():
144
+ tokenizer_name_2 = gr.Dropdown(
145
+ all_tokenizer_name,
146
+ label="Tokenizer 2",
147
+ elem_id="tokenizer2"
148
+ # value=default_tokenizer_name_2
149
+ )
150
+ with gr.Group():
151
+ with gr.Row():
152
+ organization_2 = gr.TextArea(
153
+ label="Organization",
154
+ lines=1,
155
+ elem_classes="statistics",
156
+ )
157
+ stats_vocab_size_2 = gr.TextArea(
158
+ label="Vocab Size",
159
+ lines=1,
160
+ elem_classes="statistics"
161
+ )
162
+ # stats_zh_token_size_2 = gr.TextArea(
163
+ # label="ZH char/word", # 中文字/词
164
+ # lines=1,
165
+ # elem_classes="statistics",
166
+ # )
167
+ # stats_compress_rate_2 = gr.TextArea(
168
+ # label="Compress Rate",
169
+ # lines=1,
170
+ # elem_classes="statistics"
171
+ # )
172
+ stats_filtered_token_2 = gr.TextArea(
173
+ label="filtered tokens",
174
+ lines=1,
175
+ elem_classes="statistics",
176
+ visible=False
177
+ )
178
+ stats_overlap_token_size_2 = gr.TextArea(
179
+ label="Overlap Tokens",
180
+ lines=1,
181
+ elem_classes="statistics"
182
+ )
183
+
184
+ # TODO: 图 表 压缩率
185
+ with gr.Row():
186
+ # dynamic change label
187
+ with gr.Column():
188
+ output_text_1 = gr.Highlightedtext(
189
+ show_legend=False,
190
+ show_inline_category=False,
191
+ elem_classes="space-show"
192
+ )
193
+ with gr.Column():
194
+ output_text_2 = gr.Highlightedtext(
195
+ show_legend=False,
196
+ show_inline_category=False,
197
+ elem_classes="space-show"
198
+ )
199
+
200
+ with gr.Row():
201
+ output_table_1 = gr.Dataframe()
202
+ output_table_2 = gr.Dataframe()
203
+
204
+ # setting
205
+ # compress_rate_unit.change(compress_rate_unit_change, [compress_rate_unit],
206
+ # [stats_compress_rate_1, stats_compress_rate_2])
207
+
208
+ tokenizer_name_1.change(tokenize, [user_input, tokenizer_name_1],
209
+ [output_text_1, output_table_1])
210
+ tokenizer_name_1.change(basic_count, [tokenizer_name_1], [stats_vocab_size_1, organization_1])
211
+ tokenizer_name_1.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2],
212
+ [stats_overlap_token_size_1, stats_overlap_token_size_2])
213
+ # tokenizer_type_1.change(get_compress_rate, [tokenizer_type_1, compress_rate_corpus, compress_rate_unit],
214
+ # [stats_compress_rate_1])
215
+
216
+ # TODO: every=3
217
+ user_input.change(tokenize_pair,
218
+ [user_input, tokenizer_name_1, tokenizer_name_2],
219
+ [output_text_1, output_table_1, output_text_2, output_table_2], show_api=False) # , pass_request=1
220
+
221
+ tokenizer_name_2.change(tokenize, [user_input, tokenizer_name_2],
222
+ [output_text_2, output_table_2], show_api=False)
223
+ tokenizer_name_2.change(basic_count, [tokenizer_name_2], [stats_vocab_size_2, organization_2], show_api=False)
224
+ tokenizer_name_2.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2],
225
+ [stats_overlap_token_size_1, stats_overlap_token_size_2], show_api=False)
226
+ # tokenizer_type_2.change(get_compress_rate,
227
+ # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit],
228
+ # [stats_compress_rate_2])
229
+ #
230
+ # compress_rate_unit.change(get_compress_rate,
231
+ # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit],
232
+ # [stats_compress_rate_1])
233
+ # compress_rate_unit.change(get_compress_rate,
234
+ # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit],
235
+ # [stats_compress_rate_2])
236
+ # compress_rate_corpus.change(get_compress_rate,
237
+ # [tokenizer_type_1, compress_rate_corpus, compress_rate_unit],
238
+ # [stats_compress_rate_1])
239
+ # compress_rate_corpus.change(get_compress_rate,
240
+ # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit],
241
+ # [stats_compress_rate_2])
242
+
243
+ dropdown_examples.change(
244
+ example_fn,
245
+ dropdown_examples,
246
+ [user_input, tokenizer_name_1, tokenizer_name_2],
247
+ show_api=False
248
+ )
249
+
250
+ demo.load(
251
+ fn=on_load,
252
+ inputs=[user_input], # 这里只需要传个空object即可。
253
+ outputs=[user_input, tokenizer_name_1, tokenizer_name_2],
254
+ js=get_window_url_params,
255
+ show_api=False
256
+ )
257
+
258
+ # https://github.com/gradio-app/gradio/issues/2981
259
+ demo.load(
260
+ fn=lambda: None,
261
+ inputs=[user_input],
262
+ outputs=[],
263
+ js=get_venn_vocab_size,
264
+ show_api=False
265
+ )
266
+
267
+ if __name__ == "__main__":
268
+ # demo.queue(max_size=20).launch()
269
+ demo.launch()
270
+ # demo.launch(allowed_paths=['images/VS.svg'])
271
+ # demo.launch(allowed_paths=['js/load_json.js'])
272
+ # demo.launch(share=True)
playground_util.py CHANGED
@@ -185,9 +185,18 @@ def on_load(url_params, request: gr.Request):
185
  tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2)
186
  text = url_params.get("text", default_user_input)
187
  logger.info(f"client_ip: {client_ip}; lang: {lang} params: {url_params}")
 
 
 
 
 
 
 
 
188
  return text, tokenizer_type_1, tokenizer_type_2
189
 
190
 
 
191
  # def compress_rate_unit_change(unit):
192
  # return gr.update(label=f"Compress Rate: {unit}"), gr.update(label=f"Compress Rate: {unit}"),
193
 
 
185
  tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2)
186
  text = url_params.get("text", default_user_input)
187
  logger.info(f"client_ip: {client_ip}; lang: {lang} params: {url_params}")
188
+ # lang: zh-CN,zh , es-419,es;q=0.9,en;q=0.8,
189
+ """
190
+ zh-CN,zh;q=0.9,en;q=0.8
191
+ zh,en;q=0.9,zh-CN;q=0.8
192
+ ru,en;q=0.9,en-GB;q=0.8,en-US;q=0.7
193
+ de-DE,de;q=0.9,en-US;q=0.8,en;q=0.7
194
+ """
195
+
196
  return text, tokenizer_type_1, tokenizer_type_2
197
 
198
 
199
+
200
  # def compress_rate_unit_change(unit):
201
  # return gr.update(label=f"Compress Rate: {unit}"), gr.update(label=f"Compress Rate: {unit}"),
202
 
stats/character_stats.json CHANGED
@@ -2166,5 +2166,119 @@
2166
  "len(ja-kana)": "1,3,21",
2167
  "num(ko)": 4559,
2168
  "len(ko)": "1,2,7"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2169
  }
2170
  }
 
2166
  "len(ja-kana)": "1,3,21",
2167
  "num(ko)": 4559,
2168
  "len(ko)": "1,2,7"
2169
+ },
2170
+ "Qwen/Qwen3-235B-A22B-Thinking-2507": {
2171
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
2172
+ "organization": "Alibaba",
2173
+ "vocab_size": 151669,
2174
+ "num(digit)": 10,
2175
+ "len(digit)": "1,1,1",
2176
+ "num(space)": 55883,
2177
+ "len(space)": "1,6,128",
2178
+ "num(ar)": 4018,
2179
+ "len(ar)": "1,3,12",
2180
+ "num(zh)": 25557,
2181
+ "len(zh)": "1,2,7",
2182
+ "num(ja)": 27206,
2183
+ "len(ja)": "1,2,11",
2184
+ "num(ja-kana)": 2089,
2185
+ "len(ja-kana)": "1,3,11",
2186
+ "num(ko)": 3495,
2187
+ "len(ko)": "1,1,5"
2188
+ },
2189
+ "Qwen/Qwen3-30B-A3B-Thinking-2507": {
2190
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
2191
+ "organization": "Alibaba",
2192
+ "vocab_size": 151669,
2193
+ "num(digit)": 10,
2194
+ "len(digit)": "1,1,1",
2195
+ "num(space)": 55883,
2196
+ "len(space)": "1,6,128",
2197
+ "num(ar)": 4018,
2198
+ "len(ar)": "1,3,12",
2199
+ "num(zh)": 25557,
2200
+ "len(zh)": "1,2,7",
2201
+ "num(ja)": 27206,
2202
+ "len(ja)": "1,2,11",
2203
+ "num(ja-kana)": 2089,
2204
+ "len(ja-kana)": "1,3,11",
2205
+ "num(ko)": 3495,
2206
+ "len(ko)": "1,1,5"
2207
+ },
2208
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": {
2209
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
2210
+ "organization": "DeepSeek",
2211
+ "vocab_size": 151665,
2212
+ "num(digit)": 10,
2213
+ "len(digit)": "1,1,1",
2214
+ "num(space)": 55883,
2215
+ "len(space)": "1,6,128",
2216
+ "num(ar)": 4018,
2217
+ "len(ar)": "1,3,12",
2218
+ "num(zh)": 25557,
2219
+ "len(zh)": "1,2,7",
2220
+ "num(ja)": 27206,
2221
+ "len(ja)": "1,2,11",
2222
+ "num(ja-kana)": 2089,
2223
+ "len(ja-kana)": "1,3,11",
2224
+ "num(ko)": 3495,
2225
+ "len(ko)": "1,1,5"
2226
+ },
2227
+ "deepseek-ai/Janus-Pro-1B": {
2228
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
2229
+ "organization": "DeepSeek",
2230
+ "vocab_size": 100590,
2231
+ "num(digit)": 10,
2232
+ "len(digit)": "1,1,1",
2233
+ "num(space)": 48073,
2234
+ "len(space)": "1,7,128",
2235
+ "num(ar)": 48,
2236
+ "len(ar)": "1,1,4",
2237
+ "num(zh)": 18052,
2238
+ "len(zh)": "1,2,16",
2239
+ "num(ja)": 18090,
2240
+ "len(ja)": "1,2,16",
2241
+ "num(ja-kana)": 38,
2242
+ "len(ja-kana)": "1,1,2",
2243
+ "num(ko)": 16,
2244
+ "len(ko)": "1,1,2"
2245
+ },
2246
+ "openai/gpt-oss-120b": {
2247
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
2248
+ "organization": "OpenAI",
2249
+ "vocab_size": 200019,
2250
+ "num(digit)": 1110,
2251
+ "len(digit)": "1,3,3",
2252
+ "num(space)": 109316,
2253
+ "len(space)": "1,6,128",
2254
+ "num(ar)": 8055,
2255
+ "len(ar)": "1,4,12",
2256
+ "num(zh)": 7563,
2257
+ "len(zh)": "1,2,11",
2258
+ "num(ja)": 8292,
2259
+ "len(ja)": "1,2,11",
2260
+ "num(ja-kana)": 809,
2261
+ "len(ja-kana)": "1,2,11",
2262
+ "num(ko)": 2365,
2263
+ "len(ko)": "1,2,8"
2264
+ },
2265
+ "openai/gpt-oss-20b": {
2266
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
2267
+ "organization": "OpenAI",
2268
+ "vocab_size": 200019,
2269
+ "num(digit)": 1110,
2270
+ "len(digit)": "1,3,3",
2271
+ "num(space)": 109316,
2272
+ "len(space)": "1,6,128",
2273
+ "num(ar)": 8055,
2274
+ "len(ar)": "1,4,12",
2275
+ "num(zh)": 7563,
2276
+ "len(zh)": "1,2,11",
2277
+ "num(ja)": 8292,
2278
+ "len(ja)": "1,2,11",
2279
+ "num(ja-kana)": 809,
2280
+ "len(ja-kana)": "1,2,11",
2281
+ "num(ko)": 2365,
2282
+ "len(ko)": "1,2,8"
2283
  }
2284
  }
stats/compression_rate.json CHANGED
@@ -11662,5 +11662,653 @@
11662
  "oov_ratio": 0.0,
11663
  "_oov_charset": "[]",
11664
  "lossless": true
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
11665
  }
11666
  }
 
11662
  "oov_ratio": 0.0,
11663
  "_oov_charset": "[]",
11664
  "lossless": true
11665
+ },
11666
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/ar": {
11667
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11668
+ "organization": "Alibaba",
11669
+ "vocab_size": 151669,
11670
+ "_n_bytes": 2813283,
11671
+ "_n_tokens": 614959,
11672
+ "_n_chars": 1560987,
11673
+ "_n_oov_chars": 0,
11674
+ "oov_ratio": 0.0,
11675
+ "_oov_charset": "[]",
11676
+ "lossless": false
11677
+ },
11678
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/de": {
11679
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11680
+ "organization": "Alibaba",
11681
+ "vocab_size": 151669,
11682
+ "_n_bytes": 1814876,
11683
+ "_n_tokens": 503561,
11684
+ "_n_chars": 1784021,
11685
+ "_n_oov_chars": 0,
11686
+ "oov_ratio": 0.0,
11687
+ "_oov_charset": "[]",
11688
+ "lossless": false
11689
+ },
11690
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/en": {
11691
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11692
+ "organization": "Alibaba",
11693
+ "vocab_size": 151669,
11694
+ "_n_bytes": 1124813,
11695
+ "_n_tokens": 257983,
11696
+ "_n_chars": 1121360,
11697
+ "_n_oov_chars": 0,
11698
+ "oov_ratio": 0.0,
11699
+ "_oov_charset": "[]",
11700
+ "lossless": true
11701
+ },
11702
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/es": {
11703
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11704
+ "organization": "Alibaba",
11705
+ "vocab_size": 151669,
11706
+ "_n_bytes": 1664455,
11707
+ "_n_tokens": 434264,
11708
+ "_n_chars": 1630297,
11709
+ "_n_oov_chars": 0,
11710
+ "oov_ratio": 0.0,
11711
+ "_oov_charset": "[]",
11712
+ "lossless": true
11713
+ },
11714
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/fa": {
11715
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11716
+ "organization": "Alibaba",
11717
+ "vocab_size": 151669,
11718
+ "_n_bytes": 2054052,
11719
+ "_n_tokens": 643421,
11720
+ "_n_chars": 1145876,
11721
+ "_n_oov_chars": 0,
11722
+ "oov_ratio": 0.0,
11723
+ "_oov_charset": "[]",
11724
+ "lossless": false
11725
+ },
11726
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/fr": {
11727
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11728
+ "organization": "Alibaba",
11729
+ "vocab_size": 151669,
11730
+ "_n_bytes": 1540504,
11731
+ "_n_tokens": 413637,
11732
+ "_n_chars": 1484970,
11733
+ "_n_oov_chars": 0,
11734
+ "oov_ratio": 0.0,
11735
+ "_oov_charset": "[]",
11736
+ "lossless": false
11737
+ },
11738
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/ja": {
11739
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11740
+ "organization": "Alibaba",
11741
+ "vocab_size": 151669,
11742
+ "_n_bytes": 1774770,
11743
+ "_n_tokens": 377144,
11744
+ "_n_chars": 603065,
11745
+ "_n_oov_chars": 0,
11746
+ "oov_ratio": 0.0,
11747
+ "_oov_charset": "[]",
11748
+ "lossless": false
11749
+ },
11750
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/ko": {
11751
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11752
+ "organization": "Alibaba",
11753
+ "vocab_size": 151669,
11754
+ "_n_bytes": 1524839,
11755
+ "_n_tokens": 457492,
11756
+ "_n_chars": 655190,
11757
+ "_n_oov_chars": 25,
11758
+ "oov_ratio": 3.815687052610693e-05,
11759
+ "_oov_charset": "[\"流\", \"梁\", \"靈\", \"識\", \"良\", \"立\", \"樂\", \"金\", \"不\", \"女\", \"樂\", \"累\", \"龍\", \"理\", \"陸\"]",
11760
+ "lossless": false
11761
+ },
11762
+ "Qwen/Qwen3-235B-A22B-Thinking-2507 @ cc100/zh-Hans": {
11763
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-235B-A22B-Thinking-2507</a>",
11764
+ "organization": "Alibaba",
11765
+ "vocab_size": 151669,
11766
+ "_n_bytes": 2633047,
11767
+ "_n_tokens": 589211,
11768
+ "_n_chars": 927311,
11769
+ "_n_oov_chars": 0,
11770
+ "oov_ratio": 0.0,
11771
+ "_oov_charset": "[]",
11772
+ "lossless": true
11773
+ },
11774
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/ar": {
11775
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11776
+ "organization": "Alibaba",
11777
+ "vocab_size": 151669,
11778
+ "_n_bytes": 2813283,
11779
+ "_n_tokens": 614959,
11780
+ "_n_chars": 1560987,
11781
+ "_n_oov_chars": 0,
11782
+ "oov_ratio": 0.0,
11783
+ "_oov_charset": "[]",
11784
+ "lossless": false
11785
+ },
11786
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/de": {
11787
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11788
+ "organization": "Alibaba",
11789
+ "vocab_size": 151669,
11790
+ "_n_bytes": 1814876,
11791
+ "_n_tokens": 503561,
11792
+ "_n_chars": 1784021,
11793
+ "_n_oov_chars": 0,
11794
+ "oov_ratio": 0.0,
11795
+ "_oov_charset": "[]",
11796
+ "lossless": false
11797
+ },
11798
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/en": {
11799
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11800
+ "organization": "Alibaba",
11801
+ "vocab_size": 151669,
11802
+ "_n_bytes": 1124813,
11803
+ "_n_tokens": 257983,
11804
+ "_n_chars": 1121360,
11805
+ "_n_oov_chars": 0,
11806
+ "oov_ratio": 0.0,
11807
+ "_oov_charset": "[]",
11808
+ "lossless": true
11809
+ },
11810
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/es": {
11811
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11812
+ "organization": "Alibaba",
11813
+ "vocab_size": 151669,
11814
+ "_n_bytes": 1664455,
11815
+ "_n_tokens": 434264,
11816
+ "_n_chars": 1630297,
11817
+ "_n_oov_chars": 0,
11818
+ "oov_ratio": 0.0,
11819
+ "_oov_charset": "[]",
11820
+ "lossless": true
11821
+ },
11822
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/fa": {
11823
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11824
+ "organization": "Alibaba",
11825
+ "vocab_size": 151669,
11826
+ "_n_bytes": 2054052,
11827
+ "_n_tokens": 643421,
11828
+ "_n_chars": 1145876,
11829
+ "_n_oov_chars": 0,
11830
+ "oov_ratio": 0.0,
11831
+ "_oov_charset": "[]",
11832
+ "lossless": false
11833
+ },
11834
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/fr": {
11835
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11836
+ "organization": "Alibaba",
11837
+ "vocab_size": 151669,
11838
+ "_n_bytes": 1540504,
11839
+ "_n_tokens": 413637,
11840
+ "_n_chars": 1484970,
11841
+ "_n_oov_chars": 0,
11842
+ "oov_ratio": 0.0,
11843
+ "_oov_charset": "[]",
11844
+ "lossless": false
11845
+ },
11846
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/ja": {
11847
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11848
+ "organization": "Alibaba",
11849
+ "vocab_size": 151669,
11850
+ "_n_bytes": 1774770,
11851
+ "_n_tokens": 377144,
11852
+ "_n_chars": 603065,
11853
+ "_n_oov_chars": 0,
11854
+ "oov_ratio": 0.0,
11855
+ "_oov_charset": "[]",
11856
+ "lossless": false
11857
+ },
11858
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/ko": {
11859
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11860
+ "organization": "Alibaba",
11861
+ "vocab_size": 151669,
11862
+ "_n_bytes": 1524839,
11863
+ "_n_tokens": 457492,
11864
+ "_n_chars": 655190,
11865
+ "_n_oov_chars": 25,
11866
+ "oov_ratio": 3.815687052610693e-05,
11867
+ "_oov_charset": "[\"流\", \"梁\", \"靈\", \"識\", \"良\", \"立\", \"樂\", \"金\", \"不\", \"女\", \"樂\", \"累\", \"龍\", \"理\", \"陸\"]",
11868
+ "lossless": false
11869
+ },
11870
+ "Qwen/Qwen3-30B-A3B-Thinking-2507 @ cc100/zh-Hans": {
11871
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen3-30B-A3B-Thinking-2507</a>",
11872
+ "organization": "Alibaba",
11873
+ "vocab_size": 151669,
11874
+ "_n_bytes": 2633047,
11875
+ "_n_tokens": 589211,
11876
+ "_n_chars": 927311,
11877
+ "_n_oov_chars": 0,
11878
+ "oov_ratio": 0.0,
11879
+ "_oov_charset": "[]",
11880
+ "lossless": true
11881
+ },
11882
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/ar": {
11883
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11884
+ "organization": "DeepSeek",
11885
+ "vocab_size": 151665,
11886
+ "_n_bytes": 2813283,
11887
+ "_n_tokens": 614959,
11888
+ "_n_chars": 1560987,
11889
+ "_n_oov_chars": 0,
11890
+ "oov_ratio": 0.0,
11891
+ "_oov_charset": "[]",
11892
+ "lossless": false
11893
+ },
11894
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/de": {
11895
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11896
+ "organization": "DeepSeek",
11897
+ "vocab_size": 151665,
11898
+ "_n_bytes": 1814876,
11899
+ "_n_tokens": 503561,
11900
+ "_n_chars": 1784021,
11901
+ "_n_oov_chars": 0,
11902
+ "oov_ratio": 0.0,
11903
+ "_oov_charset": "[]",
11904
+ "lossless": false
11905
+ },
11906
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/en": {
11907
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11908
+ "organization": "DeepSeek",
11909
+ "vocab_size": 151665,
11910
+ "_n_bytes": 1124813,
11911
+ "_n_tokens": 257983,
11912
+ "_n_chars": 1121360,
11913
+ "_n_oov_chars": 0,
11914
+ "oov_ratio": 0.0,
11915
+ "_oov_charset": "[]",
11916
+ "lossless": true
11917
+ },
11918
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/es": {
11919
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11920
+ "organization": "DeepSeek",
11921
+ "vocab_size": 151665,
11922
+ "_n_bytes": 1664455,
11923
+ "_n_tokens": 434264,
11924
+ "_n_chars": 1630297,
11925
+ "_n_oov_chars": 0,
11926
+ "oov_ratio": 0.0,
11927
+ "_oov_charset": "[]",
11928
+ "lossless": true
11929
+ },
11930
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/fa": {
11931
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11932
+ "organization": "DeepSeek",
11933
+ "vocab_size": 151665,
11934
+ "_n_bytes": 2054052,
11935
+ "_n_tokens": 643421,
11936
+ "_n_chars": 1145876,
11937
+ "_n_oov_chars": 0,
11938
+ "oov_ratio": 0.0,
11939
+ "_oov_charset": "[]",
11940
+ "lossless": false
11941
+ },
11942
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/fr": {
11943
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11944
+ "organization": "DeepSeek",
11945
+ "vocab_size": 151665,
11946
+ "_n_bytes": 1540504,
11947
+ "_n_tokens": 413637,
11948
+ "_n_chars": 1484970,
11949
+ "_n_oov_chars": 0,
11950
+ "oov_ratio": 0.0,
11951
+ "_oov_charset": "[]",
11952
+ "lossless": false
11953
+ },
11954
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/ja": {
11955
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11956
+ "organization": "DeepSeek",
11957
+ "vocab_size": 151665,
11958
+ "_n_bytes": 1774770,
11959
+ "_n_tokens": 377144,
11960
+ "_n_chars": 603065,
11961
+ "_n_oov_chars": 0,
11962
+ "oov_ratio": 0.0,
11963
+ "_oov_charset": "[]",
11964
+ "lossless": false
11965
+ },
11966
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/ko": {
11967
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11968
+ "organization": "DeepSeek",
11969
+ "vocab_size": 151665,
11970
+ "_n_bytes": 1524839,
11971
+ "_n_tokens": 457492,
11972
+ "_n_chars": 655190,
11973
+ "_n_oov_chars": 25,
11974
+ "oov_ratio": 3.815687052610693e-05,
11975
+ "_oov_charset": "[\"流\", \"梁\", \"靈\", \"識\", \"良\", \"立\", \"樂\", \"金\", \"不\", \"女\", \"樂\", \"累\", \"龍\", \"理\", \"陸\"]",
11976
+ "lossless": false
11977
+ },
11978
+ "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B @ cc100/zh-Hans": {
11979
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DeepSeek-R1-Distill-Qwen-1.5B</a>",
11980
+ "organization": "DeepSeek",
11981
+ "vocab_size": 151665,
11982
+ "_n_bytes": 2633047,
11983
+ "_n_tokens": 589211,
11984
+ "_n_chars": 927311,
11985
+ "_n_oov_chars": 0,
11986
+ "oov_ratio": 0.0,
11987
+ "_oov_charset": "[]",
11988
+ "lossless": true
11989
+ },
11990
+ "deepseek-ai/Janus-Pro-1B @ cc100/ar": {
11991
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
11992
+ "organization": "DeepSeek",
11993
+ "vocab_size": 100590,
11994
+ "_n_bytes": 2813283,
11995
+ "_n_tokens": 1416103,
11996
+ "_n_chars": 1560987,
11997
+ "_n_oov_chars": 0,
11998
+ "oov_ratio": 0.0,
11999
+ "_oov_charset": "[]",
12000
+ "lossless": true
12001
+ },
12002
+ "deepseek-ai/Janus-Pro-1B @ cc100/de": {
12003
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12004
+ "organization": "DeepSeek",
12005
+ "vocab_size": 100590,
12006
+ "_n_bytes": 1814876,
12007
+ "_n_tokens": 631152,
12008
+ "_n_chars": 1784021,
12009
+ "_n_oov_chars": 0,
12010
+ "oov_ratio": 0.0,
12011
+ "_oov_charset": "[]",
12012
+ "lossless": true
12013
+ },
12014
+ "deepseek-ai/Janus-Pro-1B @ cc100/en": {
12015
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12016
+ "organization": "DeepSeek",
12017
+ "vocab_size": 100590,
12018
+ "_n_bytes": 1124813,
12019
+ "_n_tokens": 262324,
12020
+ "_n_chars": 1121360,
12021
+ "_n_oov_chars": 0,
12022
+ "oov_ratio": 0.0,
12023
+ "_oov_charset": "[]",
12024
+ "lossless": true
12025
+ },
12026
+ "deepseek-ai/Janus-Pro-1B @ cc100/es": {
12027
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12028
+ "organization": "DeepSeek",
12029
+ "vocab_size": 100590,
12030
+ "_n_bytes": 1664455,
12031
+ "_n_tokens": 470524,
12032
+ "_n_chars": 1630297,
12033
+ "_n_oov_chars": 0,
12034
+ "oov_ratio": 0.0,
12035
+ "_oov_charset": "[]",
12036
+ "lossless": true
12037
+ },
12038
+ "deepseek-ai/Janus-Pro-1B @ cc100/fa": {
12039
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12040
+ "organization": "DeepSeek",
12041
+ "vocab_size": 100590,
12042
+ "_n_bytes": 2054052,
12043
+ "_n_tokens": 963451,
12044
+ "_n_chars": 1145876,
12045
+ "_n_oov_chars": 0,
12046
+ "oov_ratio": 0.0,
12047
+ "_oov_charset": "[]",
12048
+ "lossless": true
12049
+ },
12050
+ "deepseek-ai/Janus-Pro-1B @ cc100/fr": {
12051
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12052
+ "organization": "DeepSeek",
12053
+ "vocab_size": 100590,
12054
+ "_n_bytes": 1540504,
12055
+ "_n_tokens": 497667,
12056
+ "_n_chars": 1484970,
12057
+ "_n_oov_chars": 0,
12058
+ "oov_ratio": 0.0,
12059
+ "_oov_charset": "[]",
12060
+ "lossless": true
12061
+ },
12062
+ "deepseek-ai/Janus-Pro-1B @ cc100/ja": {
12063
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12064
+ "organization": "DeepSeek",
12065
+ "vocab_size": 100590,
12066
+ "_n_bytes": 1774770,
12067
+ "_n_tokens": 751467,
12068
+ "_n_chars": 603065,
12069
+ "_n_oov_chars": 0,
12070
+ "oov_ratio": 0.0,
12071
+ "_oov_charset": "[]",
12072
+ "lossless": true
12073
+ },
12074
+ "deepseek-ai/Janus-Pro-1B @ cc100/ko": {
12075
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12076
+ "organization": "DeepSeek",
12077
+ "vocab_size": 100590,
12078
+ "_n_bytes": 1524839,
12079
+ "_n_tokens": 1071983,
12080
+ "_n_chars": 655190,
12081
+ "_n_oov_chars": 0,
12082
+ "oov_ratio": 0.0,
12083
+ "_oov_charset": "[]",
12084
+ "lossless": true
12085
+ },
12086
+ "deepseek-ai/Janus-Pro-1B @ cc100/zh-Hans": {
12087
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/deepseek-ai/Janus-Pro-1B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Janus-Pro-1B</a>",
12088
+ "organization": "DeepSeek",
12089
+ "vocab_size": 100590,
12090
+ "_n_bytes": 2633047,
12091
+ "_n_tokens": 595081,
12092
+ "_n_chars": 927311,
12093
+ "_n_oov_chars": 0,
12094
+ "oov_ratio": 0.0,
12095
+ "_oov_charset": "[]",
12096
+ "lossless": true
12097
+ },
12098
+ "openai/gpt-oss-120b @ cc100/ar": {
12099
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12100
+ "organization": "OpenAI",
12101
+ "vocab_size": 200019,
12102
+ "_n_bytes": 2813283,
12103
+ "_n_tokens": 514909,
12104
+ "_n_chars": 1560987,
12105
+ "_n_oov_chars": 0,
12106
+ "oov_ratio": 0.0,
12107
+ "_oov_charset": "[]",
12108
+ "lossless": true
12109
+ },
12110
+ "openai/gpt-oss-120b @ cc100/de": {
12111
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12112
+ "organization": "OpenAI",
12113
+ "vocab_size": 200019,
12114
+ "_n_bytes": 1814876,
12115
+ "_n_tokens": 412599,
12116
+ "_n_chars": 1784021,
12117
+ "_n_oov_chars": 0,
12118
+ "oov_ratio": 0.0,
12119
+ "_oov_charset": "[]",
12120
+ "lossless": true
12121
+ },
12122
+ "openai/gpt-oss-120b @ cc100/en": {
12123
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12124
+ "organization": "OpenAI",
12125
+ "vocab_size": 200019,
12126
+ "_n_bytes": 1124813,
12127
+ "_n_tokens": 251655,
12128
+ "_n_chars": 1121360,
12129
+ "_n_oov_chars": 0,
12130
+ "oov_ratio": 0.0,
12131
+ "_oov_charset": "[]",
12132
+ "lossless": true
12133
+ },
12134
+ "openai/gpt-oss-120b @ cc100/es": {
12135
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12136
+ "organization": "OpenAI",
12137
+ "vocab_size": 200019,
12138
+ "_n_bytes": 1664455,
12139
+ "_n_tokens": 367655,
12140
+ "_n_chars": 1630297,
12141
+ "_n_oov_chars": 0,
12142
+ "oov_ratio": 0.0,
12143
+ "_oov_charset": "[]",
12144
+ "lossless": true
12145
+ },
12146
+ "openai/gpt-oss-120b @ cc100/fa": {
12147
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12148
+ "organization": "OpenAI",
12149
+ "vocab_size": 200019,
12150
+ "_n_bytes": 2054052,
12151
+ "_n_tokens": 379156,
12152
+ "_n_chars": 1145876,
12153
+ "_n_oov_chars": 0,
12154
+ "oov_ratio": 0.0,
12155
+ "_oov_charset": "[]",
12156
+ "lossless": true
12157
+ },
12158
+ "openai/gpt-oss-120b @ cc100/fr": {
12159
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12160
+ "organization": "OpenAI",
12161
+ "vocab_size": 200019,
12162
+ "_n_bytes": 1540504,
12163
+ "_n_tokens": 353101,
12164
+ "_n_chars": 1484970,
12165
+ "_n_oov_chars": 0,
12166
+ "oov_ratio": 0.0,
12167
+ "_oov_charset": "[]",
12168
+ "lossless": true
12169
+ },
12170
+ "openai/gpt-oss-120b @ cc100/ja": {
12171
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12172
+ "organization": "OpenAI",
12173
+ "vocab_size": 200019,
12174
+ "_n_bytes": 1774770,
12175
+ "_n_tokens": 452794,
12176
+ "_n_chars": 603065,
12177
+ "_n_oov_chars": 0,
12178
+ "oov_ratio": 0.0,
12179
+ "_oov_charset": "[]",
12180
+ "lossless": true
12181
+ },
12182
+ "openai/gpt-oss-120b @ cc100/ko": {
12183
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12184
+ "organization": "OpenAI",
12185
+ "vocab_size": 200019,
12186
+ "_n_bytes": 1524839,
12187
+ "_n_tokens": 405624,
12188
+ "_n_chars": 655190,
12189
+ "_n_oov_chars": 0,
12190
+ "oov_ratio": 0.0,
12191
+ "_oov_charset": "[]",
12192
+ "lossless": true
12193
+ },
12194
+ "openai/gpt-oss-120b @ cc100/zh-Hans": {
12195
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-120b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-120b</a>",
12196
+ "organization": "OpenAI",
12197
+ "vocab_size": 200019,
12198
+ "_n_bytes": 2633047,
12199
+ "_n_tokens": 707171,
12200
+ "_n_chars": 927311,
12201
+ "_n_oov_chars": 0,
12202
+ "oov_ratio": 0.0,
12203
+ "_oov_charset": "[]",
12204
+ "lossless": true
12205
+ },
12206
+ "openai/gpt-oss-20b @ cc100/ar": {
12207
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12208
+ "organization": "OpenAI",
12209
+ "vocab_size": 200019,
12210
+ "_n_bytes": 2813283,
12211
+ "_n_tokens": 514909,
12212
+ "_n_chars": 1560987,
12213
+ "_n_oov_chars": 0,
12214
+ "oov_ratio": 0.0,
12215
+ "_oov_charset": "[]",
12216
+ "lossless": true
12217
+ },
12218
+ "openai/gpt-oss-20b @ cc100/de": {
12219
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12220
+ "organization": "OpenAI",
12221
+ "vocab_size": 200019,
12222
+ "_n_bytes": 1814876,
12223
+ "_n_tokens": 412599,
12224
+ "_n_chars": 1784021,
12225
+ "_n_oov_chars": 0,
12226
+ "oov_ratio": 0.0,
12227
+ "_oov_charset": "[]",
12228
+ "lossless": true
12229
+ },
12230
+ "openai/gpt-oss-20b @ cc100/en": {
12231
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12232
+ "organization": "OpenAI",
12233
+ "vocab_size": 200019,
12234
+ "_n_bytes": 1124813,
12235
+ "_n_tokens": 251655,
12236
+ "_n_chars": 1121360,
12237
+ "_n_oov_chars": 0,
12238
+ "oov_ratio": 0.0,
12239
+ "_oov_charset": "[]",
12240
+ "lossless": true
12241
+ },
12242
+ "openai/gpt-oss-20b @ cc100/es": {
12243
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12244
+ "organization": "OpenAI",
12245
+ "vocab_size": 200019,
12246
+ "_n_bytes": 1664455,
12247
+ "_n_tokens": 367655,
12248
+ "_n_chars": 1630297,
12249
+ "_n_oov_chars": 0,
12250
+ "oov_ratio": 0.0,
12251
+ "_oov_charset": "[]",
12252
+ "lossless": true
12253
+ },
12254
+ "openai/gpt-oss-20b @ cc100/fa": {
12255
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12256
+ "organization": "OpenAI",
12257
+ "vocab_size": 200019,
12258
+ "_n_bytes": 2054052,
12259
+ "_n_tokens": 379156,
12260
+ "_n_chars": 1145876,
12261
+ "_n_oov_chars": 0,
12262
+ "oov_ratio": 0.0,
12263
+ "_oov_charset": "[]",
12264
+ "lossless": true
12265
+ },
12266
+ "openai/gpt-oss-20b @ cc100/fr": {
12267
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12268
+ "organization": "OpenAI",
12269
+ "vocab_size": 200019,
12270
+ "_n_bytes": 1540504,
12271
+ "_n_tokens": 353101,
12272
+ "_n_chars": 1484970,
12273
+ "_n_oov_chars": 0,
12274
+ "oov_ratio": 0.0,
12275
+ "_oov_charset": "[]",
12276
+ "lossless": true
12277
+ },
12278
+ "openai/gpt-oss-20b @ cc100/ja": {
12279
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12280
+ "organization": "OpenAI",
12281
+ "vocab_size": 200019,
12282
+ "_n_bytes": 1774770,
12283
+ "_n_tokens": 452794,
12284
+ "_n_chars": 603065,
12285
+ "_n_oov_chars": 0,
12286
+ "oov_ratio": 0.0,
12287
+ "_oov_charset": "[]",
12288
+ "lossless": true
12289
+ },
12290
+ "openai/gpt-oss-20b @ cc100/ko": {
12291
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12292
+ "organization": "OpenAI",
12293
+ "vocab_size": 200019,
12294
+ "_n_bytes": 1524839,
12295
+ "_n_tokens": 405624,
12296
+ "_n_chars": 655190,
12297
+ "_n_oov_chars": 0,
12298
+ "oov_ratio": 0.0,
12299
+ "_oov_charset": "[]",
12300
+ "lossless": true
12301
+ },
12302
+ "openai/gpt-oss-20b @ cc100/zh-Hans": {
12303
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/openai/gpt-oss-20b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gpt-oss-20b</a>",
12304
+ "organization": "OpenAI",
12305
+ "vocab_size": 200019,
12306
+ "_n_bytes": 2633047,
12307
+ "_n_tokens": 707171,
12308
+ "_n_chars": 927311,
12309
+ "_n_oov_chars": 0,
12310
+ "oov_ratio": 0.0,
12311
+ "_oov_charset": "[]",
12312
+ "lossless": true
12313
  }
12314
  }
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ar.diff.json ADDED
The diff for this file is too large to render. See raw diff
 
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.de.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
4
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
5
+ "diff": [
6
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
14
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
15
+ "diff": [
16
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
24
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
25
+ "diff": [
26
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
34
+ "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
35
+ "diff": [
36
+ "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'",
37
+ "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
45
+ "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
46
+ "diff": [
47
+ "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'",
48
+ "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'",
49
+ "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'",
50
+ "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'",
51
+ "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'",
52
+ "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'",
53
+ "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'",
54
+ "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'",
55
+ "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'",
56
+ "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
64
+ "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
65
+ "diff": [
66
+ "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'",
67
+ "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
75
+ "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
76
+ "diff": [
77
+ "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'",
78
+ "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'",
79
+ "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'",
80
+ "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'",
81
+ "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'",
82
+ "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'"
83
+ ],
84
+ "n_oov_chars": 0,
85
+ "oov_ratio": 0.0,
86
+ "oov_charset": "[]"
87
+ },
88
+ {
89
+ "text": "‹ Herzlichen Dank für all Ihre Spenden!",
90
+ "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!",
91
+ "diff": [
92
+ "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'"
93
+ ],
94
+ "n_oov_chars": 0,
95
+ "oov_ratio": 0.0,
96
+ "oov_charset": "[]"
97
+ },
98
+ {
99
+ "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
100
+ "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
101
+ "diff": [
102
+ "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'",
103
+ "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'"
104
+ ],
105
+ "n_oov_chars": 0,
106
+ "oov_ratio": 0.0,
107
+ "oov_charset": "[]"
108
+ }
109
+ ]
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.fa.diff.json ADDED
@@ -0,0 +1,248 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
4
+ "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
5
+ "diff": [
6
+ "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'",
7
+ "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''",
8
+ "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'",
9
+ "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''",
10
+ "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'",
11
+ "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''"
12
+ ],
13
+ "n_oov_chars": 0,
14
+ "oov_ratio": 0.0,
15
+ "oov_charset": "[]"
16
+ },
17
+ {
18
+ "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
19
+ "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
20
+ "diff": [
21
+ "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'",
22
+ "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''",
23
+ "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'",
24
+ "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''"
25
+ ],
26
+ "n_oov_chars": 0,
27
+ "oov_ratio": 0.0,
28
+ "oov_charset": "[]"
29
+ },
30
+ {
31
+ "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
32
+ "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
33
+ "diff": [
34
+ "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'",
35
+ "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''",
36
+ "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'",
37
+ "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''",
38
+ "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'",
39
+ "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''",
40
+ "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'",
41
+ "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''"
42
+ ],
43
+ "n_oov_chars": 0,
44
+ "oov_ratio": 0.0,
45
+ "oov_charset": "[]"
46
+ },
47
+ {
48
+ "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
49
+ "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
50
+ "diff": [
51
+ "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'",
52
+ "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''",
53
+ "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'",
54
+ "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''",
55
+ "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'",
56
+ "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
64
+ "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
65
+ "diff": [
66
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
67
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
75
+ "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
76
+ "diff": [
77
+ "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'",
78
+ "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''",
79
+ "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'",
80
+ "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''",
81
+ "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'",
82
+ "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''",
83
+ "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'",
84
+ "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''"
85
+ ],
86
+ "n_oov_chars": 0,
87
+ "oov_ratio": 0.0,
88
+ "oov_charset": "[]"
89
+ },
90
+ {
91
+ "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
92
+ "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
93
+ "diff": [
94
+ "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'",
95
+ "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'",
96
+ "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'",
97
+ "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'",
98
+ "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''",
99
+ "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'",
100
+ "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ },
106
+ {
107
+ "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
108
+ "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گن��هکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
109
+ "diff": [
110
+ "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'",
111
+ "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'",
112
+ "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''",
113
+ "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
121
+ "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
122
+ "diff": [
123
+ "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'",
124
+ "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'",
125
+ "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'",
126
+ "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'",
127
+ "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'",
128
+ "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'"
129
+ ],
130
+ "n_oov_chars": 0,
131
+ "oov_ratio": 0.0,
132
+ "oov_charset": "[]"
133
+ },
134
+ {
135
+ "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
136
+ "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
137
+ "diff": [
138
+ "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'",
139
+ "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''"
140
+ ],
141
+ "n_oov_chars": 0,
142
+ "oov_ratio": 0.0,
143
+ "oov_charset": "[]"
144
+ },
145
+ {
146
+ "text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
147
+ "decoded_text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
148
+ "diff": [
149
+ "replace text[174:183] --> decoded_text[174:183] 'ِّکَ الَّ' --> 'ِّکَ الَّ'",
150
+ "replace text[344:346] --> decoded_text[344:346] 'ِّ' --> 'ِّ'",
151
+ "replace text[366:368] --> decoded_text[366:368] 'َّ' --> 'َّ'",
152
+ "replace text[383:399] --> decoded_text[383:400] 'َّنِیِّ مِنَ الا' --> 'َّنِیِّ مِنَ الاُ'",
153
+ "delete text[400:401] --> decoded_text[401:401] 'ُ' --> ''"
154
+ ],
155
+ "n_oov_chars": 0,
156
+ "oov_ratio": 0.0,
157
+ "oov_charset": "[]"
158
+ },
159
+ {
160
+ "text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
161
+ "decoded_text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
162
+ "diff": [
163
+ "replace text[470:472] --> decoded_text[470:472] 'َّ' --> 'َّ'",
164
+ "replace text[491:493] --> decoded_text[491:493] 'َّ' --> 'َّ'",
165
+ "delete text[501:502] --> decoded_text[501:501] 'ّ' --> ''",
166
+ "insert text[503:503] --> decoded_text[502:503] '' --> 'ّ'",
167
+ "replace text[534:536] --> decoded_text[534:536] 'َّ' --> 'َّ'"
168
+ ],
169
+ "n_oov_chars": 0,
170
+ "oov_ratio": 0.0,
171
+ "oov_charset": "[]"
172
+ },
173
+ {
174
+ "text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
175
+ "decoded_text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
176
+ "diff": [
177
+ "insert text[288:288] --> decoded_text[288:289] '' --> 'ُ'",
178
+ "replace text[289:296] --> decoded_text[290:297] 'ُ بِالد' --> ' بِالدِ'",
179
+ "replace text[297:306] --> decoded_text[298:307] 'ِینِ والد' --> 'ینِ والدُ'",
180
+ "delete text[307:308] --> decoded_text[308:308] 'ُ' --> ''"
181
+ ],
182
+ "n_oov_chars": 0,
183
+ "oov_ratio": 0.0,
184
+ "oov_charset": "[]"
185
+ },
186
+ {
187
+ "text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
188
+ "decoded_text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
189
+ "diff": [
190
+ "insert text[210:210] --> decoded_text[210:211] '' --> 'َ'",
191
+ "delete text[211:212] --> decoded_text[212:212] 'َ' --> ''",
192
+ "insert text[254:254] --> decoded_text[254:255] '' --> 'َ'",
193
+ "delete text[255:256] --> decoded_text[256:256] 'َ' --> ''",
194
+ "insert text[420:420] --> decoded_text[420:421] '' --> 'َ'",
195
+ "replace text[421:432] --> decoded_text[422:433] 'َ یَومَ الن' --> ' یَومَ النَ'",
196
+ "delete text[433:434] --> decoded_text[434:434] 'َ' --> ''",
197
+ "insert text[468:468] --> decoded_text[468:469] '' --> 'َ'",
198
+ "delete text[469:470] --> decoded_text[470:470] 'َ' --> ''"
199
+ ],
200
+ "n_oov_chars": 0,
201
+ "oov_ratio": 0.0,
202
+ "oov_charset": "[]"
203
+ },
204
+ {
205
+ "text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
206
+ "decoded_text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
207
+ "diff": [
208
+ "insert text[58:58] --> decoded_text[58:59] '' --> 'ُ'",
209
+ "delete text[59:60] --> decoded_text[60:60] 'ُ' --> ''",
210
+ "insert text[65:65] --> decoded_text[65:66] '' --> 'َ'",
211
+ "delete text[66:67] --> decoded_text[67:67] 'َ' --> ''",
212
+ "insert text[408:408] --> decoded_text[408:409] '' --> 'َ'",
213
+ "delete text[409:410] --> decoded_text[410:410] 'َ' --> ''",
214
+ "insert text[427:427] --> decoded_text[427:428] '' --> 'ِ'",
215
+ "replace text[428:437] --> decoded_text[429:438] 'ِینِ والد' --> 'ینِ والدُ'",
216
+ "delete text[438:439] --> decoded_text[439:439] 'ُ' --> ''"
217
+ ],
218
+ "n_oov_chars": 0,
219
+ "oov_ratio": 0.0,
220
+ "oov_charset": "[]"
221
+ },
222
+ {
223
+ "text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
224
+ "decoded_text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
225
+ "diff": [
226
+ "insert text[57:57] --> decoded_text[57:58] '' --> 'َ'",
227
+ "delete text[58:59] --> decoded_text[59:59] 'َ' --> ''",
228
+ "insert text[78:78] --> decoded_text[78:79] '' --> 'َ'",
229
+ "delete text[79:80] --> decoded_text[80:80] 'َ' --> ''",
230
+ "insert text[232:232] --> decoded_text[232:233] '' --> 'َ'",
231
+ "delete text[233:234] --> decoded_text[234:234] 'َ' --> ''"
232
+ ],
233
+ "n_oov_chars": 0,
234
+ "oov_ratio": 0.0,
235
+ "oov_charset": "[]"
236
+ },
237
+ {
238
+ "text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
239
+ "decoded_text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
240
+ "diff": [
241
+ "insert text[56:56] --> decoded_text[56:57] '' --> 'َ'",
242
+ "delete text[57:58] --> decoded_text[58:58] 'َ' --> ''"
243
+ ],
244
+ "n_oov_chars": 0,
245
+ "oov_ratio": 0.0,
246
+ "oov_charset": "[]"
247
+ }
248
+ ]
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.fr.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Une Agence conseil en Communication et Coopération Décentralisée.",
4
+ "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.",
5
+ "diff": [
6
+ "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'",
7
+ "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'",
8
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
9
+ ],
10
+ "n_oov_chars": 0,
11
+ "oov_ratio": 0.0,
12
+ "oov_charset": "[]"
13
+ },
14
+ {
15
+ "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
16
+ "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
17
+ "diff": [
18
+ "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'",
19
+ "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'",
20
+ "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'",
21
+ "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'",
22
+ "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'"
23
+ ],
24
+ "n_oov_chars": 0,
25
+ "oov_ratio": 0.0,
26
+ "oov_charset": "[]"
27
+ },
28
+ {
29
+ "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
30
+ "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
31
+ "diff": [
32
+ "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'",
33
+ "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'",
34
+ "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'"
35
+ ],
36
+ "n_oov_chars": 0,
37
+ "oov_ratio": 0.0,
38
+ "oov_charset": "[]"
39
+ },
40
+ {
41
+ "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
42
+ "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
43
+ "diff": [
44
+ "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'",
45
+ "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'",
46
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
54
+ "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
55
+ "diff": [
56
+ "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'",
57
+ "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'",
58
+ "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'",
59
+ "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
67
+ "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
68
+ "diff": [
69
+ "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'",
70
+ "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'",
71
+ "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'"
72
+ ],
73
+ "n_oov_chars": 0,
74
+ "oov_ratio": 0.0,
75
+ "oov_charset": "[]"
76
+ },
77
+ {
78
+ "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
79
+ "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
80
+ "diff": [
81
+ "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'",
82
+ "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'",
83
+ "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'",
84
+ "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'",
85
+ "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'",
86
+ "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'",
87
+ "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
95
+ "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
96
+ "diff": [
97
+ "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'",
98
+ "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'",
99
+ "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'"
100
+ ],
101
+ "n_oov_chars": 0,
102
+ "oov_ratio": 0.0,
103
+ "oov_charset": "[]"
104
+ }
105
+ ]
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ja.diff.json ADDED
@@ -0,0 +1,1046 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
4
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
5
+ "diff": [
6
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
7
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
8
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
9
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
10
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
11
+ ],
12
+ "n_oov_chars": 0,
13
+ "oov_ratio": 0.0,
14
+ "oov_charset": "[]"
15
+ },
16
+ {
17
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
18
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
19
+ "diff": [
20
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
21
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
22
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
23
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
24
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
25
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
26
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
27
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
35
+ "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
36
+ "diff": [
37
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
38
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
39
+ "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
40
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
41
+ "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
42
+ "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
43
+ "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
44
+ ],
45
+ "n_oov_chars": 0,
46
+ "oov_ratio": 0.0,
47
+ "oov_charset": "[]"
48
+ },
49
+ {
50
+ "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
51
+ "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
52
+ "diff": [
53
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
54
+ "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
55
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
56
+ "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
57
+ "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
58
+ "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
66
+ "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
67
+ "diff": [
68
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
69
+ "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
70
+ "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
71
+ "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
72
+ "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
73
+ "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
74
+ "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
75
+ ],
76
+ "n_oov_chars": 0,
77
+ "oov_ratio": 0.0,
78
+ "oov_charset": "[]"
79
+ },
80
+ {
81
+ "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
82
+ "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
83
+ "diff": [
84
+ "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
85
+ "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
86
+ "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
87
+ "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
95
+ "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
96
+ "diff": [
97
+ "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
98
+ "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
99
+ "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
100
+ "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
101
+ "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
102
+ ],
103
+ "n_oov_chars": 0,
104
+ "oov_ratio": 0.0,
105
+ "oov_charset": "[]"
106
+ },
107
+ {
108
+ "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
109
+ "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
110
+ "diff": [
111
+ "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
112
+ "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
113
+ "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
121
+ "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
122
+ "diff": [
123
+ "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
124
+ "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
125
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
126
+ ],
127
+ "n_oov_chars": 0,
128
+ "oov_ratio": 0.0,
129
+ "oov_charset": "[]"
130
+ },
131
+ {
132
+ "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
133
+ "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
134
+ "diff": [
135
+ "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
136
+ "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
137
+ ],
138
+ "n_oov_chars": 0,
139
+ "oov_ratio": 0.0,
140
+ "oov_charset": "[]"
141
+ },
142
+ {
143
+ "text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
144
+ "decoded_text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
145
+ "diff": [
146
+ "replace text[4:6] --> decoded_text[4:5] 'ず' --> 'ず'",
147
+ "replace text[14:16] --> decoded_text[13:14] 'だ' --> 'だ'",
148
+ "replace text[28:30] --> decoded_text[26:27] 'が' --> 'が'",
149
+ "replace text[34:36] --> decoded_text[31:32] 'だ' --> 'だ'",
150
+ "replace text[52:54] --> decoded_text[48:49] 'で' --> 'で'",
151
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'"
152
+ ],
153
+ "n_oov_chars": 0,
154
+ "oov_ratio": 0.0,
155
+ "oov_charset": "[]"
156
+ },
157
+ {
158
+ "text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
159
+ "decoded_text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
160
+ "diff": [
161
+ "replace text[34:36] --> decoded_text[34:35] 'で' --> 'で'",
162
+ "replace text[83:85] --> decoded_text[82:83] 'だ' --> 'だ'",
163
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'",
164
+ "replace text[92:94] --> decoded_text[89:90] 'で' --> 'で'",
165
+ "replace text[99:101] --> decoded_text[95:96] 'で' --> 'で'"
166
+ ],
167
+ "n_oov_chars": 0,
168
+ "oov_ratio": 0.0,
169
+ "oov_charset": "[]"
170
+ },
171
+ {
172
+ "text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
173
+ "decoded_text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
174
+ "diff": [
175
+ "replace text[26:28] --> decoded_text[26:27] 'で' --> 'で'"
176
+ ],
177
+ "n_oov_chars": 0,
178
+ "oov_ratio": 0.0,
179
+ "oov_charset": "[]"
180
+ },
181
+ {
182
+ "text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
183
+ "decoded_text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
184
+ "diff": [
185
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
186
+ "replace text[18:20] --> decoded_text[17:18] 'で' --> 'で'",
187
+ "replace text[29:31] --> decoded_text[27:28] 'だ' --> 'だ'",
188
+ "replace text[50:52] --> decoded_text[47:48] 'だ' --> 'だ'"
189
+ ],
190
+ "n_oov_chars": 0,
191
+ "oov_ratio": 0.0,
192
+ "oov_charset": "[]"
193
+ },
194
+ {
195
+ "text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
196
+ "decoded_text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
197
+ "diff": [
198
+ "replace text[2:4] --> decoded_text[2:3] 'ご' --> 'ご'",
199
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
200
+ "replace text[26:28] --> decoded_text[24:25] 'が' --> 'が'",
201
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
202
+ "replace text[43:45] --> decoded_text[39:40] 'で' --> 'で'",
203
+ "replace text[53:55] --> decoded_text[48:49] 'で' --> 'で'"
204
+ ],
205
+ "n_oov_chars": 0,
206
+ "oov_ratio": 0.0,
207
+ "oov_charset": "[]"
208
+ },
209
+ {
210
+ "text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
211
+ "decoded_text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
212
+ "diff": [
213
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
214
+ "replace text[8:10] --> decoded_text[7:8] 'が' --> 'が'",
215
+ "replace text[22:24] --> decoded_text[20:21] 'が' --> 'が'",
216
+ "replace text[34:36] --> decoded_text[31:32] 'ず' --> 'ず'",
217
+ "replace text[42:44] --> decoded_text[38:39] 'だ' --> 'だ'"
218
+ ],
219
+ "n_oov_chars": 0,
220
+ "oov_ratio": 0.0,
221
+ "oov_charset": "[]"
222
+ },
223
+ {
224
+ "text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたいです。",
225
+ "decoded_text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたい��す。",
226
+ "diff": [
227
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
228
+ "replace text[16:20] --> decoded_text[15:17] 'がで' --> 'がで'",
229
+ "replace text[35:37] --> decoded_text[32:33] 'で' --> 'で'",
230
+ "replace text[67:69] --> decoded_text[63:64] 'で' --> 'で'"
231
+ ],
232
+ "n_oov_chars": 0,
233
+ "oov_ratio": 0.0,
234
+ "oov_charset": "[]"
235
+ },
236
+ {
237
+ "text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
238
+ "decoded_text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
239
+ "diff": [
240
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
241
+ "replace text[39:41] --> decoded_text[38:39] 'ず' --> 'ず'",
242
+ "replace text[43:45] --> decoded_text[41:42] 'が' --> 'が'",
243
+ "replace text[49:51] --> decoded_text[46:47] 'だ' --> 'だ'"
244
+ ],
245
+ "n_oov_chars": 0,
246
+ "oov_ratio": 0.0,
247
+ "oov_charset": "[]"
248
+ },
249
+ {
250
+ "text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
251
+ "decoded_text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
252
+ "diff": [
253
+ "replace text[43:45] --> decoded_text[43:44] 'だ' --> 'だ'",
254
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'"
255
+ ],
256
+ "n_oov_chars": 0,
257
+ "oov_ratio": 0.0,
258
+ "oov_charset": "[]"
259
+ },
260
+ {
261
+ "text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
262
+ "decoded_text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
263
+ "diff": [
264
+ "replace text[1:3] --> decoded_text[1:2] 'び' --> 'び'",
265
+ "replace text[4:6] --> decoded_text[3:4] 'バ' --> 'バ'",
266
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
267
+ ],
268
+ "n_oov_chars": 0,
269
+ "oov_ratio": 0.0,
270
+ "oov_charset": "[]"
271
+ },
272
+ {
273
+ "text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
274
+ "decoded_text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
275
+ "diff": [
276
+ "replace text[21:23] --> decoded_text[21:22] 'で' --> 'で'",
277
+ "replace text[43:45] --> decoded_text[42:43] 'で' --> 'で'",
278
+ "replace text[64:66] --> decoded_text[62:63] 'ば' --> 'ば'",
279
+ "replace text[71:73] --> decoded_text[68:69] 'で' --> 'で'",
280
+ "replace text[102:104] --> decoded_text[98:99] 'で' --> 'で'"
281
+ ],
282
+ "n_oov_chars": 0,
283
+ "oov_ratio": 0.0,
284
+ "oov_charset": "[]"
285
+ },
286
+ {
287
+ "text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
288
+ "decoded_text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
289
+ "diff": [
290
+ "replace text[8:10] --> decoded_text[8:9] 'ぶ' --> 'ぶ'",
291
+ "replace text[35:37] --> decoded_text[34:35] 'だ' --> 'だ'"
292
+ ],
293
+ "n_oov_chars": 0,
294
+ "oov_ratio": 0.0,
295
+ "oov_charset": "[]"
296
+ },
297
+ {
298
+ "text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
299
+ "decoded_text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
300
+ "diff": [
301
+ "replace text[21:23] --> decoded_text[21:22] 'が' --> 'が'",
302
+ "replace text[31:33] --> decoded_text[30:31] 'で' --> 'で'",
303
+ "replace text[39:41] --> decoded_text[37:38] 'で' --> 'で'",
304
+ "replace text[68:70] --> decoded_text[65:66] 'で' --> 'で'"
305
+ ],
306
+ "n_oov_chars": 0,
307
+ "oov_ratio": 0.0,
308
+ "oov_charset": "[]"
309
+ },
310
+ {
311
+ "text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
312
+ "decoded_text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
313
+ "diff": [
314
+ "replace text[18:20] --> decoded_text[18:19] 'が' --> 'が'",
315
+ "replace text[26:28] --> decoded_text[25:26] 'で' --> 'で'",
316
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
317
+ ],
318
+ "n_oov_chars": 0,
319
+ "oov_ratio": 0.0,
320
+ "oov_charset": "[]"
321
+ },
322
+ {
323
+ "text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
324
+ "decoded_text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
325
+ "diff": [
326
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
327
+ "replace text[57:59] --> decoded_text[56:57] 'ビ' --> 'ビ'",
328
+ "replace text[62:64] --> decoded_text[60:61] 'プ' --> 'プ'",
329
+ "replace text[79:81] --> decoded_text[76:77] 'で' --> 'で'",
330
+ "replace text[93:95] --> decoded_text[89:90] 'で' --> 'で'",
331
+ "replace text[121:123] --> decoded_text[116:117] 'で' --> 'で'"
332
+ ],
333
+ "n_oov_chars": 0,
334
+ "oov_ratio": 0.0,
335
+ "oov_charset": "[]"
336
+ },
337
+ {
338
+ "text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
339
+ "decoded_text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
340
+ "diff": [
341
+ "replace text[3:5] --> decoded_text[3:4] 'が' --> 'が'",
342
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
343
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
344
+ "replace text[51:53] --> decoded_text[48:49] 'だ' --> 'だ'"
345
+ ],
346
+ "n_oov_chars": 0,
347
+ "oov_ratio": 0.0,
348
+ "oov_charset": "[]"
349
+ },
350
+ {
351
+ "text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
352
+ "decoded_text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
353
+ "diff": [
354
+ "replace text[14:16] --> decoded_text[14:15] 'ず' --> 'ず'",
355
+ "replace text[17:19] --> decoded_text[16:17] 'ど' --> 'ど'",
356
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
357
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
358
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'",
359
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'",
360
+ "replace text[58:62] --> decoded_text[52:54] 'だで' --> 'だで'",
361
+ "replace text[63:65] --> decoded_text[55:56] 'が' --> 'が'",
362
+ "replace text[71:73] --> decoded_text[62:63] 'が' --> 'が'",
363
+ "replace text[80:82] --> decoded_text[70:71] 'で' --> 'で'",
364
+ "replace text[119:121] --> decoded_text[108:109] 'で' --> 'で'"
365
+ ],
366
+ "n_oov_chars": 0,
367
+ "oov_ratio": 0.0,
368
+ "oov_charset": "[]"
369
+ },
370
+ {
371
+ "text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
372
+ "decoded_text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
373
+ "diff": [
374
+ "replace text[15:17] --> decoded_text[15:16] 'べ' --> 'べ'",
375
+ "replace text[23:25] --> decoded_text[22:23] 'が' --> 'が'",
376
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'",
377
+ "replace text[53:55] --> decoded_text[50:51] 'が' --> 'が'"
378
+ ],
379
+ "n_oov_chars": 0,
380
+ "oov_ratio": 0.0,
381
+ "oov_charset": "[]"
382
+ },
383
+ {
384
+ "text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
385
+ "decoded_text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
386
+ "diff": [
387
+ "replace text[32:34] --> decoded_text[32:33] 'で' --> 'で'",
388
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'",
389
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'"
390
+ ],
391
+ "n_oov_chars": 0,
392
+ "oov_ratio": 0.0,
393
+ "oov_charset": "[]"
394
+ },
395
+ {
396
+ "text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
397
+ "decoded_text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
398
+ "diff": [
399
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
400
+ "replace text[21:23] --> decoded_text[20:21] 'で' --> 'で'",
401
+ "replace text[38:40] --> decoded_text[36:37] 'で' --> 'で'",
402
+ "replace text[48:50] --> decoded_text[45:46] 'が' --> 'が'",
403
+ "replace text[52:54] --> decoded_text[48:49] 'だ' --> 'だ'"
404
+ ],
405
+ "n_oov_chars": 0,
406
+ "oov_ratio": 0.0,
407
+ "oov_charset": "[]"
408
+ },
409
+ {
410
+ "text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
411
+ "decoded_text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
412
+ "diff": [
413
+ "replace text[44:46] --> decoded_text[44:45] 'が' --> 'が'",
414
+ "replace text[71:73] --> decoded_text[70:71] 'が' --> 'が'",
415
+ "replace text[76:78] --> decoded_text[74:75] 'で' --> 'で'",
416
+ "replace text[83:85] --> decoded_text[80:81] 'だ' --> 'だ'",
417
+ "replace text[105:107] --> decoded_text[101:102] 'で' --> 'で'"
418
+ ],
419
+ "n_oov_chars": 0,
420
+ "oov_ratio": 0.0,
421
+ "oov_charset": "[]"
422
+ },
423
+ {
424
+ "text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
425
+ "decoded_text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
426
+ "diff": [
427
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
428
+ "replace text[23:25] --> decoded_text[22:23] 'ば' --> 'ば'",
429
+ "replace text[31:33] --> decoded_text[29:30] 'が' --> 'が'",
430
+ "replace text[36:38] --> decoded_text[33:34] 'で' --> 'で'",
431
+ "replace text[43:45] --> decoded_text[39:40] 'だ' --> 'だ'"
432
+ ],
433
+ "n_oov_chars": 0,
434
+ "oov_ratio": 0.0,
435
+ "oov_charset": "[]"
436
+ },
437
+ {
438
+ "text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
439
+ "decoded_text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
440
+ "diff": [
441
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
442
+ "replace text[11:13] --> decoded_text[10:11] 'で' --> 'で'",
443
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
444
+ "replace text[39:41] --> decoded_text[36:37] 'で' --> 'で'",
445
+ "replace text[70:72] --> decoded_text[66:67] 'だ' --> 'だ'",
446
+ "replace text[88:92] --> decoded_text[83:85] 'がで' --> 'がで'",
447
+ "replace text[95:97] --> decoded_text[88:89] 'で' --> 'で'",
448
+ "replace text[102:104] --> decoded_text[94:95] 'で' --> 'で'"
449
+ ],
450
+ "n_oov_chars": 0,
451
+ "oov_ratio": 0.0,
452
+ "oov_charset": "[]"
453
+ },
454
+ {
455
+ "text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
456
+ "decoded_text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
457
+ "diff": [
458
+ "replace text[15:17] --> decoded_text[15:16] 'で' --> 'で'",
459
+ "replace text[22:24] --> decoded_text[21:22] 'で' --> 'で'",
460
+ "replace text[25:27] --> decoded_text[23:24] 'が' --> 'が'",
461
+ "replace text[31:33] --> decoded_text[28:29] 'ば' --> 'ば'",
462
+ "replace text[40:42] --> decoded_text[36:37] 'で' --> 'で'",
463
+ "replace text[46:48] --> decoded_text[41:42] 'で' --> 'で'",
464
+ "replace text[55:57] --> decoded_text[49:50] 'だ' --> 'だ'"
465
+ ],
466
+ "n_oov_chars": 0,
467
+ "oov_ratio": 0.0,
468
+ "oov_charset": "[]"
469
+ },
470
+ {
471
+ "text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
472
+ "decoded_text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
473
+ "diff": [
474
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
475
+ "replace text[11:13] --> decoded_text[10:11] 'だ' --> 'だ'",
476
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
477
+ "replace text[83:85] --> decoded_text[80:81] 'で' --> 'で'",
478
+ "replace text[97:99] --> decoded_text[93:94] 'で' --> 'で'"
479
+ ],
480
+ "n_oov_chars": 0,
481
+ "oov_ratio": 0.0,
482
+ "oov_charset": "[]"
483
+ },
484
+ {
485
+ "text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
486
+ "decoded_text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
487
+ "diff": [
488
+ "replace text[20:22] --> decoded_text[20:21] 'で' --> 'で'",
489
+ "replace text[29:33] --> decoded_text[28:30] 'がで' --> 'がで'",
490
+ "replace text[53:55] --> decoded_text[50:51] 'だ' --> 'だ'"
491
+ ],
492
+ "n_oov_chars": 0,
493
+ "oov_ratio": 0.0,
494
+ "oov_charset": "[]"
495
+ },
496
+ {
497
+ "text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
498
+ "decoded_text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
499
+ "diff": [
500
+ "replace text[16:18] --> decoded_text[16:17] 'が' --> 'が'",
501
+ "replace text[32:34] --> decoded_text[31:32] 'で' --> 'で'",
502
+ "replace text[49:51] --> decoded_text[47:48] 'で' --> 'で'",
503
+ "replace text[60:62] --> decoded_text[57:58] 'で' --> 'で'"
504
+ ],
505
+ "n_oov_chars": 0,
506
+ "oov_ratio": 0.0,
507
+ "oov_charset": "[]"
508
+ },
509
+ {
510
+ "text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職して仕事に活かしていきたいと思います。",
511
+ "decoded_text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職��て仕事に活かしていきたいと思います。",
512
+ "diff": [
513
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
514
+ "replace text[37:39] --> decoded_text[36:37] 'が' --> 'が'",
515
+ "replace text[42:44] --> decoded_text[40:41] 'ず' --> 'ず'",
516
+ "replace text[52:54] --> decoded_text[49:50] 'だ' --> 'だ'",
517
+ "replace text[60:62] --> decoded_text[56:57] 'で' --> 'で'",
518
+ "replace text[71:73] --> decoded_text[66:67] 'で' --> 'で'",
519
+ "replace text[77:79] --> decoded_text[71:72] 'で' --> 'で'",
520
+ "replace text[101:103] --> decoded_text[94:95] 'で' --> 'で'"
521
+ ],
522
+ "n_oov_chars": 0,
523
+ "oov_ratio": 0.0,
524
+ "oov_charset": "[]"
525
+ },
526
+ {
527
+ "text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
528
+ "decoded_text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
529
+ "diff": [
530
+ "replace text[13:15] --> decoded_text[13:14] 'ば' --> 'ば'",
531
+ "replace text[17:19] --> decoded_text[16:17] 'ぐ' --> 'ぐ'",
532
+ "replace text[26:28] --> decoded_text[24:25] 'で' --> 'で'"
533
+ ],
534
+ "n_oov_chars": 0,
535
+ "oov_ratio": 0.0,
536
+ "oov_charset": "[]"
537
+ },
538
+ {
539
+ "text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
540
+ "decoded_text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
541
+ "diff": [
542
+ "replace text[18:20] --> decoded_text[18:19] 'だ' --> 'だ'",
543
+ "replace text[27:29] --> decoded_text[26:27] 'が' --> 'が'",
544
+ "replace text[69:71] --> decoded_text[67:68] 'で' --> 'で'",
545
+ "replace text[85:87] --> decoded_text[82:83] 'で' --> 'で'"
546
+ ],
547
+ "n_oov_chars": 0,
548
+ "oov_ratio": 0.0,
549
+ "oov_charset": "[]"
550
+ },
551
+ {
552
+ "text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
553
+ "decoded_text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
554
+ "diff": [
555
+ "replace text[11:13] --> decoded_text[11:12] 'で' --> 'で'",
556
+ "replace text[18:20] --> decoded_text[17:18] 'ど' --> 'ど'",
557
+ "replace text[23:25] --> decoded_text[21:22] 'が' --> 'が'",
558
+ "replace text[33:35] --> decoded_text[30:31] 'で' --> 'で'",
559
+ "replace text[44:46] --> decoded_text[40:41] 'ば' --> 'ば'",
560
+ "replace text[49:51] --> decoded_text[44:45] 'で' --> 'で'"
561
+ ],
562
+ "n_oov_chars": 0,
563
+ "oov_ratio": 0.0,
564
+ "oov_charset": "[]"
565
+ },
566
+ {
567
+ "text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
568
+ "decoded_text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
569
+ "diff": [
570
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
571
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
572
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
573
+ "replace text[29:31] --> decoded_text[26:27] 'だ' --> 'だ'",
574
+ "replace text[58:60] --> decoded_text[54:55] 'で' --> 'で'",
575
+ "replace text[64:66] --> decoded_text[59:60] 'が' --> 'が'",
576
+ "replace text[80:82] --> decoded_text[74:75] 'で' --> 'で'"
577
+ ],
578
+ "n_oov_chars": 0,
579
+ "oov_ratio": 0.0,
580
+ "oov_charset": "[]"
581
+ },
582
+ {
583
+ "text": "得意分野より苦手分野を克服することで合格に近づけると思います。最後まで諦めずに頑張ってください。",
584
+ "decoded_text": "得意分野より苦手分野を克服することで合格に近づけると���います。最後まで諦めずに頑張ってください。",
585
+ "diff": [
586
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
587
+ "replace text[23:25] --> decoded_text[22:23] 'づ' --> 'づ'",
588
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
589
+ "replace text[40:42] --> decoded_text[37:38] 'ず' --> 'ず'",
590
+ "replace text[48:50] --> decoded_text[44:45] 'だ' --> 'だ'"
591
+ ],
592
+ "n_oov_chars": 0,
593
+ "oov_ratio": 0.0,
594
+ "oov_charset": "[]"
595
+ },
596
+ {
597
+ "text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
598
+ "decoded_text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
599
+ "diff": [
600
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
601
+ "replace text[6:8] --> decoded_text[5:6] 'だ' --> 'だ'",
602
+ "replace text[11:13] --> decoded_text[9:10] 'で' --> 'で'",
603
+ "replace text[35:37] --> decoded_text[32:33] 'ず' --> 'ず'",
604
+ "replace text[49:51] --> decoded_text[45:46] 'で' --> 'で'",
605
+ "replace text[77:79] --> decoded_text[72:73] 'だ' --> 'だ'",
606
+ "replace text[80:82] --> decoded_text[74:75] 'だ' --> 'だ'"
607
+ ],
608
+ "n_oov_chars": 0,
609
+ "oov_ratio": 0.0,
610
+ "oov_charset": "[]"
611
+ },
612
+ {
613
+ "text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
614
+ "decoded_text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
615
+ "diff": [
616
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
617
+ "replace text[12:14] --> decoded_text[11:12] 'ぶ' --> 'ぶ'",
618
+ "replace text[22:24] --> decoded_text[20:21] 'ず' --> 'ず'",
619
+ "replace text[30:32] --> decoded_text[27:28] 'だ' --> 'だ'",
620
+ "replace text[37:39] --> decoded_text[33:34] 'だ' --> 'だ'",
621
+ "replace text[56:58] --> decoded_text[51:52] 'で' --> 'で'",
622
+ "replace text[60:62] --> decoded_text[54:55] 'で' --> 'で'",
623
+ "replace text[63:65] --> decoded_text[56:57] 'だ' --> 'だ'"
624
+ ],
625
+ "n_oov_chars": 0,
626
+ "oov_ratio": 0.0,
627
+ "oov_charset": "[]"
628
+ },
629
+ {
630
+ "text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
631
+ "decoded_text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
632
+ "diff": [
633
+ "replace text[12:14] --> decoded_text[12:13] 'ゴ' --> 'ゴ'",
634
+ "replace text[15:17] --> decoded_text[14:15] 'ズ' --> 'ズ'",
635
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
636
+ "replace text[41:43] --> decoded_text[38:39] 'ず' --> 'ず'",
637
+ "replace text[99:101] --> decoded_text[95:96] 'ジ' --> 'ジ'",
638
+ "replace text[107:109] --> decoded_text[102:103] 'で' --> 'で'"
639
+ ],
640
+ "n_oov_chars": 0,
641
+ "oov_ratio": 0.0,
642
+ "oov_charset": "[]"
643
+ },
644
+ {
645
+ "text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
646
+ "decoded_text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
647
+ "diff": [
648
+ "replace text[27:29] --> decoded_text[27:28] 'が' --> 'が'",
649
+ "replace text[31:33] --> decoded_text[30:31] 'ば' --> 'ば'",
650
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'"
651
+ ],
652
+ "n_oov_chars": 0,
653
+ "oov_ratio": 0.0,
654
+ "oov_charset": "[]"
655
+ },
656
+ {
657
+ "text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったて��す。",
658
+ "decoded_text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったです。",
659
+ "diff": [
660
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
661
+ "replace text[15:17] --> decoded_text[14:15] 'で' --> 'で'",
662
+ "replace text[19:21] --> decoded_text[17:18] 'バ' --> 'バ'",
663
+ "replace text[40:42] --> decoded_text[37:38] 'が' --> 'が'",
664
+ "replace text[47:49] --> decoded_text[43:44] 'で' --> 'で'",
665
+ "replace text[50:52] --> decoded_text[45:46] 'が' --> 'が'",
666
+ "replace text[57:59] --> decoded_text[51:52] 'が' --> 'が'",
667
+ "replace text[79:81] --> decoded_text[72:73] 'で' --> 'で'"
668
+ ],
669
+ "n_oov_chars": 0,
670
+ "oov_ratio": 0.0,
671
+ "oov_charset": "[]"
672
+ },
673
+ {
674
+ "text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
675
+ "decoded_text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
676
+ "diff": [
677
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
678
+ "replace text[36:38] --> decoded_text[35:36] 'ず' --> 'ず'",
679
+ "replace text[70:72] --> decoded_text[68:69] 'が' --> 'が'",
680
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'",
681
+ "replace text[85:87] --> decoded_text[81:82] 'じ' --> 'じ'"
682
+ ],
683
+ "n_oov_chars": 0,
684
+ "oov_ratio": 0.0,
685
+ "oov_charset": "[]"
686
+ },
687
+ {
688
+ "text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
689
+ "decoded_text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
690
+ "diff": [
691
+ "replace text[16:18] --> decoded_text[16:17] 'じ' --> 'じ'",
692
+ "replace text[50:52] --> decoded_text[49:50] 'で' --> 'で'"
693
+ ],
694
+ "n_oov_chars": 0,
695
+ "oov_ratio": 0.0,
696
+ "oov_charset": "[]"
697
+ },
698
+ {
699
+ "text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
700
+ "decoded_text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
701
+ "diff": [
702
+ "replace text[35:37] --> decoded_text[35:36] 'だ' --> 'だ'"
703
+ ],
704
+ "n_oov_chars": 0,
705
+ "oov_ratio": 0.0,
706
+ "oov_charset": "[]"
707
+ },
708
+ {
709
+ "text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
710
+ "decoded_text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
711
+ "diff": [
712
+ "replace text[6:8] --> decoded_text[6:7] 'じ' --> 'じ'",
713
+ "replace text[16:18] --> decoded_text[15:16] 'で' --> 'で'",
714
+ "replace text[19:21] --> decoded_text[17:18] 'だ' --> 'だ'",
715
+ "replace text[26:28] --> decoded_text[23:24] 'が' --> 'が'",
716
+ "replace text[31:33] --> decoded_text[27:28] 'ぶ' --> 'ぶ'",
717
+ "replace text[34:38] --> decoded_text[29:31] 'ずで' --> 'ずで'"
718
+ ],
719
+ "n_oov_chars": 0,
720
+ "oov_ratio": 0.0,
721
+ "oov_charset": "[]"
722
+ },
723
+ {
724
+ "text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
725
+ "decoded_text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
726
+ "diff": [
727
+ "replace text[19:21] --> decoded_text[19:20] 'ば' --> 'ば'",
728
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
729
+ "replace text[35:37] --> decoded_text[33:34] 'で' --> 'で'",
730
+ "replace text[42:44] --> decoded_text[39:40] 'だ' --> 'だ'"
731
+ ],
732
+ "n_oov_chars": 0,
733
+ "oov_ratio": 0.0,
734
+ "oov_charset": "[]"
735
+ },
736
+ {
737
+ "text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネ��トで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
738
+ "decoded_text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネットで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
739
+ "diff": [
740
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
741
+ "replace text[27:29] --> decoded_text[26:27] 'ず' --> 'ず'",
742
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
743
+ "replace text[50:52] --> decoded_text[47:48] 'で' --> 'で'",
744
+ "replace text[53:55] --> decoded_text[49:50] 'べ' --> 'べ'",
745
+ "replace text[69:71] --> decoded_text[64:65] 'が' --> 'が'",
746
+ "replace text[73:75] --> decoded_text[67:68] 'だ' --> 'だ'",
747
+ "replace text[82:84] --> decoded_text[75:76] 'が' --> 'が'",
748
+ "replace text[87:89] --> decoded_text[79:80] 'で' --> 'で'",
749
+ "replace text[92:94] --> decoded_text[83:84] 'で' --> 'で'",
750
+ "replace text[111:113] --> decoded_text[101:102] 'で' --> 'で'"
751
+ ],
752
+ "n_oov_chars": 0,
753
+ "oov_ratio": 0.0,
754
+ "oov_charset": "[]"
755
+ },
756
+ {
757
+ "text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
758
+ "decoded_text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
759
+ "diff": [
760
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
761
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
762
+ "replace text[12:14] --> decoded_text[10:11] 'が' --> 'が'",
763
+ "replace text[38:40] --> decoded_text[35:36] 'で' --> 'で'",
764
+ "replace text[41:43] --> decoded_text[37:38] 'だ' --> 'だ'"
765
+ ],
766
+ "n_oov_chars": 0,
767
+ "oov_ratio": 0.0,
768
+ "oov_charset": "[]"
769
+ },
770
+ {
771
+ "text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
772
+ "decoded_text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
773
+ "diff": [
774
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
775
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
776
+ "replace text[28:30] --> decoded_text[26:27] 'で' --> 'で'",
777
+ "replace text[32:34] --> decoded_text[29:30] 'ず' --> 'ず'",
778
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'"
779
+ ],
780
+ "n_oov_chars": 0,
781
+ "oov_ratio": 0.0,
782
+ "oov_charset": "[]"
783
+ },
784
+ {
785
+ "text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
786
+ "decoded_text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
787
+ "diff": [
788
+ "replace text[31:33] --> decoded_text[31:32] 'が' --> 'が'",
789
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
790
+ "replace text[52:54] --> decoded_text[50:51] 'だ' --> 'だ'",
791
+ "replace text[65:67] --> decoded_text[62:63] 'で' --> 'で'"
792
+ ],
793
+ "n_oov_chars": 0,
794
+ "oov_ratio": 0.0,
795
+ "oov_charset": "[]"
796
+ },
797
+ {
798
+ "text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
799
+ "decoded_text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
800
+ "diff": [
801
+ "replace text[15:17] --> decoded_text[15:16] 'ず' --> 'ず'",
802
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
803
+ "replace text[35:37] --> decoded_text[33:34] 'が' --> 'が'",
804
+ "replace text[40:42] --> decoded_text[37:38] 'で' --> 'で'"
805
+ ],
806
+ "n_oov_chars": 0,
807
+ "oov_ratio": 0.0,
808
+ "oov_charset": "[]"
809
+ },
810
+ {
811
+ "text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。この資格を就職でも活かしたいと思います。",
812
+ "decoded_text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。���の資格を就職でも活かしたいと思います。",
813
+ "diff": [
814
+ "replace text[42:44] --> decoded_text[42:43] 'で' --> 'で'",
815
+ "replace text[53:55] --> decoded_text[52:53] 'で' --> 'で'"
816
+ ],
817
+ "n_oov_chars": 0,
818
+ "oov_ratio": 0.0,
819
+ "oov_charset": "[]"
820
+ },
821
+ {
822
+ "text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
823
+ "decoded_text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
824
+ "diff": [
825
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
826
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
827
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
828
+ "replace text[36:38] --> decoded_text[33:34] 'ず' --> 'ず'",
829
+ "replace text[51:53] --> decoded_text[47:48] 'だ' --> 'だ'"
830
+ ],
831
+ "n_oov_chars": 0,
832
+ "oov_ratio": 0.0,
833
+ "oov_charset": "[]"
834
+ },
835
+ {
836
+ "text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
837
+ "decoded_text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
838
+ "diff": [
839
+ "replace text[11:13] --> decoded_text[11:12] 'が' --> 'が'",
840
+ "replace text[17:19] --> decoded_text[16:17] 'で' --> 'で'",
841
+ "replace text[29:31] --> decoded_text[27:28] 'で' --> 'で'",
842
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'",
843
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
844
+ ],
845
+ "n_oov_chars": 0,
846
+ "oov_ratio": 0.0,
847
+ "oov_charset": "[]"
848
+ },
849
+ {
850
+ "text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
851
+ "decoded_text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
852
+ "diff": [
853
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
854
+ "replace text[15:17] --> decoded_text[14:15] 'だ' --> 'だ'",
855
+ "replace text[21:23] --> decoded_text[19:20] 'で' --> 'で'",
856
+ "replace text[51:53] --> decoded_text[48:49] 'で' --> 'で'",
857
+ "replace text[54:56] --> decoded_text[50:51] 'が' --> 'が'",
858
+ "replace text[61:63] --> decoded_text[56:57] 'で' --> 'で'",
859
+ "replace text[89:91] --> decoded_text[83:84] 'で' --> 'で'"
860
+ ],
861
+ "n_oov_chars": 0,
862
+ "oov_ratio": 0.0,
863
+ "oov_charset": "[]"
864
+ },
865
+ {
866
+ "text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
867
+ "decoded_text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
868
+ "diff": [
869
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
870
+ "replace text[10:12] --> decoded_text[9:10] 'だ' --> 'だ'",
871
+ "replace text[45:47] --> decoded_text[43:44] 'べ' --> 'べ'",
872
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
873
+ ],
874
+ "n_oov_chars": 0,
875
+ "oov_ratio": 0.0,
876
+ "oov_charset": "[]"
877
+ },
878
+ {
879
+ "text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
880
+ "decoded_text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
881
+ "diff": [
882
+ "replace text[46:48] --> decoded_text[46:47] 'べ' --> 'べ'",
883
+ "replace text[49:51] --> decoded_text[48:49] 'だ' --> 'だ'",
884
+ "replace text[74:76] --> decoded_text[72:73] 'プ' --> 'プ'"
885
+ ],
886
+ "n_oov_chars": 0,
887
+ "oov_ratio": 0.0,
888
+ "oov_charset": "[]"
889
+ },
890
+ {
891
+ "text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
892
+ "decoded_text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
893
+ "diff": [
894
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
895
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
896
+ "replace text[48:50] --> decoded_text[46:47] 'だ' --> 'だ'",
897
+ "replace text[53:55] --> decoded_text[50:51] 'で' --> 'で'",
898
+ "replace text[60:62] --> decoded_text[56:57] 'が' --> 'が'"
899
+ ],
900
+ "n_oov_chars": 0,
901
+ "oov_ratio": 0.0,
902
+ "oov_charset": "[]"
903
+ },
904
+ {
905
+ "text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
906
+ "decoded_text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
907
+ "diff": [
908
+ "replace text[9:11] --> decoded_text[9:10] 'ど' --> 'ど'",
909
+ "replace text[22:24] --> decoded_text[21:22] 'ず' --> 'ず'",
910
+ "replace text[40:42] --> decoded_text[38:39] 'が' --> 'が'",
911
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
912
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
913
+ ],
914
+ "n_oov_chars": 0,
915
+ "oov_ratio": 0.0,
916
+ "oov_charset": "[]"
917
+ },
918
+ {
919
+ "text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
920
+ "decoded_text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
921
+ "diff": [
922
+ "replace text[28:30] --> decoded_text[28:29] 'ぱ' --> 'ぱ'",
923
+ "replace text[39:41] --> decoded_text[38:39] 'で' --> 'で'",
924
+ "replace text[64:66] --> decoded_text[62:63] 'で' --> 'で'",
925
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'"
926
+ ],
927
+ "n_oov_chars": 0,
928
+ "oov_ratio": 0.0,
929
+ "oov_charset": "[]"
930
+ },
931
+ {
932
+ "text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
933
+ "decoded_text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
934
+ "diff": [
935
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
936
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
937
+ "replace text[29:31] --> decoded_text[27:28] 'ど' --> 'ど'",
938
+ "replace text[67:69] --> decoded_text[64:65] 'だ' --> 'だ'",
939
+ "replace text[90:92] --> decoded_text[86:87] 'だ' --> 'だ'"
940
+ ],
941
+ "n_oov_chars": 0,
942
+ "oov_ratio": 0.0,
943
+ "oov_charset": "[]"
944
+ },
945
+ {
946
+ "text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
947
+ "decoded_text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
948
+ "diff": [
949
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
950
+ "replace text[10:12] --> decoded_text[9:10] 'が' --> 'が'",
951
+ "replace text[44:46] --> decoded_text[42:43] 'ば' --> 'ば'",
952
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
953
+ ],
954
+ "n_oov_chars": 0,
955
+ "oov_ratio": 0.0,
956
+ "oov_charset": "[]"
957
+ },
958
+ {
959
+ "text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも��く、無事合格できました。",
960
+ "decoded_text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも無く、無事合格できました。",
961
+ "diff": [
962
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
963
+ "replace text[29:31] --> decoded_text[28:29] 'で' --> 'で'",
964
+ "replace text[47:49] --> decoded_text[45:46] 'で' --> 'で'",
965
+ "replace text[63:65] --> decoded_text[60:61] 'で' --> 'で'",
966
+ "replace text[82:84] --> decoded_text[78:79] 'で' --> 'で'"
967
+ ],
968
+ "n_oov_chars": 0,
969
+ "oov_ratio": 0.0,
970
+ "oov_charset": "[]"
971
+ },
972
+ {
973
+ "text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
974
+ "decoded_text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
975
+ "diff": [
976
+ "replace text[23:25] --> decoded_text[23:24] 'で' --> 'で'",
977
+ "replace text[26:28] --> decoded_text[25:26] 'じ' --> 'じ'",
978
+ "replace text[35:37] --> decoded_text[33:34] 'ば' --> 'ば'"
979
+ ],
980
+ "n_oov_chars": 0,
981
+ "oov_ratio": 0.0,
982
+ "oov_charset": "[]"
983
+ },
984
+ {
985
+ "text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
986
+ "decoded_text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
987
+ "diff": [
988
+ "replace text[5:7] --> decoded_text[5:6] 'だ' --> 'だ'",
989
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
990
+ "replace text[15:17] --> decoded_text[13:14] 'で' --> 'で'",
991
+ "replace text[18:20] --> decoded_text[15:16] 'プ' --> 'プ'",
992
+ "replace text[50:52] --> decoded_text[46:47] 'で' --> 'で'",
993
+ "replace text[55:57] --> decoded_text[50:51] 'で' --> 'で'",
994
+ "replace text[81:85] --> decoded_text[75:77] 'がで' --> 'がで'",
995
+ "replace text[88:90] --> decoded_text[80:81] 'で' --> 'で'"
996
+ ],
997
+ "n_oov_chars": 0,
998
+ "oov_ratio": 0.0,
999
+ "oov_charset": "[]"
1000
+ },
1001
+ {
1002
+ "text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1003
+ "decoded_text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1004
+ "diff": [
1005
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
1006
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
1007
+ "replace text[16:18] --> decoded_text[14:15] 'が' --> 'が'",
1008
+ "replace text[20:22] --> decoded_text[17:18] 'ば' --> 'ば'",
1009
+ "replace text[23:25] --> decoded_text[19:20] 'ぜ' --> 'ぜ'",
1010
+ "replace text[34:36] --> decoded_text[29:30] 'べ' --> 'べ'",
1011
+ "replace text[37:39] --> decoded_text[31:32] 'だ' --> 'だ'"
1012
+ ],
1013
+ "n_oov_chars": 0,
1014
+ "oov_ratio": 0.0,
1015
+ "oov_charset": "[]"
1016
+ },
1017
+ {
1018
+ "text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1019
+ "decoded_text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1020
+ "diff": [
1021
+ "replace text[12:14] --> decoded_text[12:13] 'で' --> 'で'",
1022
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
1023
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
1024
+ "replace text[47:49] --> decoded_text[44:45] 'で' --> 'で'",
1025
+ "replace text[71:73] --> decoded_text[67:68] 'で' --> 'で'",
1026
+ "replace text[75:77] --> decoded_text[70:71] 'だ' --> 'だ'",
1027
+ "replace text[78:80] --> decoded_text[72:73] 'で' --> 'で'"
1028
+ ],
1029
+ "n_oov_chars": 0,
1030
+ "oov_ratio": 0.0,
1031
+ "oov_charset": "[]"
1032
+ },
1033
+ {
1034
+ "text": "資格を取りたいという気持ちがあれば��丈夫です。頑張ってください。",
1035
+ "decoded_text": "資格を取りたいという気持ちがあれば大丈夫です。頑張ってください。",
1036
+ "diff": [
1037
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
1038
+ "replace text[17:19] --> decoded_text[16:17] 'ば' --> 'ば'",
1039
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
1040
+ "replace text[31:33] --> decoded_text[28:29] 'だ' --> 'だ'"
1041
+ ],
1042
+ "n_oov_chars": 0,
1043
+ "oov_ratio": 0.0,
1044
+ "oov_charset": "[]"
1045
+ }
1046
+ ]
stats/compression_rate/Qwen.Qwen3-235B-A22B-Thinking-2507 @ cc100.ko.diff.json ADDED
@@ -0,0 +1,216 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
4
+ "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.006211180124223602,
10
+ "oov_charset": "[\"樂\"]"
11
+ },
12
+ {
13
+ "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
14
+ "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
15
+ "diff": [
16
+ "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'",
17
+ "replace text[401:402] --> decoded_text[401:402] '累' --> '累'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.004784688995215311,
21
+ "oov_charset": "[\"樂\", \"累\"]"
22
+ },
23
+ {
24
+ "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
25
+ "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
26
+ "diff": [
27
+ "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.007936507936507936,
31
+ "oov_charset": "[\"陸\"]"
32
+ },
33
+ {
34
+ "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
35
+ "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
36
+ "diff": [
37
+ "replace text[108:109] --> decoded_text[108:109] '良' --> '良'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.007692307692307693,
41
+ "oov_charset": "[\"良\"]"
42
+ },
43
+ {
44
+ "text": "▷주자:이(理)�� 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
45
+ "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
46
+ "diff": [
47
+ "replace text[6:7] --> decoded_text[6:7] '理' --> '理'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.013513513513513514,
51
+ "oov_charset": "[\"理\"]"
52
+ },
53
+ {
54
+ "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
55
+ "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
56
+ "diff": [
57
+ "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.004629629629629629,
61
+ "oov_charset": "[\"樂\"]"
62
+ },
63
+ {
64
+ "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
65
+ "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
66
+ "diff": [
67
+ "replace text[3:4] --> decoded_text[3:4] '立' --> '立'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.007874015748031496,
71
+ "oov_charset": "[\"立\"]"
72
+ },
73
+ {
74
+ "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
75
+ "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
76
+ "diff": [
77
+ "replace text[27:28] --> decoded_text[27:28] '金' --> '金'",
78
+ "replace text[63:64] --> decoded_text[63:64] '金' --> '金'",
79
+ "replace text[119:120] --> decoded_text[119:120] '金' --> '金'"
80
+ ],
81
+ "n_oov_chars": 3,
82
+ "oov_ratio": 0.023622047244094488,
83
+ "oov_charset": "[\"金\"]"
84
+ },
85
+ {
86
+ "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
87
+ "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
88
+ "diff": [
89
+ "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'"
90
+ ],
91
+ "n_oov_chars": 1,
92
+ "oov_ratio": 0.017543859649122806,
93
+ "oov_charset": "[\"梁\"]"
94
+ },
95
+ {
96
+ "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
97
+ "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
98
+ "diff": [
99
+ "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'"
100
+ ],
101
+ "n_oov_chars": 1,
102
+ "oov_ratio": 0.011363636363636364,
103
+ "oov_charset": "[\"樂\"]"
104
+ },
105
+ {
106
+ "text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
107
+ "decoded_text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
108
+ "diff": [
109
+ "replace text[239:240] --> decoded_text[239:240] '金' --> '金'"
110
+ ],
111
+ "n_oov_chars": 1,
112
+ "oov_ratio": 0.002421307506053269,
113
+ "oov_charset": "[\"金\"]"
114
+ },
115
+ {
116
+ "text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
117
+ "decoded_text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
118
+ "diff": [
119
+ "replace text[77:78] --> decoded_text[77:78] '不' --> '不'"
120
+ ],
121
+ "n_oov_chars": 1,
122
+ "oov_ratio": 0.008,
123
+ "oov_charset": "[\"不\"]"
124
+ },
125
+ {
126
+ "text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
127
+ "decoded_text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
128
+ "diff": [
129
+ "replace text[32:33] --> decoded_text[32:33] '金' --> '金'"
130
+ ],
131
+ "n_oov_chars": 1,
132
+ "oov_ratio": 0.007874015748031496,
133
+ "oov_charset": "[\"金\"]"
134
+ },
135
+ {
136
+ "text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
137
+ "decoded_text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
138
+ "diff": [
139
+ "replace text[75:76] --> decoded_text[75:76] '不' --> '不'"
140
+ ],
141
+ "n_oov_chars": 1,
142
+ "oov_ratio": 0.0078125,
143
+ "oov_charset": "[\"不\"]"
144
+ },
145
+ {
146
+ "text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
147
+ "decoded_text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
148
+ "diff": [
149
+ "replace text[0:1] --> decoded_text[0:1] '不' --> '不'"
150
+ ],
151
+ "n_oov_chars": 1,
152
+ "oov_ratio": 0.017857142857142856,
153
+ "oov_charset": "[\"不\"]"
154
+ },
155
+ {
156
+ "text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있었다. 그는 천황의 지시하는 일",
157
+ "decoded_text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있���다. 그는 천황의 지시하는 일",
158
+ "diff": [
159
+ "replace text[31:32] --> decoded_text[31:32] '龍' --> '龍'"
160
+ ],
161
+ "n_oov_chars": 1,
162
+ "oov_ratio": 0.017543859649122806,
163
+ "oov_charset": "[\"龍\"]"
164
+ },
165
+ {
166
+ "text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
167
+ "decoded_text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
168
+ "diff": [
169
+ "replace text[38:39] --> decoded_text[38:39] '龍' --> '龍'"
170
+ ],
171
+ "n_oov_chars": 1,
172
+ "oov_ratio": 0.017857142857142856,
173
+ "oov_charset": "[\"龍\"]"
174
+ },
175
+ {
176
+ "text": "라 영약(靈藥)뿐이였다.",
177
+ "decoded_text": "라 영약(靈藥)뿐이였다.",
178
+ "diff": [
179
+ "replace text[5:6] --> decoded_text[5:6] '靈' --> '靈'"
180
+ ],
181
+ "n_oov_chars": 1,
182
+ "oov_ratio": 0.07692307692307693,
183
+ "oov_charset": "[\"靈\"]"
184
+ },
185
+ {
186
+ "text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
187
+ "decoded_text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
188
+ "diff": [
189
+ "replace text[13:14] --> decoded_text[13:14] '女' --> '女'",
190
+ "replace text[18:19] --> decoded_text[18:19] '女' --> '女'"
191
+ ],
192
+ "n_oov_chars": 2,
193
+ "oov_ratio": 0.0425531914893617,
194
+ "oov_charset": "[\"女\"]"
195
+ },
196
+ {
197
+ "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
198
+ "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상���성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
199
+ "diff": [
200
+ "replace text[809:810] --> decoded_text[809:810] '流' --> '流'"
201
+ ],
202
+ "n_oov_chars": 1,
203
+ "oov_ratio": 0.0009000900090009,
204
+ "oov_charset": "[\"流\"]"
205
+ },
206
+ {
207
+ "text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
208
+ "decoded_text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
209
+ "diff": [
210
+ "replace text[19:20] --> decoded_text[19:20] '識' --> '識'"
211
+ ],
212
+ "n_oov_chars": 1,
213
+ "oov_ratio": 0.0018083182640144665,
214
+ "oov_charset": "[\"識\"]"
215
+ }
216
+ ]
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ar.diff.json ADDED
The diff for this file is too large to render. See raw diff
 
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.de.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
4
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
5
+ "diff": [
6
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
14
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
15
+ "diff": [
16
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
24
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
25
+ "diff": [
26
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
34
+ "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
35
+ "diff": [
36
+ "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'",
37
+ "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
45
+ "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
46
+ "diff": [
47
+ "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'",
48
+ "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'",
49
+ "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'",
50
+ "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'",
51
+ "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'",
52
+ "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'",
53
+ "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'",
54
+ "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'",
55
+ "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'",
56
+ "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
64
+ "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
65
+ "diff": [
66
+ "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'",
67
+ "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
75
+ "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
76
+ "diff": [
77
+ "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'",
78
+ "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'",
79
+ "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'",
80
+ "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'",
81
+ "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'",
82
+ "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'"
83
+ ],
84
+ "n_oov_chars": 0,
85
+ "oov_ratio": 0.0,
86
+ "oov_charset": "[]"
87
+ },
88
+ {
89
+ "text": "‹ Herzlichen Dank für all Ihre Spenden!",
90
+ "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!",
91
+ "diff": [
92
+ "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'"
93
+ ],
94
+ "n_oov_chars": 0,
95
+ "oov_ratio": 0.0,
96
+ "oov_charset": "[]"
97
+ },
98
+ {
99
+ "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
100
+ "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
101
+ "diff": [
102
+ "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'",
103
+ "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'"
104
+ ],
105
+ "n_oov_chars": 0,
106
+ "oov_ratio": 0.0,
107
+ "oov_charset": "[]"
108
+ }
109
+ ]
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.fa.diff.json ADDED
@@ -0,0 +1,248 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
4
+ "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
5
+ "diff": [
6
+ "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'",
7
+ "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''",
8
+ "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'",
9
+ "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''",
10
+ "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'",
11
+ "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''"
12
+ ],
13
+ "n_oov_chars": 0,
14
+ "oov_ratio": 0.0,
15
+ "oov_charset": "[]"
16
+ },
17
+ {
18
+ "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
19
+ "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
20
+ "diff": [
21
+ "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'",
22
+ "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''",
23
+ "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'",
24
+ "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''"
25
+ ],
26
+ "n_oov_chars": 0,
27
+ "oov_ratio": 0.0,
28
+ "oov_charset": "[]"
29
+ },
30
+ {
31
+ "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
32
+ "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
33
+ "diff": [
34
+ "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'",
35
+ "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''",
36
+ "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'",
37
+ "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''",
38
+ "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'",
39
+ "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''",
40
+ "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'",
41
+ "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''"
42
+ ],
43
+ "n_oov_chars": 0,
44
+ "oov_ratio": 0.0,
45
+ "oov_charset": "[]"
46
+ },
47
+ {
48
+ "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
49
+ "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
50
+ "diff": [
51
+ "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'",
52
+ "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''",
53
+ "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'",
54
+ "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''",
55
+ "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'",
56
+ "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
64
+ "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
65
+ "diff": [
66
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
67
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
75
+ "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
76
+ "diff": [
77
+ "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'",
78
+ "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''",
79
+ "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'",
80
+ "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''",
81
+ "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'",
82
+ "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''",
83
+ "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'",
84
+ "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''"
85
+ ],
86
+ "n_oov_chars": 0,
87
+ "oov_ratio": 0.0,
88
+ "oov_charset": "[]"
89
+ },
90
+ {
91
+ "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
92
+ "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
93
+ "diff": [
94
+ "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'",
95
+ "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'",
96
+ "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'",
97
+ "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'",
98
+ "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''",
99
+ "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'",
100
+ "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ },
106
+ {
107
+ "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
108
+ "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گن��هکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
109
+ "diff": [
110
+ "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'",
111
+ "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'",
112
+ "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''",
113
+ "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
121
+ "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
122
+ "diff": [
123
+ "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'",
124
+ "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'",
125
+ "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'",
126
+ "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'",
127
+ "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'",
128
+ "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'"
129
+ ],
130
+ "n_oov_chars": 0,
131
+ "oov_ratio": 0.0,
132
+ "oov_charset": "[]"
133
+ },
134
+ {
135
+ "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
136
+ "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
137
+ "diff": [
138
+ "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'",
139
+ "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''"
140
+ ],
141
+ "n_oov_chars": 0,
142
+ "oov_ratio": 0.0,
143
+ "oov_charset": "[]"
144
+ },
145
+ {
146
+ "text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
147
+ "decoded_text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
148
+ "diff": [
149
+ "replace text[174:183] --> decoded_text[174:183] 'ِّکَ الَّ' --> 'ِّکَ الَّ'",
150
+ "replace text[344:346] --> decoded_text[344:346] 'ِّ' --> 'ِّ'",
151
+ "replace text[366:368] --> decoded_text[366:368] 'َّ' --> 'َّ'",
152
+ "replace text[383:399] --> decoded_text[383:400] 'َّنِیِّ مِنَ الا' --> 'َّنِیِّ مِنَ الاُ'",
153
+ "delete text[400:401] --> decoded_text[401:401] 'ُ' --> ''"
154
+ ],
155
+ "n_oov_chars": 0,
156
+ "oov_ratio": 0.0,
157
+ "oov_charset": "[]"
158
+ },
159
+ {
160
+ "text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
161
+ "decoded_text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
162
+ "diff": [
163
+ "replace text[470:472] --> decoded_text[470:472] 'َّ' --> 'َّ'",
164
+ "replace text[491:493] --> decoded_text[491:493] 'َّ' --> 'َّ'",
165
+ "delete text[501:502] --> decoded_text[501:501] 'ّ' --> ''",
166
+ "insert text[503:503] --> decoded_text[502:503] '' --> 'ّ'",
167
+ "replace text[534:536] --> decoded_text[534:536] 'َّ' --> 'َّ'"
168
+ ],
169
+ "n_oov_chars": 0,
170
+ "oov_ratio": 0.0,
171
+ "oov_charset": "[]"
172
+ },
173
+ {
174
+ "text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
175
+ "decoded_text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
176
+ "diff": [
177
+ "insert text[288:288] --> decoded_text[288:289] '' --> 'ُ'",
178
+ "replace text[289:296] --> decoded_text[290:297] 'ُ بِالد' --> ' بِالدِ'",
179
+ "replace text[297:306] --> decoded_text[298:307] 'ِینِ والد' --> 'ینِ والدُ'",
180
+ "delete text[307:308] --> decoded_text[308:308] 'ُ' --> ''"
181
+ ],
182
+ "n_oov_chars": 0,
183
+ "oov_ratio": 0.0,
184
+ "oov_charset": "[]"
185
+ },
186
+ {
187
+ "text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
188
+ "decoded_text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
189
+ "diff": [
190
+ "insert text[210:210] --> decoded_text[210:211] '' --> 'َ'",
191
+ "delete text[211:212] --> decoded_text[212:212] 'َ' --> ''",
192
+ "insert text[254:254] --> decoded_text[254:255] '' --> 'َ'",
193
+ "delete text[255:256] --> decoded_text[256:256] 'َ' --> ''",
194
+ "insert text[420:420] --> decoded_text[420:421] '' --> 'َ'",
195
+ "replace text[421:432] --> decoded_text[422:433] 'َ یَومَ الن' --> ' یَومَ النَ'",
196
+ "delete text[433:434] --> decoded_text[434:434] 'َ' --> ''",
197
+ "insert text[468:468] --> decoded_text[468:469] '' --> 'َ'",
198
+ "delete text[469:470] --> decoded_text[470:470] 'َ' --> ''"
199
+ ],
200
+ "n_oov_chars": 0,
201
+ "oov_ratio": 0.0,
202
+ "oov_charset": "[]"
203
+ },
204
+ {
205
+ "text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
206
+ "decoded_text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
207
+ "diff": [
208
+ "insert text[58:58] --> decoded_text[58:59] '' --> 'ُ'",
209
+ "delete text[59:60] --> decoded_text[60:60] 'ُ' --> ''",
210
+ "insert text[65:65] --> decoded_text[65:66] '' --> 'َ'",
211
+ "delete text[66:67] --> decoded_text[67:67] 'َ' --> ''",
212
+ "insert text[408:408] --> decoded_text[408:409] '' --> 'َ'",
213
+ "delete text[409:410] --> decoded_text[410:410] 'َ' --> ''",
214
+ "insert text[427:427] --> decoded_text[427:428] '' --> 'ِ'",
215
+ "replace text[428:437] --> decoded_text[429:438] 'ِینِ والد' --> 'ینِ والدُ'",
216
+ "delete text[438:439] --> decoded_text[439:439] 'ُ' --> ''"
217
+ ],
218
+ "n_oov_chars": 0,
219
+ "oov_ratio": 0.0,
220
+ "oov_charset": "[]"
221
+ },
222
+ {
223
+ "text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
224
+ "decoded_text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
225
+ "diff": [
226
+ "insert text[57:57] --> decoded_text[57:58] '' --> 'َ'",
227
+ "delete text[58:59] --> decoded_text[59:59] 'َ' --> ''",
228
+ "insert text[78:78] --> decoded_text[78:79] '' --> 'َ'",
229
+ "delete text[79:80] --> decoded_text[80:80] 'َ' --> ''",
230
+ "insert text[232:232] --> decoded_text[232:233] '' --> 'َ'",
231
+ "delete text[233:234] --> decoded_text[234:234] 'َ' --> ''"
232
+ ],
233
+ "n_oov_chars": 0,
234
+ "oov_ratio": 0.0,
235
+ "oov_charset": "[]"
236
+ },
237
+ {
238
+ "text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
239
+ "decoded_text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
240
+ "diff": [
241
+ "insert text[56:56] --> decoded_text[56:57] '' --> 'َ'",
242
+ "delete text[57:58] --> decoded_text[58:58] 'َ' --> ''"
243
+ ],
244
+ "n_oov_chars": 0,
245
+ "oov_ratio": 0.0,
246
+ "oov_charset": "[]"
247
+ }
248
+ ]
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.fr.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Une Agence conseil en Communication et Coopération Décentralisée.",
4
+ "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.",
5
+ "diff": [
6
+ "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'",
7
+ "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'",
8
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
9
+ ],
10
+ "n_oov_chars": 0,
11
+ "oov_ratio": 0.0,
12
+ "oov_charset": "[]"
13
+ },
14
+ {
15
+ "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
16
+ "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
17
+ "diff": [
18
+ "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'",
19
+ "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'",
20
+ "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'",
21
+ "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'",
22
+ "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'"
23
+ ],
24
+ "n_oov_chars": 0,
25
+ "oov_ratio": 0.0,
26
+ "oov_charset": "[]"
27
+ },
28
+ {
29
+ "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
30
+ "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
31
+ "diff": [
32
+ "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'",
33
+ "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'",
34
+ "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'"
35
+ ],
36
+ "n_oov_chars": 0,
37
+ "oov_ratio": 0.0,
38
+ "oov_charset": "[]"
39
+ },
40
+ {
41
+ "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
42
+ "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
43
+ "diff": [
44
+ "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'",
45
+ "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'",
46
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
54
+ "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
55
+ "diff": [
56
+ "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'",
57
+ "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'",
58
+ "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'",
59
+ "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
67
+ "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
68
+ "diff": [
69
+ "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'",
70
+ "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'",
71
+ "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'"
72
+ ],
73
+ "n_oov_chars": 0,
74
+ "oov_ratio": 0.0,
75
+ "oov_charset": "[]"
76
+ },
77
+ {
78
+ "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
79
+ "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
80
+ "diff": [
81
+ "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'",
82
+ "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'",
83
+ "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'",
84
+ "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'",
85
+ "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'",
86
+ "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'",
87
+ "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
95
+ "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
96
+ "diff": [
97
+ "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'",
98
+ "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'",
99
+ "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'"
100
+ ],
101
+ "n_oov_chars": 0,
102
+ "oov_ratio": 0.0,
103
+ "oov_charset": "[]"
104
+ }
105
+ ]
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ja.diff.json ADDED
@@ -0,0 +1,1046 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
4
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
5
+ "diff": [
6
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
7
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
8
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
9
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
10
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
11
+ ],
12
+ "n_oov_chars": 0,
13
+ "oov_ratio": 0.0,
14
+ "oov_charset": "[]"
15
+ },
16
+ {
17
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
18
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
19
+ "diff": [
20
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
21
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
22
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
23
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
24
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
25
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
26
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
27
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
35
+ "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
36
+ "diff": [
37
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
38
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
39
+ "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
40
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
41
+ "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
42
+ "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
43
+ "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
44
+ ],
45
+ "n_oov_chars": 0,
46
+ "oov_ratio": 0.0,
47
+ "oov_charset": "[]"
48
+ },
49
+ {
50
+ "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
51
+ "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
52
+ "diff": [
53
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
54
+ "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
55
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
56
+ "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
57
+ "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
58
+ "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
66
+ "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
67
+ "diff": [
68
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
69
+ "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
70
+ "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
71
+ "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
72
+ "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
73
+ "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
74
+ "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
75
+ ],
76
+ "n_oov_chars": 0,
77
+ "oov_ratio": 0.0,
78
+ "oov_charset": "[]"
79
+ },
80
+ {
81
+ "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
82
+ "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
83
+ "diff": [
84
+ "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
85
+ "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
86
+ "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
87
+ "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
95
+ "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
96
+ "diff": [
97
+ "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
98
+ "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
99
+ "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
100
+ "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
101
+ "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
102
+ ],
103
+ "n_oov_chars": 0,
104
+ "oov_ratio": 0.0,
105
+ "oov_charset": "[]"
106
+ },
107
+ {
108
+ "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
109
+ "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
110
+ "diff": [
111
+ "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
112
+ "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
113
+ "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
121
+ "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
122
+ "diff": [
123
+ "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
124
+ "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
125
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
126
+ ],
127
+ "n_oov_chars": 0,
128
+ "oov_ratio": 0.0,
129
+ "oov_charset": "[]"
130
+ },
131
+ {
132
+ "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
133
+ "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
134
+ "diff": [
135
+ "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
136
+ "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
137
+ ],
138
+ "n_oov_chars": 0,
139
+ "oov_ratio": 0.0,
140
+ "oov_charset": "[]"
141
+ },
142
+ {
143
+ "text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
144
+ "decoded_text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
145
+ "diff": [
146
+ "replace text[4:6] --> decoded_text[4:5] 'ず' --> 'ず'",
147
+ "replace text[14:16] --> decoded_text[13:14] 'だ' --> 'だ'",
148
+ "replace text[28:30] --> decoded_text[26:27] 'が' --> 'が'",
149
+ "replace text[34:36] --> decoded_text[31:32] 'だ' --> 'だ'",
150
+ "replace text[52:54] --> decoded_text[48:49] 'で' --> 'で'",
151
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'"
152
+ ],
153
+ "n_oov_chars": 0,
154
+ "oov_ratio": 0.0,
155
+ "oov_charset": "[]"
156
+ },
157
+ {
158
+ "text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
159
+ "decoded_text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
160
+ "diff": [
161
+ "replace text[34:36] --> decoded_text[34:35] 'で' --> 'で'",
162
+ "replace text[83:85] --> decoded_text[82:83] 'だ' --> 'だ'",
163
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'",
164
+ "replace text[92:94] --> decoded_text[89:90] 'で' --> 'で'",
165
+ "replace text[99:101] --> decoded_text[95:96] 'で' --> 'で'"
166
+ ],
167
+ "n_oov_chars": 0,
168
+ "oov_ratio": 0.0,
169
+ "oov_charset": "[]"
170
+ },
171
+ {
172
+ "text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
173
+ "decoded_text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
174
+ "diff": [
175
+ "replace text[26:28] --> decoded_text[26:27] 'で' --> 'で'"
176
+ ],
177
+ "n_oov_chars": 0,
178
+ "oov_ratio": 0.0,
179
+ "oov_charset": "[]"
180
+ },
181
+ {
182
+ "text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
183
+ "decoded_text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
184
+ "diff": [
185
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
186
+ "replace text[18:20] --> decoded_text[17:18] 'で' --> 'で'",
187
+ "replace text[29:31] --> decoded_text[27:28] 'だ' --> 'だ'",
188
+ "replace text[50:52] --> decoded_text[47:48] 'だ' --> 'だ'"
189
+ ],
190
+ "n_oov_chars": 0,
191
+ "oov_ratio": 0.0,
192
+ "oov_charset": "[]"
193
+ },
194
+ {
195
+ "text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
196
+ "decoded_text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
197
+ "diff": [
198
+ "replace text[2:4] --> decoded_text[2:3] 'ご' --> 'ご'",
199
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
200
+ "replace text[26:28] --> decoded_text[24:25] 'が' --> 'が'",
201
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
202
+ "replace text[43:45] --> decoded_text[39:40] 'で' --> 'で'",
203
+ "replace text[53:55] --> decoded_text[48:49] 'で' --> 'で'"
204
+ ],
205
+ "n_oov_chars": 0,
206
+ "oov_ratio": 0.0,
207
+ "oov_charset": "[]"
208
+ },
209
+ {
210
+ "text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
211
+ "decoded_text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
212
+ "diff": [
213
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
214
+ "replace text[8:10] --> decoded_text[7:8] 'が' --> 'が'",
215
+ "replace text[22:24] --> decoded_text[20:21] 'が' --> 'が'",
216
+ "replace text[34:36] --> decoded_text[31:32] 'ず' --> 'ず'",
217
+ "replace text[42:44] --> decoded_text[38:39] 'だ' --> 'だ'"
218
+ ],
219
+ "n_oov_chars": 0,
220
+ "oov_ratio": 0.0,
221
+ "oov_charset": "[]"
222
+ },
223
+ {
224
+ "text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたいです。",
225
+ "decoded_text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたい��す。",
226
+ "diff": [
227
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
228
+ "replace text[16:20] --> decoded_text[15:17] 'がで' --> 'がで'",
229
+ "replace text[35:37] --> decoded_text[32:33] 'で' --> 'で'",
230
+ "replace text[67:69] --> decoded_text[63:64] 'で' --> 'で'"
231
+ ],
232
+ "n_oov_chars": 0,
233
+ "oov_ratio": 0.0,
234
+ "oov_charset": "[]"
235
+ },
236
+ {
237
+ "text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
238
+ "decoded_text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
239
+ "diff": [
240
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
241
+ "replace text[39:41] --> decoded_text[38:39] 'ず' --> 'ず'",
242
+ "replace text[43:45] --> decoded_text[41:42] 'が' --> 'が'",
243
+ "replace text[49:51] --> decoded_text[46:47] 'だ' --> 'だ'"
244
+ ],
245
+ "n_oov_chars": 0,
246
+ "oov_ratio": 0.0,
247
+ "oov_charset": "[]"
248
+ },
249
+ {
250
+ "text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
251
+ "decoded_text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
252
+ "diff": [
253
+ "replace text[43:45] --> decoded_text[43:44] 'だ' --> 'だ'",
254
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'"
255
+ ],
256
+ "n_oov_chars": 0,
257
+ "oov_ratio": 0.0,
258
+ "oov_charset": "[]"
259
+ },
260
+ {
261
+ "text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
262
+ "decoded_text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
263
+ "diff": [
264
+ "replace text[1:3] --> decoded_text[1:2] 'び' --> 'び'",
265
+ "replace text[4:6] --> decoded_text[3:4] 'バ' --> 'バ'",
266
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
267
+ ],
268
+ "n_oov_chars": 0,
269
+ "oov_ratio": 0.0,
270
+ "oov_charset": "[]"
271
+ },
272
+ {
273
+ "text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
274
+ "decoded_text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
275
+ "diff": [
276
+ "replace text[21:23] --> decoded_text[21:22] 'で' --> 'で'",
277
+ "replace text[43:45] --> decoded_text[42:43] 'で' --> 'で'",
278
+ "replace text[64:66] --> decoded_text[62:63] 'ば' --> 'ば'",
279
+ "replace text[71:73] --> decoded_text[68:69] 'で' --> 'で'",
280
+ "replace text[102:104] --> decoded_text[98:99] 'で' --> 'で'"
281
+ ],
282
+ "n_oov_chars": 0,
283
+ "oov_ratio": 0.0,
284
+ "oov_charset": "[]"
285
+ },
286
+ {
287
+ "text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
288
+ "decoded_text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
289
+ "diff": [
290
+ "replace text[8:10] --> decoded_text[8:9] 'ぶ' --> 'ぶ'",
291
+ "replace text[35:37] --> decoded_text[34:35] 'だ' --> 'だ'"
292
+ ],
293
+ "n_oov_chars": 0,
294
+ "oov_ratio": 0.0,
295
+ "oov_charset": "[]"
296
+ },
297
+ {
298
+ "text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
299
+ "decoded_text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
300
+ "diff": [
301
+ "replace text[21:23] --> decoded_text[21:22] 'が' --> 'が'",
302
+ "replace text[31:33] --> decoded_text[30:31] 'で' --> 'で'",
303
+ "replace text[39:41] --> decoded_text[37:38] 'で' --> 'で'",
304
+ "replace text[68:70] --> decoded_text[65:66] 'で' --> 'で'"
305
+ ],
306
+ "n_oov_chars": 0,
307
+ "oov_ratio": 0.0,
308
+ "oov_charset": "[]"
309
+ },
310
+ {
311
+ "text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
312
+ "decoded_text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
313
+ "diff": [
314
+ "replace text[18:20] --> decoded_text[18:19] 'が' --> 'が'",
315
+ "replace text[26:28] --> decoded_text[25:26] 'で' --> 'で'",
316
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
317
+ ],
318
+ "n_oov_chars": 0,
319
+ "oov_ratio": 0.0,
320
+ "oov_charset": "[]"
321
+ },
322
+ {
323
+ "text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
324
+ "decoded_text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
325
+ "diff": [
326
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
327
+ "replace text[57:59] --> decoded_text[56:57] 'ビ' --> 'ビ'",
328
+ "replace text[62:64] --> decoded_text[60:61] 'プ' --> 'プ'",
329
+ "replace text[79:81] --> decoded_text[76:77] 'で' --> 'で'",
330
+ "replace text[93:95] --> decoded_text[89:90] 'で' --> 'で'",
331
+ "replace text[121:123] --> decoded_text[116:117] 'で' --> 'で'"
332
+ ],
333
+ "n_oov_chars": 0,
334
+ "oov_ratio": 0.0,
335
+ "oov_charset": "[]"
336
+ },
337
+ {
338
+ "text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
339
+ "decoded_text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
340
+ "diff": [
341
+ "replace text[3:5] --> decoded_text[3:4] 'が' --> 'が'",
342
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
343
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
344
+ "replace text[51:53] --> decoded_text[48:49] 'だ' --> 'だ'"
345
+ ],
346
+ "n_oov_chars": 0,
347
+ "oov_ratio": 0.0,
348
+ "oov_charset": "[]"
349
+ },
350
+ {
351
+ "text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
352
+ "decoded_text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
353
+ "diff": [
354
+ "replace text[14:16] --> decoded_text[14:15] 'ず' --> 'ず'",
355
+ "replace text[17:19] --> decoded_text[16:17] 'ど' --> 'ど'",
356
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
357
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
358
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'",
359
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'",
360
+ "replace text[58:62] --> decoded_text[52:54] 'だで' --> 'だで'",
361
+ "replace text[63:65] --> decoded_text[55:56] 'が' --> 'が'",
362
+ "replace text[71:73] --> decoded_text[62:63] 'が' --> 'が'",
363
+ "replace text[80:82] --> decoded_text[70:71] 'で' --> 'で'",
364
+ "replace text[119:121] --> decoded_text[108:109] 'で' --> 'で'"
365
+ ],
366
+ "n_oov_chars": 0,
367
+ "oov_ratio": 0.0,
368
+ "oov_charset": "[]"
369
+ },
370
+ {
371
+ "text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
372
+ "decoded_text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
373
+ "diff": [
374
+ "replace text[15:17] --> decoded_text[15:16] 'べ' --> 'べ'",
375
+ "replace text[23:25] --> decoded_text[22:23] 'が' --> 'が'",
376
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'",
377
+ "replace text[53:55] --> decoded_text[50:51] 'が' --> 'が'"
378
+ ],
379
+ "n_oov_chars": 0,
380
+ "oov_ratio": 0.0,
381
+ "oov_charset": "[]"
382
+ },
383
+ {
384
+ "text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
385
+ "decoded_text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
386
+ "diff": [
387
+ "replace text[32:34] --> decoded_text[32:33] 'で' --> 'で'",
388
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'",
389
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'"
390
+ ],
391
+ "n_oov_chars": 0,
392
+ "oov_ratio": 0.0,
393
+ "oov_charset": "[]"
394
+ },
395
+ {
396
+ "text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
397
+ "decoded_text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
398
+ "diff": [
399
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
400
+ "replace text[21:23] --> decoded_text[20:21] 'で' --> 'で'",
401
+ "replace text[38:40] --> decoded_text[36:37] 'で' --> 'で'",
402
+ "replace text[48:50] --> decoded_text[45:46] 'が' --> 'が'",
403
+ "replace text[52:54] --> decoded_text[48:49] 'だ' --> 'だ'"
404
+ ],
405
+ "n_oov_chars": 0,
406
+ "oov_ratio": 0.0,
407
+ "oov_charset": "[]"
408
+ },
409
+ {
410
+ "text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
411
+ "decoded_text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
412
+ "diff": [
413
+ "replace text[44:46] --> decoded_text[44:45] 'が' --> 'が'",
414
+ "replace text[71:73] --> decoded_text[70:71] 'が' --> 'が'",
415
+ "replace text[76:78] --> decoded_text[74:75] 'で' --> 'で'",
416
+ "replace text[83:85] --> decoded_text[80:81] 'だ' --> 'だ'",
417
+ "replace text[105:107] --> decoded_text[101:102] 'で' --> 'で'"
418
+ ],
419
+ "n_oov_chars": 0,
420
+ "oov_ratio": 0.0,
421
+ "oov_charset": "[]"
422
+ },
423
+ {
424
+ "text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
425
+ "decoded_text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
426
+ "diff": [
427
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
428
+ "replace text[23:25] --> decoded_text[22:23] 'ば' --> 'ば'",
429
+ "replace text[31:33] --> decoded_text[29:30] 'が' --> 'が'",
430
+ "replace text[36:38] --> decoded_text[33:34] 'で' --> 'で'",
431
+ "replace text[43:45] --> decoded_text[39:40] 'だ' --> 'だ'"
432
+ ],
433
+ "n_oov_chars": 0,
434
+ "oov_ratio": 0.0,
435
+ "oov_charset": "[]"
436
+ },
437
+ {
438
+ "text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
439
+ "decoded_text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
440
+ "diff": [
441
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
442
+ "replace text[11:13] --> decoded_text[10:11] 'で' --> 'で'",
443
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
444
+ "replace text[39:41] --> decoded_text[36:37] 'で' --> 'で'",
445
+ "replace text[70:72] --> decoded_text[66:67] 'だ' --> 'だ'",
446
+ "replace text[88:92] --> decoded_text[83:85] 'がで' --> 'がで'",
447
+ "replace text[95:97] --> decoded_text[88:89] 'で' --> 'で'",
448
+ "replace text[102:104] --> decoded_text[94:95] 'で' --> 'で'"
449
+ ],
450
+ "n_oov_chars": 0,
451
+ "oov_ratio": 0.0,
452
+ "oov_charset": "[]"
453
+ },
454
+ {
455
+ "text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
456
+ "decoded_text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
457
+ "diff": [
458
+ "replace text[15:17] --> decoded_text[15:16] 'で' --> 'で'",
459
+ "replace text[22:24] --> decoded_text[21:22] 'で' --> 'で'",
460
+ "replace text[25:27] --> decoded_text[23:24] 'が' --> 'が'",
461
+ "replace text[31:33] --> decoded_text[28:29] 'ば' --> 'ば'",
462
+ "replace text[40:42] --> decoded_text[36:37] 'で' --> 'で'",
463
+ "replace text[46:48] --> decoded_text[41:42] 'で' --> 'で'",
464
+ "replace text[55:57] --> decoded_text[49:50] 'だ' --> 'だ'"
465
+ ],
466
+ "n_oov_chars": 0,
467
+ "oov_ratio": 0.0,
468
+ "oov_charset": "[]"
469
+ },
470
+ {
471
+ "text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
472
+ "decoded_text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
473
+ "diff": [
474
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
475
+ "replace text[11:13] --> decoded_text[10:11] 'だ' --> 'だ'",
476
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
477
+ "replace text[83:85] --> decoded_text[80:81] 'で' --> 'で'",
478
+ "replace text[97:99] --> decoded_text[93:94] 'で' --> 'で'"
479
+ ],
480
+ "n_oov_chars": 0,
481
+ "oov_ratio": 0.0,
482
+ "oov_charset": "[]"
483
+ },
484
+ {
485
+ "text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
486
+ "decoded_text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
487
+ "diff": [
488
+ "replace text[20:22] --> decoded_text[20:21] 'で' --> 'で'",
489
+ "replace text[29:33] --> decoded_text[28:30] 'がで' --> 'がで'",
490
+ "replace text[53:55] --> decoded_text[50:51] 'だ' --> 'だ'"
491
+ ],
492
+ "n_oov_chars": 0,
493
+ "oov_ratio": 0.0,
494
+ "oov_charset": "[]"
495
+ },
496
+ {
497
+ "text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
498
+ "decoded_text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
499
+ "diff": [
500
+ "replace text[16:18] --> decoded_text[16:17] 'が' --> 'が'",
501
+ "replace text[32:34] --> decoded_text[31:32] 'で' --> 'で'",
502
+ "replace text[49:51] --> decoded_text[47:48] 'で' --> 'で'",
503
+ "replace text[60:62] --> decoded_text[57:58] 'で' --> 'で'"
504
+ ],
505
+ "n_oov_chars": 0,
506
+ "oov_ratio": 0.0,
507
+ "oov_charset": "[]"
508
+ },
509
+ {
510
+ "text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職して仕事に活かしていきたいと思います。",
511
+ "decoded_text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職��て仕事に活かしていきたいと思います。",
512
+ "diff": [
513
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
514
+ "replace text[37:39] --> decoded_text[36:37] 'が' --> 'が'",
515
+ "replace text[42:44] --> decoded_text[40:41] 'ず' --> 'ず'",
516
+ "replace text[52:54] --> decoded_text[49:50] 'だ' --> 'だ'",
517
+ "replace text[60:62] --> decoded_text[56:57] 'で' --> 'で'",
518
+ "replace text[71:73] --> decoded_text[66:67] 'で' --> 'で'",
519
+ "replace text[77:79] --> decoded_text[71:72] 'で' --> 'で'",
520
+ "replace text[101:103] --> decoded_text[94:95] 'で' --> 'で'"
521
+ ],
522
+ "n_oov_chars": 0,
523
+ "oov_ratio": 0.0,
524
+ "oov_charset": "[]"
525
+ },
526
+ {
527
+ "text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
528
+ "decoded_text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
529
+ "diff": [
530
+ "replace text[13:15] --> decoded_text[13:14] 'ば' --> 'ば'",
531
+ "replace text[17:19] --> decoded_text[16:17] 'ぐ' --> 'ぐ'",
532
+ "replace text[26:28] --> decoded_text[24:25] 'で' --> 'で'"
533
+ ],
534
+ "n_oov_chars": 0,
535
+ "oov_ratio": 0.0,
536
+ "oov_charset": "[]"
537
+ },
538
+ {
539
+ "text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
540
+ "decoded_text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
541
+ "diff": [
542
+ "replace text[18:20] --> decoded_text[18:19] 'だ' --> 'だ'",
543
+ "replace text[27:29] --> decoded_text[26:27] 'が' --> 'が'",
544
+ "replace text[69:71] --> decoded_text[67:68] 'で' --> 'で'",
545
+ "replace text[85:87] --> decoded_text[82:83] 'で' --> 'で'"
546
+ ],
547
+ "n_oov_chars": 0,
548
+ "oov_ratio": 0.0,
549
+ "oov_charset": "[]"
550
+ },
551
+ {
552
+ "text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
553
+ "decoded_text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
554
+ "diff": [
555
+ "replace text[11:13] --> decoded_text[11:12] 'で' --> 'で'",
556
+ "replace text[18:20] --> decoded_text[17:18] 'ど' --> 'ど'",
557
+ "replace text[23:25] --> decoded_text[21:22] 'が' --> 'が'",
558
+ "replace text[33:35] --> decoded_text[30:31] 'で' --> 'で'",
559
+ "replace text[44:46] --> decoded_text[40:41] 'ば' --> 'ば'",
560
+ "replace text[49:51] --> decoded_text[44:45] 'で' --> 'で'"
561
+ ],
562
+ "n_oov_chars": 0,
563
+ "oov_ratio": 0.0,
564
+ "oov_charset": "[]"
565
+ },
566
+ {
567
+ "text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
568
+ "decoded_text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
569
+ "diff": [
570
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
571
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
572
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
573
+ "replace text[29:31] --> decoded_text[26:27] 'だ' --> 'だ'",
574
+ "replace text[58:60] --> decoded_text[54:55] 'で' --> 'で'",
575
+ "replace text[64:66] --> decoded_text[59:60] 'が' --> 'が'",
576
+ "replace text[80:82] --> decoded_text[74:75] 'で' --> 'で'"
577
+ ],
578
+ "n_oov_chars": 0,
579
+ "oov_ratio": 0.0,
580
+ "oov_charset": "[]"
581
+ },
582
+ {
583
+ "text": "得意分野より苦手分野を克服することで合格に近づけると思います。最後まで諦めずに頑張ってください。",
584
+ "decoded_text": "得意分野より苦手分野を克服することで合格に近づけると���います。最後まで諦めずに頑張ってください。",
585
+ "diff": [
586
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
587
+ "replace text[23:25] --> decoded_text[22:23] 'づ' --> 'づ'",
588
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
589
+ "replace text[40:42] --> decoded_text[37:38] 'ず' --> 'ず'",
590
+ "replace text[48:50] --> decoded_text[44:45] 'だ' --> 'だ'"
591
+ ],
592
+ "n_oov_chars": 0,
593
+ "oov_ratio": 0.0,
594
+ "oov_charset": "[]"
595
+ },
596
+ {
597
+ "text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
598
+ "decoded_text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
599
+ "diff": [
600
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
601
+ "replace text[6:8] --> decoded_text[5:6] 'だ' --> 'だ'",
602
+ "replace text[11:13] --> decoded_text[9:10] 'で' --> 'で'",
603
+ "replace text[35:37] --> decoded_text[32:33] 'ず' --> 'ず'",
604
+ "replace text[49:51] --> decoded_text[45:46] 'で' --> 'で'",
605
+ "replace text[77:79] --> decoded_text[72:73] 'だ' --> 'だ'",
606
+ "replace text[80:82] --> decoded_text[74:75] 'だ' --> 'だ'"
607
+ ],
608
+ "n_oov_chars": 0,
609
+ "oov_ratio": 0.0,
610
+ "oov_charset": "[]"
611
+ },
612
+ {
613
+ "text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
614
+ "decoded_text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
615
+ "diff": [
616
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
617
+ "replace text[12:14] --> decoded_text[11:12] 'ぶ' --> 'ぶ'",
618
+ "replace text[22:24] --> decoded_text[20:21] 'ず' --> 'ず'",
619
+ "replace text[30:32] --> decoded_text[27:28] 'だ' --> 'だ'",
620
+ "replace text[37:39] --> decoded_text[33:34] 'だ' --> 'だ'",
621
+ "replace text[56:58] --> decoded_text[51:52] 'で' --> 'で'",
622
+ "replace text[60:62] --> decoded_text[54:55] 'で' --> 'で'",
623
+ "replace text[63:65] --> decoded_text[56:57] 'だ' --> 'だ'"
624
+ ],
625
+ "n_oov_chars": 0,
626
+ "oov_ratio": 0.0,
627
+ "oov_charset": "[]"
628
+ },
629
+ {
630
+ "text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
631
+ "decoded_text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
632
+ "diff": [
633
+ "replace text[12:14] --> decoded_text[12:13] 'ゴ' --> 'ゴ'",
634
+ "replace text[15:17] --> decoded_text[14:15] 'ズ' --> 'ズ'",
635
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
636
+ "replace text[41:43] --> decoded_text[38:39] 'ず' --> 'ず'",
637
+ "replace text[99:101] --> decoded_text[95:96] 'ジ' --> 'ジ'",
638
+ "replace text[107:109] --> decoded_text[102:103] 'で' --> 'で'"
639
+ ],
640
+ "n_oov_chars": 0,
641
+ "oov_ratio": 0.0,
642
+ "oov_charset": "[]"
643
+ },
644
+ {
645
+ "text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
646
+ "decoded_text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
647
+ "diff": [
648
+ "replace text[27:29] --> decoded_text[27:28] 'が' --> 'が'",
649
+ "replace text[31:33] --> decoded_text[30:31] 'ば' --> 'ば'",
650
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'"
651
+ ],
652
+ "n_oov_chars": 0,
653
+ "oov_ratio": 0.0,
654
+ "oov_charset": "[]"
655
+ },
656
+ {
657
+ "text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったて��す。",
658
+ "decoded_text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったです。",
659
+ "diff": [
660
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
661
+ "replace text[15:17] --> decoded_text[14:15] 'で' --> 'で'",
662
+ "replace text[19:21] --> decoded_text[17:18] 'バ' --> 'バ'",
663
+ "replace text[40:42] --> decoded_text[37:38] 'が' --> 'が'",
664
+ "replace text[47:49] --> decoded_text[43:44] 'で' --> 'で'",
665
+ "replace text[50:52] --> decoded_text[45:46] 'が' --> 'が'",
666
+ "replace text[57:59] --> decoded_text[51:52] 'が' --> 'が'",
667
+ "replace text[79:81] --> decoded_text[72:73] 'で' --> 'で'"
668
+ ],
669
+ "n_oov_chars": 0,
670
+ "oov_ratio": 0.0,
671
+ "oov_charset": "[]"
672
+ },
673
+ {
674
+ "text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
675
+ "decoded_text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
676
+ "diff": [
677
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
678
+ "replace text[36:38] --> decoded_text[35:36] 'ず' --> 'ず'",
679
+ "replace text[70:72] --> decoded_text[68:69] 'が' --> 'が'",
680
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'",
681
+ "replace text[85:87] --> decoded_text[81:82] 'じ' --> 'じ'"
682
+ ],
683
+ "n_oov_chars": 0,
684
+ "oov_ratio": 0.0,
685
+ "oov_charset": "[]"
686
+ },
687
+ {
688
+ "text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
689
+ "decoded_text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
690
+ "diff": [
691
+ "replace text[16:18] --> decoded_text[16:17] 'じ' --> 'じ'",
692
+ "replace text[50:52] --> decoded_text[49:50] 'で' --> 'で'"
693
+ ],
694
+ "n_oov_chars": 0,
695
+ "oov_ratio": 0.0,
696
+ "oov_charset": "[]"
697
+ },
698
+ {
699
+ "text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
700
+ "decoded_text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
701
+ "diff": [
702
+ "replace text[35:37] --> decoded_text[35:36] 'だ' --> 'だ'"
703
+ ],
704
+ "n_oov_chars": 0,
705
+ "oov_ratio": 0.0,
706
+ "oov_charset": "[]"
707
+ },
708
+ {
709
+ "text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
710
+ "decoded_text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
711
+ "diff": [
712
+ "replace text[6:8] --> decoded_text[6:7] 'じ' --> 'じ'",
713
+ "replace text[16:18] --> decoded_text[15:16] 'で' --> 'で'",
714
+ "replace text[19:21] --> decoded_text[17:18] 'だ' --> 'だ'",
715
+ "replace text[26:28] --> decoded_text[23:24] 'が' --> 'が'",
716
+ "replace text[31:33] --> decoded_text[27:28] 'ぶ' --> 'ぶ'",
717
+ "replace text[34:38] --> decoded_text[29:31] 'ずで' --> 'ずで'"
718
+ ],
719
+ "n_oov_chars": 0,
720
+ "oov_ratio": 0.0,
721
+ "oov_charset": "[]"
722
+ },
723
+ {
724
+ "text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
725
+ "decoded_text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
726
+ "diff": [
727
+ "replace text[19:21] --> decoded_text[19:20] 'ば' --> 'ば'",
728
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
729
+ "replace text[35:37] --> decoded_text[33:34] 'で' --> 'で'",
730
+ "replace text[42:44] --> decoded_text[39:40] 'だ' --> 'だ'"
731
+ ],
732
+ "n_oov_chars": 0,
733
+ "oov_ratio": 0.0,
734
+ "oov_charset": "[]"
735
+ },
736
+ {
737
+ "text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネ��トで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
738
+ "decoded_text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネットで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
739
+ "diff": [
740
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
741
+ "replace text[27:29] --> decoded_text[26:27] 'ず' --> 'ず'",
742
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
743
+ "replace text[50:52] --> decoded_text[47:48] 'で' --> 'で'",
744
+ "replace text[53:55] --> decoded_text[49:50] 'べ' --> 'べ'",
745
+ "replace text[69:71] --> decoded_text[64:65] 'が' --> 'が'",
746
+ "replace text[73:75] --> decoded_text[67:68] 'だ' --> 'だ'",
747
+ "replace text[82:84] --> decoded_text[75:76] 'が' --> 'が'",
748
+ "replace text[87:89] --> decoded_text[79:80] 'で' --> 'で'",
749
+ "replace text[92:94] --> decoded_text[83:84] 'で' --> 'で'",
750
+ "replace text[111:113] --> decoded_text[101:102] 'で' --> 'で'"
751
+ ],
752
+ "n_oov_chars": 0,
753
+ "oov_ratio": 0.0,
754
+ "oov_charset": "[]"
755
+ },
756
+ {
757
+ "text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
758
+ "decoded_text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
759
+ "diff": [
760
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
761
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
762
+ "replace text[12:14] --> decoded_text[10:11] 'が' --> 'が'",
763
+ "replace text[38:40] --> decoded_text[35:36] 'で' --> 'で'",
764
+ "replace text[41:43] --> decoded_text[37:38] 'だ' --> 'だ'"
765
+ ],
766
+ "n_oov_chars": 0,
767
+ "oov_ratio": 0.0,
768
+ "oov_charset": "[]"
769
+ },
770
+ {
771
+ "text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
772
+ "decoded_text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
773
+ "diff": [
774
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
775
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
776
+ "replace text[28:30] --> decoded_text[26:27] 'で' --> 'で'",
777
+ "replace text[32:34] --> decoded_text[29:30] 'ず' --> 'ず'",
778
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'"
779
+ ],
780
+ "n_oov_chars": 0,
781
+ "oov_ratio": 0.0,
782
+ "oov_charset": "[]"
783
+ },
784
+ {
785
+ "text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
786
+ "decoded_text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
787
+ "diff": [
788
+ "replace text[31:33] --> decoded_text[31:32] 'が' --> 'が'",
789
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
790
+ "replace text[52:54] --> decoded_text[50:51] 'だ' --> 'だ'",
791
+ "replace text[65:67] --> decoded_text[62:63] 'で' --> 'で'"
792
+ ],
793
+ "n_oov_chars": 0,
794
+ "oov_ratio": 0.0,
795
+ "oov_charset": "[]"
796
+ },
797
+ {
798
+ "text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
799
+ "decoded_text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
800
+ "diff": [
801
+ "replace text[15:17] --> decoded_text[15:16] 'ず' --> 'ず'",
802
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
803
+ "replace text[35:37] --> decoded_text[33:34] 'が' --> 'が'",
804
+ "replace text[40:42] --> decoded_text[37:38] 'で' --> 'で'"
805
+ ],
806
+ "n_oov_chars": 0,
807
+ "oov_ratio": 0.0,
808
+ "oov_charset": "[]"
809
+ },
810
+ {
811
+ "text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。この資格を就職でも活かしたいと思います。",
812
+ "decoded_text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。���の資格を就職でも活かしたいと思います。",
813
+ "diff": [
814
+ "replace text[42:44] --> decoded_text[42:43] 'で' --> 'で'",
815
+ "replace text[53:55] --> decoded_text[52:53] 'で' --> 'で'"
816
+ ],
817
+ "n_oov_chars": 0,
818
+ "oov_ratio": 0.0,
819
+ "oov_charset": "[]"
820
+ },
821
+ {
822
+ "text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
823
+ "decoded_text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
824
+ "diff": [
825
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
826
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
827
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
828
+ "replace text[36:38] --> decoded_text[33:34] 'ず' --> 'ず'",
829
+ "replace text[51:53] --> decoded_text[47:48] 'だ' --> 'だ'"
830
+ ],
831
+ "n_oov_chars": 0,
832
+ "oov_ratio": 0.0,
833
+ "oov_charset": "[]"
834
+ },
835
+ {
836
+ "text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
837
+ "decoded_text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
838
+ "diff": [
839
+ "replace text[11:13] --> decoded_text[11:12] 'が' --> 'が'",
840
+ "replace text[17:19] --> decoded_text[16:17] 'で' --> 'で'",
841
+ "replace text[29:31] --> decoded_text[27:28] 'で' --> 'で'",
842
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'",
843
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
844
+ ],
845
+ "n_oov_chars": 0,
846
+ "oov_ratio": 0.0,
847
+ "oov_charset": "[]"
848
+ },
849
+ {
850
+ "text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
851
+ "decoded_text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
852
+ "diff": [
853
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
854
+ "replace text[15:17] --> decoded_text[14:15] 'だ' --> 'だ'",
855
+ "replace text[21:23] --> decoded_text[19:20] 'で' --> 'で'",
856
+ "replace text[51:53] --> decoded_text[48:49] 'で' --> 'で'",
857
+ "replace text[54:56] --> decoded_text[50:51] 'が' --> 'が'",
858
+ "replace text[61:63] --> decoded_text[56:57] 'で' --> 'で'",
859
+ "replace text[89:91] --> decoded_text[83:84] 'で' --> 'で'"
860
+ ],
861
+ "n_oov_chars": 0,
862
+ "oov_ratio": 0.0,
863
+ "oov_charset": "[]"
864
+ },
865
+ {
866
+ "text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
867
+ "decoded_text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
868
+ "diff": [
869
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
870
+ "replace text[10:12] --> decoded_text[9:10] 'だ' --> 'だ'",
871
+ "replace text[45:47] --> decoded_text[43:44] 'べ' --> 'べ'",
872
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
873
+ ],
874
+ "n_oov_chars": 0,
875
+ "oov_ratio": 0.0,
876
+ "oov_charset": "[]"
877
+ },
878
+ {
879
+ "text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
880
+ "decoded_text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
881
+ "diff": [
882
+ "replace text[46:48] --> decoded_text[46:47] 'べ' --> 'べ'",
883
+ "replace text[49:51] --> decoded_text[48:49] 'だ' --> 'だ'",
884
+ "replace text[74:76] --> decoded_text[72:73] 'プ' --> 'プ'"
885
+ ],
886
+ "n_oov_chars": 0,
887
+ "oov_ratio": 0.0,
888
+ "oov_charset": "[]"
889
+ },
890
+ {
891
+ "text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
892
+ "decoded_text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
893
+ "diff": [
894
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
895
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
896
+ "replace text[48:50] --> decoded_text[46:47] 'だ' --> 'だ'",
897
+ "replace text[53:55] --> decoded_text[50:51] 'で' --> 'で'",
898
+ "replace text[60:62] --> decoded_text[56:57] 'が' --> 'が'"
899
+ ],
900
+ "n_oov_chars": 0,
901
+ "oov_ratio": 0.0,
902
+ "oov_charset": "[]"
903
+ },
904
+ {
905
+ "text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
906
+ "decoded_text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
907
+ "diff": [
908
+ "replace text[9:11] --> decoded_text[9:10] 'ど' --> 'ど'",
909
+ "replace text[22:24] --> decoded_text[21:22] 'ず' --> 'ず'",
910
+ "replace text[40:42] --> decoded_text[38:39] 'が' --> 'が'",
911
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
912
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
913
+ ],
914
+ "n_oov_chars": 0,
915
+ "oov_ratio": 0.0,
916
+ "oov_charset": "[]"
917
+ },
918
+ {
919
+ "text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
920
+ "decoded_text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
921
+ "diff": [
922
+ "replace text[28:30] --> decoded_text[28:29] 'ぱ' --> 'ぱ'",
923
+ "replace text[39:41] --> decoded_text[38:39] 'で' --> 'で'",
924
+ "replace text[64:66] --> decoded_text[62:63] 'で' --> 'で'",
925
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'"
926
+ ],
927
+ "n_oov_chars": 0,
928
+ "oov_ratio": 0.0,
929
+ "oov_charset": "[]"
930
+ },
931
+ {
932
+ "text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
933
+ "decoded_text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
934
+ "diff": [
935
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
936
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
937
+ "replace text[29:31] --> decoded_text[27:28] 'ど' --> 'ど'",
938
+ "replace text[67:69] --> decoded_text[64:65] 'だ' --> 'だ'",
939
+ "replace text[90:92] --> decoded_text[86:87] 'だ' --> 'だ'"
940
+ ],
941
+ "n_oov_chars": 0,
942
+ "oov_ratio": 0.0,
943
+ "oov_charset": "[]"
944
+ },
945
+ {
946
+ "text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
947
+ "decoded_text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
948
+ "diff": [
949
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
950
+ "replace text[10:12] --> decoded_text[9:10] 'が' --> 'が'",
951
+ "replace text[44:46] --> decoded_text[42:43] 'ば' --> 'ば'",
952
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
953
+ ],
954
+ "n_oov_chars": 0,
955
+ "oov_ratio": 0.0,
956
+ "oov_charset": "[]"
957
+ },
958
+ {
959
+ "text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも��く、無事合格できました。",
960
+ "decoded_text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも無く、無事合格できました。",
961
+ "diff": [
962
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
963
+ "replace text[29:31] --> decoded_text[28:29] 'で' --> 'で'",
964
+ "replace text[47:49] --> decoded_text[45:46] 'で' --> 'で'",
965
+ "replace text[63:65] --> decoded_text[60:61] 'で' --> 'で'",
966
+ "replace text[82:84] --> decoded_text[78:79] 'で' --> 'で'"
967
+ ],
968
+ "n_oov_chars": 0,
969
+ "oov_ratio": 0.0,
970
+ "oov_charset": "[]"
971
+ },
972
+ {
973
+ "text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
974
+ "decoded_text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
975
+ "diff": [
976
+ "replace text[23:25] --> decoded_text[23:24] 'で' --> 'で'",
977
+ "replace text[26:28] --> decoded_text[25:26] 'じ' --> 'じ'",
978
+ "replace text[35:37] --> decoded_text[33:34] 'ば' --> 'ば'"
979
+ ],
980
+ "n_oov_chars": 0,
981
+ "oov_ratio": 0.0,
982
+ "oov_charset": "[]"
983
+ },
984
+ {
985
+ "text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
986
+ "decoded_text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
987
+ "diff": [
988
+ "replace text[5:7] --> decoded_text[5:6] 'だ' --> 'だ'",
989
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
990
+ "replace text[15:17] --> decoded_text[13:14] 'で' --> 'で'",
991
+ "replace text[18:20] --> decoded_text[15:16] 'プ' --> 'プ'",
992
+ "replace text[50:52] --> decoded_text[46:47] 'で' --> 'で'",
993
+ "replace text[55:57] --> decoded_text[50:51] 'で' --> 'で'",
994
+ "replace text[81:85] --> decoded_text[75:77] 'がで' --> 'がで'",
995
+ "replace text[88:90] --> decoded_text[80:81] 'で' --> 'で'"
996
+ ],
997
+ "n_oov_chars": 0,
998
+ "oov_ratio": 0.0,
999
+ "oov_charset": "[]"
1000
+ },
1001
+ {
1002
+ "text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1003
+ "decoded_text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1004
+ "diff": [
1005
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
1006
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
1007
+ "replace text[16:18] --> decoded_text[14:15] 'が' --> 'が'",
1008
+ "replace text[20:22] --> decoded_text[17:18] 'ば' --> 'ば'",
1009
+ "replace text[23:25] --> decoded_text[19:20] 'ぜ' --> 'ぜ'",
1010
+ "replace text[34:36] --> decoded_text[29:30] 'べ' --> 'べ'",
1011
+ "replace text[37:39] --> decoded_text[31:32] 'だ' --> 'だ'"
1012
+ ],
1013
+ "n_oov_chars": 0,
1014
+ "oov_ratio": 0.0,
1015
+ "oov_charset": "[]"
1016
+ },
1017
+ {
1018
+ "text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1019
+ "decoded_text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1020
+ "diff": [
1021
+ "replace text[12:14] --> decoded_text[12:13] 'で' --> 'で'",
1022
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
1023
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
1024
+ "replace text[47:49] --> decoded_text[44:45] 'で' --> 'で'",
1025
+ "replace text[71:73] --> decoded_text[67:68] 'で' --> 'で'",
1026
+ "replace text[75:77] --> decoded_text[70:71] 'だ' --> 'だ'",
1027
+ "replace text[78:80] --> decoded_text[72:73] 'で' --> 'で'"
1028
+ ],
1029
+ "n_oov_chars": 0,
1030
+ "oov_ratio": 0.0,
1031
+ "oov_charset": "[]"
1032
+ },
1033
+ {
1034
+ "text": "資格を取りたいという気持ちがあれば��丈夫です。頑張ってください。",
1035
+ "decoded_text": "資格を取りたいという気持ちがあれば大丈夫です。頑張ってください。",
1036
+ "diff": [
1037
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
1038
+ "replace text[17:19] --> decoded_text[16:17] 'ば' --> 'ば'",
1039
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
1040
+ "replace text[31:33] --> decoded_text[28:29] 'だ' --> 'だ'"
1041
+ ],
1042
+ "n_oov_chars": 0,
1043
+ "oov_ratio": 0.0,
1044
+ "oov_charset": "[]"
1045
+ }
1046
+ ]
stats/compression_rate/Qwen.Qwen3-30B-A3B-Thinking-2507 @ cc100.ko.diff.json ADDED
@@ -0,0 +1,216 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
4
+ "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.006211180124223602,
10
+ "oov_charset": "[\"樂\"]"
11
+ },
12
+ {
13
+ "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
14
+ "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
15
+ "diff": [
16
+ "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'",
17
+ "replace text[401:402] --> decoded_text[401:402] '累' --> '累'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.004784688995215311,
21
+ "oov_charset": "[\"樂\", \"累\"]"
22
+ },
23
+ {
24
+ "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
25
+ "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
26
+ "diff": [
27
+ "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.007936507936507936,
31
+ "oov_charset": "[\"陸\"]"
32
+ },
33
+ {
34
+ "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
35
+ "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
36
+ "diff": [
37
+ "replace text[108:109] --> decoded_text[108:109] '良' --> '良'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.007692307692307693,
41
+ "oov_charset": "[\"良\"]"
42
+ },
43
+ {
44
+ "text": "▷주자:이(理)�� 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
45
+ "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
46
+ "diff": [
47
+ "replace text[6:7] --> decoded_text[6:7] '理' --> '理'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.013513513513513514,
51
+ "oov_charset": "[\"理\"]"
52
+ },
53
+ {
54
+ "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
55
+ "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
56
+ "diff": [
57
+ "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.004629629629629629,
61
+ "oov_charset": "[\"樂\"]"
62
+ },
63
+ {
64
+ "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
65
+ "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
66
+ "diff": [
67
+ "replace text[3:4] --> decoded_text[3:4] '立' --> '立'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.007874015748031496,
71
+ "oov_charset": "[\"立\"]"
72
+ },
73
+ {
74
+ "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
75
+ "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
76
+ "diff": [
77
+ "replace text[27:28] --> decoded_text[27:28] '金' --> '金'",
78
+ "replace text[63:64] --> decoded_text[63:64] '金' --> '金'",
79
+ "replace text[119:120] --> decoded_text[119:120] '金' --> '金'"
80
+ ],
81
+ "n_oov_chars": 3,
82
+ "oov_ratio": 0.023622047244094488,
83
+ "oov_charset": "[\"金\"]"
84
+ },
85
+ {
86
+ "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
87
+ "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
88
+ "diff": [
89
+ "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'"
90
+ ],
91
+ "n_oov_chars": 1,
92
+ "oov_ratio": 0.017543859649122806,
93
+ "oov_charset": "[\"梁\"]"
94
+ },
95
+ {
96
+ "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
97
+ "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
98
+ "diff": [
99
+ "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'"
100
+ ],
101
+ "n_oov_chars": 1,
102
+ "oov_ratio": 0.011363636363636364,
103
+ "oov_charset": "[\"樂\"]"
104
+ },
105
+ {
106
+ "text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
107
+ "decoded_text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
108
+ "diff": [
109
+ "replace text[239:240] --> decoded_text[239:240] '金' --> '金'"
110
+ ],
111
+ "n_oov_chars": 1,
112
+ "oov_ratio": 0.002421307506053269,
113
+ "oov_charset": "[\"金\"]"
114
+ },
115
+ {
116
+ "text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
117
+ "decoded_text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
118
+ "diff": [
119
+ "replace text[77:78] --> decoded_text[77:78] '不' --> '不'"
120
+ ],
121
+ "n_oov_chars": 1,
122
+ "oov_ratio": 0.008,
123
+ "oov_charset": "[\"不\"]"
124
+ },
125
+ {
126
+ "text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
127
+ "decoded_text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
128
+ "diff": [
129
+ "replace text[32:33] --> decoded_text[32:33] '金' --> '金'"
130
+ ],
131
+ "n_oov_chars": 1,
132
+ "oov_ratio": 0.007874015748031496,
133
+ "oov_charset": "[\"金\"]"
134
+ },
135
+ {
136
+ "text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
137
+ "decoded_text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
138
+ "diff": [
139
+ "replace text[75:76] --> decoded_text[75:76] '不' --> '不'"
140
+ ],
141
+ "n_oov_chars": 1,
142
+ "oov_ratio": 0.0078125,
143
+ "oov_charset": "[\"不\"]"
144
+ },
145
+ {
146
+ "text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
147
+ "decoded_text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
148
+ "diff": [
149
+ "replace text[0:1] --> decoded_text[0:1] '不' --> '不'"
150
+ ],
151
+ "n_oov_chars": 1,
152
+ "oov_ratio": 0.017857142857142856,
153
+ "oov_charset": "[\"不\"]"
154
+ },
155
+ {
156
+ "text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있었다. 그는 천황의 지시하는 일",
157
+ "decoded_text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있���다. 그는 천황의 지시하는 일",
158
+ "diff": [
159
+ "replace text[31:32] --> decoded_text[31:32] '龍' --> '龍'"
160
+ ],
161
+ "n_oov_chars": 1,
162
+ "oov_ratio": 0.017543859649122806,
163
+ "oov_charset": "[\"龍\"]"
164
+ },
165
+ {
166
+ "text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
167
+ "decoded_text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
168
+ "diff": [
169
+ "replace text[38:39] --> decoded_text[38:39] '龍' --> '龍'"
170
+ ],
171
+ "n_oov_chars": 1,
172
+ "oov_ratio": 0.017857142857142856,
173
+ "oov_charset": "[\"龍\"]"
174
+ },
175
+ {
176
+ "text": "라 영약(靈藥)뿐이였다.",
177
+ "decoded_text": "라 영약(靈藥)뿐이였다.",
178
+ "diff": [
179
+ "replace text[5:6] --> decoded_text[5:6] '靈' --> '靈'"
180
+ ],
181
+ "n_oov_chars": 1,
182
+ "oov_ratio": 0.07692307692307693,
183
+ "oov_charset": "[\"靈\"]"
184
+ },
185
+ {
186
+ "text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
187
+ "decoded_text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
188
+ "diff": [
189
+ "replace text[13:14] --> decoded_text[13:14] '女' --> '女'",
190
+ "replace text[18:19] --> decoded_text[18:19] '女' --> '女'"
191
+ ],
192
+ "n_oov_chars": 2,
193
+ "oov_ratio": 0.0425531914893617,
194
+ "oov_charset": "[\"女\"]"
195
+ },
196
+ {
197
+ "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
198
+ "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상���성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
199
+ "diff": [
200
+ "replace text[809:810] --> decoded_text[809:810] '流' --> '流'"
201
+ ],
202
+ "n_oov_chars": 1,
203
+ "oov_ratio": 0.0009000900090009,
204
+ "oov_charset": "[\"流\"]"
205
+ },
206
+ {
207
+ "text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
208
+ "decoded_text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
209
+ "diff": [
210
+ "replace text[19:20] --> decoded_text[19:20] '識' --> '識'"
211
+ ],
212
+ "n_oov_chars": 1,
213
+ "oov_ratio": 0.0018083182640144665,
214
+ "oov_charset": "[\"識\"]"
215
+ }
216
+ ]
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ar.diff.json ADDED
The diff for this file is too large to render. See raw diff
 
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.de.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
4
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
5
+ "diff": [
6
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
14
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
15
+ "diff": [
16
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
24
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
25
+ "diff": [
26
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
34
+ "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
35
+ "diff": [
36
+ "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'",
37
+ "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
45
+ "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
46
+ "diff": [
47
+ "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'",
48
+ "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'",
49
+ "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'",
50
+ "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'",
51
+ "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'",
52
+ "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'",
53
+ "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'",
54
+ "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'",
55
+ "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'",
56
+ "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
64
+ "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
65
+ "diff": [
66
+ "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'",
67
+ "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
75
+ "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
76
+ "diff": [
77
+ "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'",
78
+ "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'",
79
+ "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'",
80
+ "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'",
81
+ "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'",
82
+ "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'"
83
+ ],
84
+ "n_oov_chars": 0,
85
+ "oov_ratio": 0.0,
86
+ "oov_charset": "[]"
87
+ },
88
+ {
89
+ "text": "‹ Herzlichen Dank für all Ihre Spenden!",
90
+ "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!",
91
+ "diff": [
92
+ "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'"
93
+ ],
94
+ "n_oov_chars": 0,
95
+ "oov_ratio": 0.0,
96
+ "oov_charset": "[]"
97
+ },
98
+ {
99
+ "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
100
+ "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
101
+ "diff": [
102
+ "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'",
103
+ "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'"
104
+ ],
105
+ "n_oov_chars": 0,
106
+ "oov_ratio": 0.0,
107
+ "oov_charset": "[]"
108
+ }
109
+ ]
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.fa.diff.json ADDED
@@ -0,0 +1,248 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
4
+ "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
5
+ "diff": [
6
+ "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'",
7
+ "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''",
8
+ "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'",
9
+ "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''",
10
+ "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'",
11
+ "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''"
12
+ ],
13
+ "n_oov_chars": 0,
14
+ "oov_ratio": 0.0,
15
+ "oov_charset": "[]"
16
+ },
17
+ {
18
+ "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
19
+ "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
20
+ "diff": [
21
+ "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'",
22
+ "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''",
23
+ "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'",
24
+ "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''"
25
+ ],
26
+ "n_oov_chars": 0,
27
+ "oov_ratio": 0.0,
28
+ "oov_charset": "[]"
29
+ },
30
+ {
31
+ "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
32
+ "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
33
+ "diff": [
34
+ "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'",
35
+ "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''",
36
+ "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'",
37
+ "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''",
38
+ "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'",
39
+ "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''",
40
+ "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'",
41
+ "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''"
42
+ ],
43
+ "n_oov_chars": 0,
44
+ "oov_ratio": 0.0,
45
+ "oov_charset": "[]"
46
+ },
47
+ {
48
+ "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
49
+ "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
50
+ "diff": [
51
+ "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'",
52
+ "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''",
53
+ "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'",
54
+ "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''",
55
+ "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'",
56
+ "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
64
+ "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
65
+ "diff": [
66
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
67
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
75
+ "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
76
+ "diff": [
77
+ "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'",
78
+ "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''",
79
+ "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'",
80
+ "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''",
81
+ "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'",
82
+ "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''",
83
+ "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'",
84
+ "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''"
85
+ ],
86
+ "n_oov_chars": 0,
87
+ "oov_ratio": 0.0,
88
+ "oov_charset": "[]"
89
+ },
90
+ {
91
+ "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
92
+ "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
93
+ "diff": [
94
+ "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'",
95
+ "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'",
96
+ "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'",
97
+ "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'",
98
+ "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''",
99
+ "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'",
100
+ "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ },
106
+ {
107
+ "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
108
+ "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گن��هکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
109
+ "diff": [
110
+ "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'",
111
+ "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'",
112
+ "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''",
113
+ "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
121
+ "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
122
+ "diff": [
123
+ "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'",
124
+ "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'",
125
+ "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'",
126
+ "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'",
127
+ "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'",
128
+ "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'"
129
+ ],
130
+ "n_oov_chars": 0,
131
+ "oov_ratio": 0.0,
132
+ "oov_charset": "[]"
133
+ },
134
+ {
135
+ "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
136
+ "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
137
+ "diff": [
138
+ "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'",
139
+ "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''"
140
+ ],
141
+ "n_oov_chars": 0,
142
+ "oov_ratio": 0.0,
143
+ "oov_charset": "[]"
144
+ },
145
+ {
146
+ "text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
147
+ "decoded_text": "آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. کد خبر: ۶۸۸۵۸. تاریخ: ۲۶ بهمن ۱۳۹۳ - ۰۶:۰۰. امام علی علیه السلام:. دَع ما لا یَعنِیکَ، وَ اشتَغِل بِمُهِمِّکَ الَّذی یُنجِیکَ؛. آنچه را به تو ربطی ندارد، رها کن و به کارى که رستگارت کند، مشغول شو. غرر الحکم: ح ۵۱۳۳/ گزیده غررالحکم و دررالکلم، ص52. امام على علیه‏السلام :. عَظِّمُوا أقدارَکُم بِالتَّغافُلِ عَنِ الدَّنِیِّ مِنَ الاُْمُورِ ؛. با بى توجهى به امور پست، بر ارزش خود بیفزایید . تحف العقول ، ص 224.",
148
+ "diff": [
149
+ "replace text[174:183] --> decoded_text[174:183] 'ِّکَ الَّ' --> 'ِّکَ الَّ'",
150
+ "replace text[344:346] --> decoded_text[344:346] 'ِّ' --> 'ِّ'",
151
+ "replace text[366:368] --> decoded_text[366:368] 'َّ' --> 'َّ'",
152
+ "replace text[383:399] --> decoded_text[383:400] 'َّنِیِّ مِنَ الا' --> 'َّنِیِّ مِنَ الاُ'",
153
+ "delete text[400:401] --> decoded_text[401:401] 'ُ' --> ''"
154
+ ],
155
+ "n_oov_chars": 0,
156
+ "oov_ratio": 0.0,
157
+ "oov_charset": "[]"
158
+ },
159
+ {
160
+ "text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
161
+ "decoded_text": "اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. کد خبر: ۷۱۵۲۴. تاریخ: ۰۳ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه‏ علیها السلام :. إنْ کُنتَ تَعمَلُ بِما أمَرناکَ و تَنتَهی عَمّا زَجَرناکَ عَنهُ فَأنتَ مِن شیعَتِنا و إلّا فَلا؛. اگر به آنچه تو را به آن فرمان می‌‏دهیم عمل کنی و از آنچه برحذر می‏داریم دوری کنی ، از شیعیان مایی و الّا هرگز. بحار الأنوار ، ج ۶۸ ، ص ۱۵۵ . امام على سلام الله علیه:. تَبارَکَ. اللّهُ الَّذی . . . أنشَأَ السَّحابَ الثِّقالَ ، فَأَهطَلَ دِیَمَها. وعَدَّدَ قِسَمَها",
162
+ "diff": [
163
+ "replace text[470:472] --> decoded_text[470:472] 'َّ' --> 'َّ'",
164
+ "replace text[491:493] --> decoded_text[491:493] 'َّ' --> 'َّ'",
165
+ "delete text[501:502] --> decoded_text[501:501] 'ّ' --> ''",
166
+ "insert text[503:503] --> decoded_text[502:503] '' --> 'ّ'",
167
+ "replace text[534:536] --> decoded_text[534:536] 'َّ' --> 'َّ'"
168
+ ],
169
+ "n_oov_chars": 0,
170
+ "oov_ratio": 0.0,
171
+ "oov_charset": "[]"
172
+ },
173
+ {
174
+ "text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
175
+ "decoded_text": "اگر مى‏‌توانى، همیشه با وضو باش. کد خبر: ۷۱۵۰۰. تاریخ: ۲۹ اسفند ۱۳۹۳ - ۱۲:۰۷. پیامبر اکرم (صلی الله علیه و آله):. إنِ استَطَعتَ أن تَکونَ أبَداً عَلى وُضوءٍ فَافعَل. اگر مى‏‌توانى، همیشه با وضو باش. حکمت نامه پیامبر اعظم(ص): ج9- ص306 - ح 7205. امام باقر (سلام الله علیه) :. الکَسَلُ یُضِرُّ بِالدِّینِ والدُّنیا. تنبلى به دین و دنیا ضرر مى‏‌زند. میزان الحکمة: ج10- ص131- ح 17769.",
176
+ "diff": [
177
+ "insert text[288:288] --> decoded_text[288:289] '' --> 'ُ'",
178
+ "replace text[289:296] --> decoded_text[290:297] 'ُ بِالد' --> ' بِالدِ'",
179
+ "replace text[297:306] --> decoded_text[298:307] 'ِینِ والد' --> 'ینِ والدُ'",
180
+ "delete text[307:308] --> decoded_text[308:308] 'ُ' --> ''"
181
+ ],
182
+ "n_oov_chars": 0,
183
+ "oov_ratio": 0.0,
184
+ "oov_charset": "[]"
185
+ },
186
+ {
187
+ "text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
188
+ "decoded_text": "اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. کد خبر: ۷۱۵۰۱. تاریخ: ۰۱ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر اکرم صلی الله علیه وآله. فَنَیرِزُوا إن قَدَرتُم کُلَّ یَومٍ یَعنی تَهادَوا و تَواصَلُوا فِی اللَّهِ؛. اگر مى‏توانید هر روز را نوروز کنید؛ یعنى در راه خدا به یکدیگر هدیه بدهید و با یکدیگر پیوند داشته باشید. دعائم الإسلام: ج 2، ص 326. امام صادق سلام الله علیه. إنَّ یَومَ النَّیروزِ هُوَ الیَومُ الّذى أخَذَ اللَّهُ فیهِ مَواثیقَ العِبادِ أن یَعبُدوهُ. روز نوروز همان روزى است که خداوند از بند",
189
+ "diff": [
190
+ "insert text[210:210] --> decoded_text[210:211] '' --> 'َ'",
191
+ "delete text[211:212] --> decoded_text[212:212] 'َ' --> ''",
192
+ "insert text[254:254] --> decoded_text[254:255] '' --> 'َ'",
193
+ "delete text[255:256] --> decoded_text[256:256] 'َ' --> ''",
194
+ "insert text[420:420] --> decoded_text[420:421] '' --> 'َ'",
195
+ "replace text[421:432] --> decoded_text[422:433] 'َ یَومَ الن' --> ' یَومَ النَ'",
196
+ "delete text[433:434] --> decoded_text[434:434] 'َ' --> ''",
197
+ "insert text[468:468] --> decoded_text[468:469] '' --> 'َ'",
198
+ "delete text[469:470] --> decoded_text[470:470] 'َ' --> ''"
199
+ ],
200
+ "n_oov_chars": 0,
201
+ "oov_ratio": 0.0,
202
+ "oov_charset": "[]"
203
+ },
204
+ {
205
+ "text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
206
+ "decoded_text": "امام باقر علیه السلام‏:. أحسِن؛ فَإِنّى لَم أرَ شَیئاً قَطُّ أشَدَّ طَلَباً ولا أسرَعَ دَرکاً مِن حَسَنَةٍ مُحدَثَةٍ لِذَنبٍ قَدیمٍ؛. نیکى کن؛ که به‌راستى هرگز چیزى مانند کار نیکِ جدید را ندیده‏‌ام. که این‌چنین، به تعقیب یک گناه قدیم برآید و با سرعت، خود را به آن برساند. [و آن را محو سازد]. علل الشرائع: ص ۵۹۹ ح ۴۹ / حکمت‌نامه حضرت عبدالعظیم الحسنی علیه السلام، ص175. امام صادق سلام الله علیه :. کَثرَةُ النَّومِ مَذهَبَةٌ للدِّینِ والدُّنیا؛. پرخوابى، دین و دنیا را از بین مى‏برد. کافی : ج 5، ص 84، ح 1 / میزان الحکمة: ج 12 ، ص 493.",
207
+ "diff": [
208
+ "insert text[58:58] --> decoded_text[58:59] '' --> 'ُ'",
209
+ "delete text[59:60] --> decoded_text[60:60] 'ُ' --> ''",
210
+ "insert text[65:65] --> decoded_text[65:66] '' --> 'َ'",
211
+ "delete text[66:67] --> decoded_text[67:67] 'َ' --> ''",
212
+ "insert text[408:408] --> decoded_text[408:409] '' --> 'َ'",
213
+ "delete text[409:410] --> decoded_text[410:410] 'َ' --> ''",
214
+ "insert text[427:427] --> decoded_text[427:428] '' --> 'ِ'",
215
+ "replace text[428:437] --> decoded_text[429:438] 'ِینِ والد' --> 'ینِ والدُ'",
216
+ "delete text[438:439] --> decoded_text[439:439] 'ُ' --> ''"
217
+ ],
218
+ "n_oov_chars": 0,
219
+ "oov_ratio": 0.0,
220
+ "oov_charset": "[]"
221
+ },
222
+ {
223
+ "text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
224
+ "decoded_text": "امام باقر علیه السلام:. أقرَبُ ما یَکونُ العَبدُ مِنَ اللَّهِ إذا کانَ فِی الصَّلاةِ؛. نزدیک‏ترین حالت بنده به خدا، هنگامى است که در نماز است. دعائم الإسلام: ج ۱ ص ۱۳۴/ شناخت‌نامه نماز: ج1 ص204. پیامبر اکرم صلی الله علیه و آله:. فإنَّ خِیارَکُم خِیارُکُم لِأهلِهِ. براستى بهترین شما کسى است که براى خانواده اش بهتر باشد . بحار الأنوار :ج 5 ، ص 268 ، ح79 / میزان الحکمة : ج 5 ، ص 101.",
225
+ "diff": [
226
+ "insert text[57:57] --> decoded_text[57:58] '' --> 'َ'",
227
+ "delete text[58:59] --> decoded_text[59:59] 'َ' --> ''",
228
+ "insert text[78:78] --> decoded_text[78:79] '' --> 'َ'",
229
+ "delete text[79:80] --> decoded_text[80:80] 'َ' --> ''",
230
+ "insert text[232:232] --> decoded_text[232:233] '' --> 'َ'",
231
+ "delete text[233:234] --> decoded_text[234:234] 'َ' --> ''"
232
+ ],
233
+ "n_oov_chars": 0,
234
+ "oov_ratio": 0.0,
235
+ "oov_charset": "[]"
236
+ },
237
+ {
238
+ "text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
239
+ "decoded_text": "قالیباف افزود: یا حدیث معروفِ «مَن اَصبَحَ وَ لَم یَهتَمَّ بِاُمورِ المُسلِمینَ فَلَیسَ بِمُسلِم» و نمونه های مشابه آن، جزو بیّنات اسلام است؛ یعنى اسلام انسان را این‌جور خواسته است که مسئول باشد؛ هم نسبت به خود، هم نسبت به نزدیکان خود، هم نسبت به جامعه‌ى خود، هم نسبت به بشریّت.",
240
+ "diff": [
241
+ "insert text[56:56] --> decoded_text[56:57] '' --> 'َ'",
242
+ "delete text[57:58] --> decoded_text[58:58] 'َ' --> ''"
243
+ ],
244
+ "n_oov_chars": 0,
245
+ "oov_ratio": 0.0,
246
+ "oov_charset": "[]"
247
+ }
248
+ ]
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.fr.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Une Agence conseil en Communication et Coopération Décentralisée.",
4
+ "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.",
5
+ "diff": [
6
+ "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'",
7
+ "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'",
8
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
9
+ ],
10
+ "n_oov_chars": 0,
11
+ "oov_ratio": 0.0,
12
+ "oov_charset": "[]"
13
+ },
14
+ {
15
+ "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
16
+ "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
17
+ "diff": [
18
+ "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'",
19
+ "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'",
20
+ "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'",
21
+ "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'",
22
+ "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'"
23
+ ],
24
+ "n_oov_chars": 0,
25
+ "oov_ratio": 0.0,
26
+ "oov_charset": "[]"
27
+ },
28
+ {
29
+ "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
30
+ "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
31
+ "diff": [
32
+ "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'",
33
+ "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'",
34
+ "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'"
35
+ ],
36
+ "n_oov_chars": 0,
37
+ "oov_ratio": 0.0,
38
+ "oov_charset": "[]"
39
+ },
40
+ {
41
+ "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
42
+ "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
43
+ "diff": [
44
+ "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'",
45
+ "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'",
46
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
54
+ "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
55
+ "diff": [
56
+ "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'",
57
+ "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'",
58
+ "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'",
59
+ "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
67
+ "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
68
+ "diff": [
69
+ "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'",
70
+ "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'",
71
+ "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'"
72
+ ],
73
+ "n_oov_chars": 0,
74
+ "oov_ratio": 0.0,
75
+ "oov_charset": "[]"
76
+ },
77
+ {
78
+ "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
79
+ "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
80
+ "diff": [
81
+ "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'",
82
+ "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'",
83
+ "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'",
84
+ "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'",
85
+ "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'",
86
+ "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'",
87
+ "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
95
+ "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
96
+ "diff": [
97
+ "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'",
98
+ "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'",
99
+ "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'"
100
+ ],
101
+ "n_oov_chars": 0,
102
+ "oov_ratio": 0.0,
103
+ "oov_charset": "[]"
104
+ }
105
+ ]
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ja.diff.json ADDED
@@ -0,0 +1,1046 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
4
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
5
+ "diff": [
6
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
7
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
8
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
9
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
10
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
11
+ ],
12
+ "n_oov_chars": 0,
13
+ "oov_ratio": 0.0,
14
+ "oov_charset": "[]"
15
+ },
16
+ {
17
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
18
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
19
+ "diff": [
20
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
21
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
22
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
23
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
24
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
25
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
26
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
27
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
35
+ "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
36
+ "diff": [
37
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
38
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
39
+ "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
40
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
41
+ "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
42
+ "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
43
+ "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
44
+ ],
45
+ "n_oov_chars": 0,
46
+ "oov_ratio": 0.0,
47
+ "oov_charset": "[]"
48
+ },
49
+ {
50
+ "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
51
+ "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
52
+ "diff": [
53
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
54
+ "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
55
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
56
+ "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
57
+ "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
58
+ "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
66
+ "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
67
+ "diff": [
68
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
69
+ "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
70
+ "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
71
+ "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
72
+ "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
73
+ "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
74
+ "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
75
+ ],
76
+ "n_oov_chars": 0,
77
+ "oov_ratio": 0.0,
78
+ "oov_charset": "[]"
79
+ },
80
+ {
81
+ "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
82
+ "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
83
+ "diff": [
84
+ "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
85
+ "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
86
+ "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
87
+ "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
95
+ "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
96
+ "diff": [
97
+ "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
98
+ "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
99
+ "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
100
+ "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
101
+ "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
102
+ ],
103
+ "n_oov_chars": 0,
104
+ "oov_ratio": 0.0,
105
+ "oov_charset": "[]"
106
+ },
107
+ {
108
+ "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
109
+ "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
110
+ "diff": [
111
+ "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
112
+ "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
113
+ "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
121
+ "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
122
+ "diff": [
123
+ "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
124
+ "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
125
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
126
+ ],
127
+ "n_oov_chars": 0,
128
+ "oov_ratio": 0.0,
129
+ "oov_charset": "[]"
130
+ },
131
+ {
132
+ "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
133
+ "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
134
+ "diff": [
135
+ "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
136
+ "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
137
+ ],
138
+ "n_oov_chars": 0,
139
+ "oov_ratio": 0.0,
140
+ "oov_charset": "[]"
141
+ },
142
+ {
143
+ "text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
144
+ "decoded_text": "何事もまずは挑戦してみてください。分からない事は先生が教えてくださいます。安心して勉強に取り組んでください。",
145
+ "diff": [
146
+ "replace text[4:6] --> decoded_text[4:5] 'ず' --> 'ず'",
147
+ "replace text[14:16] --> decoded_text[13:14] 'だ' --> 'だ'",
148
+ "replace text[28:30] --> decoded_text[26:27] 'が' --> 'が'",
149
+ "replace text[34:36] --> decoded_text[31:32] 'だ' --> 'だ'",
150
+ "replace text[52:54] --> decoded_text[48:49] 'で' --> 'で'",
151
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'"
152
+ ],
153
+ "n_oov_chars": 0,
154
+ "oov_ratio": 0.0,
155
+ "oov_charset": "[]"
156
+ },
157
+ {
158
+ "text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
159
+ "decoded_text": "日々の勉強を大切にし、試験当日は集中して受験しました。試験一か月前までは、ひたすら過去問を解いて自分の弱いところを集中的に勉強しました。この学校に入学して1番の目標だったので取得できて嬉しいです。",
160
+ "diff": [
161
+ "replace text[34:36] --> decoded_text[34:35] 'で' --> 'で'",
162
+ "replace text[83:85] --> decoded_text[82:83] 'だ' --> 'だ'",
163
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'",
164
+ "replace text[92:94] --> decoded_text[89:90] 'で' --> 'で'",
165
+ "replace text[99:101] --> decoded_text[95:96] 'で' --> 'で'"
166
+ ],
167
+ "n_oov_chars": 0,
168
+ "oov_ratio": 0.0,
169
+ "oov_charset": "[]"
170
+ },
171
+ {
172
+ "text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
173
+ "decoded_text": "何回も過去問を解き、傾向を掴みました。合格して嬉しいです。さらに上の資格を目指し頑張りたいと思います。",
174
+ "diff": [
175
+ "replace text[26:28] --> decoded_text[26:27] 'で' --> 'で'"
176
+ ],
177
+ "n_oov_chars": 0,
178
+ "oov_ratio": 0.0,
179
+ "oov_charset": "[]"
180
+ },
181
+ {
182
+ "text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
183
+ "decoded_text": "受けるからには合格するほうが良いので積極的に勉強してください。そして後悔しないように頑張ってください。",
184
+ "diff": [
185
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
186
+ "replace text[18:20] --> decoded_text[17:18] 'で' --> 'で'",
187
+ "replace text[29:31] --> decoded_text[27:28] 'だ' --> 'だ'",
188
+ "replace text[50:52] --> decoded_text[47:48] 'だ' --> 'だ'"
189
+ ],
190
+ "n_oov_chars": 0,
191
+ "oov_ratio": 0.0,
192
+ "oov_charset": "[]"
193
+ },
194
+ {
195
+ "text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
196
+ "decoded_text": "分野ごとに勉強を行いました。土木業界ではこの資格がないと仕事の範囲が狭くなるので、合格して嬉しいです。実地試験に合格したら次は1級を目指し、頑張ろうと思います。",
197
+ "diff": [
198
+ "replace text[2:4] --> decoded_text[2:3] 'ご' --> 'ご'",
199
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
200
+ "replace text[26:28] --> decoded_text[24:25] 'が' --> 'が'",
201
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
202
+ "replace text[43:45] --> decoded_text[39:40] 'で' --> 'で'",
203
+ "replace text[53:55] --> decoded_text[48:49] 'で' --> 'で'"
204
+ ],
205
+ "n_oov_chars": 0,
206
+ "oov_ratio": 0.0,
207
+ "oov_charset": "[]"
208
+ },
209
+ {
210
+ "text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
211
+ "decoded_text": "難しい試験ですが、勉強を続けているとコツがつかめてきます。諦めずに頑張ってください。",
212
+ "diff": [
213
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
214
+ "replace text[8:10] --> decoded_text[7:8] 'が' --> 'が'",
215
+ "replace text[22:24] --> decoded_text[20:21] 'が' --> 'が'",
216
+ "replace text[34:36] --> decoded_text[31:32] 'ず' --> 'ず'",
217
+ "replace text[42:44] --> decoded_text[38:39] 'だ' --> 'だ'"
218
+ ],
219
+ "n_oov_chars": 0,
220
+ "oov_ratio": 0.0,
221
+ "oov_charset": "[]"
222
+ },
223
+ {
224
+ "text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたいです。",
225
+ "decoded_text": "過去問を解くことで対策をする事ができました。学科試験に合格したので、次は実地試験に合格して、現場を任せてもらえるようになりたい��す。",
226
+ "diff": [
227
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
228
+ "replace text[16:20] --> decoded_text[15:17] 'がで' --> 'がで'",
229
+ "replace text[35:37] --> decoded_text[32:33] 'で' --> 'で'",
230
+ "replace text[67:69] --> decoded_text[63:64] 'で' --> 'で'"
231
+ ],
232
+ "n_oov_chars": 0,
233
+ "oov_ratio": 0.0,
234
+ "oov_charset": "[]"
235
+ },
236
+ {
237
+ "text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
238
+ "decoded_text": "取りたい資格は積極的に勉強し、自信を持って頑張ってください。わからない事は必ず先生が教えてくださいます。",
239
+ "diff": [
240
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
241
+ "replace text[39:41] --> decoded_text[38:39] 'ず' --> 'ず'",
242
+ "replace text[43:45] --> decoded_text[41:42] 'が' --> 'が'",
243
+ "replace text[49:51] --> decoded_text[46:47] 'だ' --> 'だ'"
244
+ ],
245
+ "n_oov_chars": 0,
246
+ "oov_ratio": 0.0,
247
+ "oov_charset": "[]"
248
+ },
249
+ {
250
+ "text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
251
+ "decoded_text": "放課後の勉強会を頑張りました。2級土木施工管理技術検定は、土木技術者になるための第一歩だと思います。合格して本当に嬉しいです。",
252
+ "diff": [
253
+ "replace text[43:45] --> decoded_text[43:44] 'だ' --> 'だ'",
254
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'"
255
+ ],
256
+ "n_oov_chars": 0,
257
+ "oov_ratio": 0.0,
258
+ "oov_charset": "[]"
259
+ },
260
+ {
261
+ "text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
262
+ "decoded_text": "遊び、バイト、 勉強、いろいろありますが、区切りを付けて頑張ってください。",
263
+ "diff": [
264
+ "replace text[1:3] --> decoded_text[1:2] 'び' --> 'び'",
265
+ "replace text[4:6] --> decoded_text[3:4] 'バ' --> 'バ'",
266
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
267
+ ],
268
+ "n_oov_chars": 0,
269
+ "oov_ratio": 0.0,
270
+ "oov_charset": "[]"
271
+ },
272
+ {
273
+ "text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
274
+ "decoded_text": "とにかく過去問題をやり、自分の苦手な分野をできるようにして行きました。最近の土木現場では、環境への影響を考えて工事をしなければならないので、この資格を取得しようと思いました。合格して本当に良かったです。",
275
+ "diff": [
276
+ "replace text[21:23] --> decoded_text[21:22] 'で' --> 'で'",
277
+ "replace text[43:45] --> decoded_text[42:43] 'で' --> 'で'",
278
+ "replace text[64:66] --> decoded_text[62:63] 'ば' --> 'ば'",
279
+ "replace text[71:73] --> decoded_text[68:69] 'で' --> 'で'",
280
+ "replace text[102:104] --> decoded_text[98:99] 'で' --> 'で'"
281
+ ],
282
+ "n_oov_chars": 0,
283
+ "oov_ratio": 0.0,
284
+ "oov_charset": "[]"
285
+ },
286
+ {
287
+ "text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
288
+ "decoded_text": "勉強する時と、遊ぶときの切り替えをうまくやり、合格へ向けて頑張ってください。",
289
+ "diff": [
290
+ "replace text[8:10] --> decoded_text[8:9] 'ぶ' --> 'ぶ'",
291
+ "replace text[35:37] --> decoded_text[34:35] 'だ' --> 'だ'"
292
+ ],
293
+ "n_oov_chars": 0,
294
+ "oov_ratio": 0.0,
295
+ "oov_charset": "[]"
296
+ },
297
+ {
298
+ "text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
299
+ "decoded_text": "過去問を何度もやりました。頑張ってきたことが成果に出て嬉しいです。この調子で、測量士補、2級土木施工管理技術検定の学科試験にも合格できるように頑張り たいと思います。",
300
+ "diff": [
301
+ "replace text[21:23] --> decoded_text[21:22] 'が' --> 'が'",
302
+ "replace text[31:33] --> decoded_text[30:31] 'で' --> 'で'",
303
+ "replace text[39:41] --> decoded_text[37:38] 'で' --> 'で'",
304
+ "replace text[68:70] --> decoded_text[65:66] 'で' --> 'で'"
305
+ ],
306
+ "n_oov_chars": 0,
307
+ "oov_ratio": 0.0,
308
+ "oov_charset": "[]"
309
+ },
310
+ {
311
+ "text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
312
+ "decoded_text": "何度も何度も繰り返し過去問を解くことが合格への近道です。頑張ってください。",
313
+ "diff": [
314
+ "replace text[18:20] --> decoded_text[18:19] 'が' --> 'が'",
315
+ "replace text[26:28] --> decoded_text[25:26] 'で' --> 'で'",
316
+ "replace text[35:37] --> decoded_text[33:34] 'だ' --> 'だ'"
317
+ ],
318
+ "n_oov_chars": 0,
319
+ "oov_ratio": 0.0,
320
+ "oov_charset": "[]"
321
+ },
322
+ {
323
+ "text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
324
+ "decoded_text": "放課後も残って勉強しました。その中で法律と施工管理を重点的に勉強しました。さらに作文も頑張りました。来年には2級ビオトープ計画管理士も受験して合格したいです。将来に必要な資格なので、持っていて損はないと思います。合格して本当に嬉しいです。",
325
+ "diff": [
326
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
327
+ "replace text[57:59] --> decoded_text[56:57] 'ビ' --> 'ビ'",
328
+ "replace text[62:64] --> decoded_text[60:61] 'プ' --> 'プ'",
329
+ "replace text[79:81] --> decoded_text[76:77] 'で' --> 'で'",
330
+ "replace text[93:95] --> decoded_text[89:90] 'で' --> 'で'",
331
+ "replace text[121:123] --> decoded_text[116:117] 'で' --> 'で'"
332
+ ],
333
+ "n_oov_chars": 0,
334
+ "oov_ratio": 0.0,
335
+ "oov_charset": "[]"
336
+ },
337
+ {
338
+ "text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
339
+ "decoded_text": "やる気があれば合格できます。専門学校に入学したからには自分で目標を作り、積極的に挑戦して行ってください。",
340
+ "diff": [
341
+ "replace text[3:5] --> decoded_text[3:4] 'が' --> 'が'",
342
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
343
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
344
+ "replace text[51:53] --> decoded_text[48:49] 'だ' --> 'だ'"
345
+ ],
346
+ "n_oov_chars": 0,
347
+ "oov_ratio": 0.0,
348
+ "oov_charset": "[]"
349
+ },
350
+ {
351
+ "text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
352
+ "decoded_text": "放課後残って勉強しました。まずはどんな形であっても問題に取り組む事が大切だと思います。電気の知識はまだまだですが、学習の方法が定まってきたので、残りの2科目(電力科目・機械科目)、さらには消防設備士試験にも合格したいです。",
353
+ "diff": [
354
+ "replace text[14:16] --> decoded_text[14:15] 'ず' --> 'ず'",
355
+ "replace text[17:19] --> decoded_text[16:17] 'ど' --> 'ど'",
356
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
357
+ "replace text[36:38] --> decoded_text[33:34] 'が' --> 'が'",
358
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'",
359
+ "replace text[55:57] --> decoded_text[50:51] 'だ' --> 'だ'",
360
+ "replace text[58:62] --> decoded_text[52:54] 'だで' --> 'だで'",
361
+ "replace text[63:65] --> decoded_text[55:56] 'が' --> 'が'",
362
+ "replace text[71:73] --> decoded_text[62:63] 'が' --> 'が'",
363
+ "replace text[80:82] --> decoded_text[70:71] 'で' --> 'で'",
364
+ "replace text[119:121] --> decoded_text[108:109] 'で' --> 'で'"
365
+ ],
366
+ "n_oov_chars": 0,
367
+ "oov_ratio": 0.0,
368
+ "oov_charset": "[]"
369
+ },
370
+ {
371
+ "text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
372
+ "decoded_text": "気になる資格は、早め早めに下調べしておくことが大切だと思います。問題を知った上で授業を受けると、理解が、より深められます。",
373
+ "diff": [
374
+ "replace text[15:17] --> decoded_text[15:16] 'べ' --> 'べ'",
375
+ "replace text[23:25] --> decoded_text[22:23] 'が' --> 'が'",
376
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'",
377
+ "replace text[53:55] --> decoded_text[50:51] 'が' --> 'が'"
378
+ ],
379
+ "n_oov_chars": 0,
380
+ "oov_ratio": 0.0,
381
+ "oov_charset": "[]"
382
+ },
383
+ {
384
+ "text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
385
+ "decoded_text": "問題集を1冊を決めて、とことんやりこみました。何回かやっても理解できない時は、理解できる所から取り組み、自分の得意な分野で確実に点を取るよう勉強しました。残りの3科目を取得できるように、さらに努力しようと思います。",
386
+ "diff": [
387
+ "replace text[32:34] --> decoded_text[32:33] 'で' --> 'で'",
388
+ "replace text[61:63] --> decoded_text[60:61] 'で' --> 'で'",
389
+ "replace text[88:90] --> decoded_text[86:87] 'で' --> 'で'"
390
+ ],
391
+ "n_oov_chars": 0,
392
+ "oov_ratio": 0.0,
393
+ "oov_charset": "[]"
394
+ },
395
+ {
396
+ "text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
397
+ "decoded_text": "各科目ともに完璧を目指すのではなく、少しでも自分の得意な所を見つけて得点できるようにするのが重要だと思います。",
398
+ "diff": [
399
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
400
+ "replace text[21:23] --> decoded_text[20:21] 'で' --> 'で'",
401
+ "replace text[38:40] --> decoded_text[36:37] 'で' --> 'で'",
402
+ "replace text[48:50] --> decoded_text[45:46] 'が' --> 'が'",
403
+ "replace text[52:54] --> decoded_text[48:49] 'だ' --> 'だ'"
404
+ ],
405
+ "n_oov_chars": 0,
406
+ "oov_ratio": 0.0,
407
+ "oov_charset": "[]"
408
+ },
409
+ {
410
+ "text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
411
+ "decoded_text": "電験対策講座を受講し、過去問を何回も繰り返し解きました。また日頃の授業をしっかり聞き自分がわかるように、ノートにまとめました。合格はしましたが、自分では実力はまだついてないと思います。ほかの3科目も取得できるように頑張りたいと思います。",
412
+ "diff": [
413
+ "replace text[44:46] --> decoded_text[44:45] 'が' --> 'が'",
414
+ "replace text[71:73] --> decoded_text[70:71] 'が' --> 'が'",
415
+ "replace text[76:78] --> decoded_text[74:75] 'で' --> 'で'",
416
+ "replace text[83:85] --> decoded_text[80:81] 'だ' --> 'だ'",
417
+ "replace text[105:107] --> decoded_text[101:102] 'で' --> 'で'"
418
+ ],
419
+ "n_oov_chars": 0,
420
+ "oov_ratio": 0.0,
421
+ "oov_charset": "[]"
422
+ },
423
+ {
424
+ "text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
425
+ "decoded_text": "普通科出身でも、毎日の授業を真剣に聞いていれば、自分に自信がつくので頑張ってください。",
426
+ "diff": [
427
+ "replace text[5:7] --> decoded_text[5:6] 'で' --> 'で'",
428
+ "replace text[23:25] --> decoded_text[22:23] 'ば' --> 'ば'",
429
+ "replace text[31:33] --> decoded_text[29:30] 'が' --> 'が'",
430
+ "replace text[36:38] --> decoded_text[33:34] 'で' --> 'で'",
431
+ "replace text[43:45] --> decoded_text[39:40] 'だ' --> 'だ'"
432
+ ],
433
+ "n_oov_chars": 0,
434
+ "oov_ratio": 0.0,
435
+ "oov_charset": "[]"
436
+ },
437
+ {
438
+ "text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
439
+ "decoded_text": "筆記試験対策では理解できるまで、過去問を繰り返し解きました。実技試験対策では、ミスをしないように、工夫した練習をしました。合格をいただいて、高圧の電気工事に従事する事ができるので嬉しかったです。",
440
+ "diff": [
441
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
442
+ "replace text[11:13] --> decoded_text[10:11] 'で' --> 'で'",
443
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
444
+ "replace text[39:41] --> decoded_text[36:37] 'で' --> 'で'",
445
+ "replace text[70:72] --> decoded_text[66:67] 'だ' --> 'だ'",
446
+ "replace text[88:92] --> decoded_text[83:85] 'がで' --> 'がで'",
447
+ "replace text[95:97] --> decoded_text[88:89] 'で' --> 'で'",
448
+ "replace text[102:104] --> decoded_text[94:95] 'で' --> 'で'"
449
+ ],
450
+ "n_oov_chars": 0,
451
+ "oov_ratio": 0.0,
452
+ "oov_charset": "[]"
453
+ },
454
+ {
455
+ "text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
456
+ "decoded_text": "入学してから受ける国家試験の中で少し難しいですが、頑張れば取れる資格なので、最後まで努力してみてください。",
457
+ "diff": [
458
+ "replace text[15:17] --> decoded_text[15:16] 'で' --> 'で'",
459
+ "replace text[22:24] --> decoded_text[21:22] 'で' --> 'で'",
460
+ "replace text[25:27] --> decoded_text[23:24] 'が' --> 'が'",
461
+ "replace text[31:33] --> decoded_text[28:29] 'ば' --> 'ば'",
462
+ "replace text[40:42] --> decoded_text[36:37] 'で' --> 'で'",
463
+ "replace text[46:48] --> decoded_text[41:42] 'で' --> 'で'",
464
+ "replace text[55:57] --> decoded_text[49:50] 'だ' --> 'だ'"
465
+ ],
466
+ "n_oov_chars": 0,
467
+ "oov_ratio": 0.0,
468
+ "oov_charset": "[]"
469
+ },
470
+ {
471
+ "text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
472
+ "decoded_text": "先生が丁寧に教えてくださるので日々の授業を大切にし、分からない所はその日に先生に聞きに行きました。就職に有利になるように取得した資格を就職活動のため、また社会にでて仕事に活かしていきたいです。",
473
+ "diff": [
474
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
475
+ "replace text[11:13] --> decoded_text[10:11] 'だ' --> 'だ'",
476
+ "replace text[16:18] --> decoded_text[14:15] 'で' --> 'で'",
477
+ "replace text[83:85] --> decoded_text[80:81] 'で' --> 'で'",
478
+ "replace text[97:99] --> decoded_text[93:94] 'で' --> 'で'"
479
+ ],
480
+ "n_oov_chars": 0,
481
+ "oov_ratio": 0.0,
482
+ "oov_charset": "[]"
483
+ },
484
+ {
485
+ "text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
486
+ "decoded_text": "入学した頃は電気に関して分からなかった私でも取得することができました。皆さんも自信を持って頑張ってください。",
487
+ "diff": [
488
+ "replace text[20:22] --> decoded_text[20:21] 'で' --> 'で'",
489
+ "replace text[29:33] --> decoded_text[28:30] 'がで' --> 'がで'",
490
+ "replace text[53:55] --> decoded_text[50:51] 'だ' --> 'だ'"
491
+ ],
492
+ "n_oov_chars": 0,
493
+ "oov_ratio": 0.0,
494
+ "oov_charset": "[]"
495
+ },
496
+ {
497
+ "text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
498
+ "decoded_text": "とにかく過去問を何回も解き、疑問があれば先生に質問して分かるまで毎日の勉強を頑張りました。合格できて本当に良かったです。今後は第三種電気主任技術者の資格取得に向けて頑張ります。",
499
+ "diff": [
500
+ "replace text[16:18] --> decoded_text[16:17] 'が' --> 'が'",
501
+ "replace text[32:34] --> decoded_text[31:32] 'で' --> 'で'",
502
+ "replace text[49:51] --> decoded_text[47:48] 'で' --> 'で'",
503
+ "replace text[60:62] --> decoded_text[57:58] 'で' --> 'で'"
504
+ ],
505
+ "n_oov_chars": 0,
506
+ "oov_ratio": 0.0,
507
+ "oov_charset": "[]"
508
+ },
509
+ {
510
+ "text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職して仕事に活かしていきたいと思います。",
511
+ "decoded_text": "第一種電気工事士の本の要点をノートにおさえて復習しました。実技では配線図が分からず先生に教えていただき、早い段階で理解 きたのも合格できた要因ではないかと思います。合格して本当に嬉しかったです。これから就職��て仕事に活かしていきたいと思います。",
512
+ "diff": [
513
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
514
+ "replace text[37:39] --> decoded_text[36:37] 'が' --> 'が'",
515
+ "replace text[42:44] --> decoded_text[40:41] 'ず' --> 'ず'",
516
+ "replace text[52:54] --> decoded_text[49:50] 'だ' --> 'だ'",
517
+ "replace text[60:62] --> decoded_text[56:57] 'で' --> 'で'",
518
+ "replace text[71:73] --> decoded_text[66:67] 'で' --> 'で'",
519
+ "replace text[77:79] --> decoded_text[71:72] 'で' --> 'で'",
520
+ "replace text[101:103] --> decoded_text[94:95] 'で' --> 'で'"
521
+ ],
522
+ "n_oov_chars": 0,
523
+ "oov_ratio": 0.0,
524
+ "oov_charset": "[]"
525
+ },
526
+ {
527
+ "text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
528
+ "decoded_text": "分からない場合は先生に聞けば、すぐ教えて下さるので早めに聞いたら良いと思います。",
529
+ "diff": [
530
+ "replace text[13:15] --> decoded_text[13:14] 'ば' --> 'ば'",
531
+ "replace text[17:19] --> decoded_text[16:17] 'ぐ' --> 'ぐ'",
532
+ "replace text[26:28] --> decoded_text[24:25] 'で' --> 'で'"
533
+ ],
534
+ "n_oov_chars": 0,
535
+ "oov_ratio": 0.0,
536
+ "oov_charset": "[]"
537
+ },
538
+ {
539
+ "text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
540
+ "decoded_text": "夏休みも学校へ行き、先生に教えていただきました。試験が終わってからは合格しているようにと祈っていました。合格と聞いて、とても嬉しかったです。これからは取得して終わりではなく、取得した資格をさらに活かせれるように勉強していきたいと思います。",
541
+ "diff": [
542
+ "replace text[18:20] --> decoded_text[18:19] 'だ' --> 'だ'",
543
+ "replace text[27:29] --> decoded_text[26:27] 'が' --> 'が'",
544
+ "replace text[69:71] --> decoded_text[67:68] 'で' --> 'で'",
545
+ "replace text[85:87] --> decoded_text[82:83] 'で' --> 'で'"
546
+ ],
547
+ "n_oov_chars": 0,
548
+ "oov_ratio": 0.0,
549
+ "oov_charset": "[]"
550
+ },
551
+ {
552
+ "text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
553
+ "decoded_text": "自分の苦手な問題を1つでも無くし、どの問題が出題されても対応できるように勉強すれば大丈夫です!",
554
+ "diff": [
555
+ "replace text[11:13] --> decoded_text[11:12] 'で' --> 'で'",
556
+ "replace text[18:20] --> decoded_text[17:18] 'ど' --> 'ど'",
557
+ "replace text[23:25] --> decoded_text[21:22] 'が' --> 'が'",
558
+ "replace text[33:35] --> decoded_text[30:31] 'で' --> 'で'",
559
+ "replace text[44:46] --> decoded_text[40:41] 'ば' --> 'ば'",
560
+ "replace text[49:51] --> decoded_text[44:45] 'で' --> 'で'"
561
+ ],
562
+ "n_oov_chars": 0,
563
+ "oov_ratio": 0.0,
564
+ "oov_charset": "[]"
565
+ },
566
+ {
567
+ "text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
568
+ "decoded_text": "私は計算が苦手なので、マンツーマンで先生に教えていただき、頑張りました。資格取得を目標に専門学校に入学したので合格通知が届いたときは本当に嬉しかったです。さらに次の資格取得に向け頑張りたいと思います。",
569
+ "diff": [
570
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
571
+ "replace text[10:12] --> decoded_text[9:10] 'で' --> 'で'",
572
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
573
+ "replace text[29:31] --> decoded_text[26:27] 'だ' --> 'だ'",
574
+ "replace text[58:60] --> decoded_text[54:55] 'で' --> 'で'",
575
+ "replace text[64:66] --> decoded_text[59:60] 'が' --> 'が'",
576
+ "replace text[80:82] --> decoded_text[74:75] 'で' --> 'で'"
577
+ ],
578
+ "n_oov_chars": 0,
579
+ "oov_ratio": 0.0,
580
+ "oov_charset": "[]"
581
+ },
582
+ {
583
+ "text": "得意分野より苦手分野を克服することで合格に近づけると思います。最後まで諦めずに頑張ってください。",
584
+ "decoded_text": "得意分野より苦手分野を克服することで合格に近づけると���います。最後まで諦めずに頑張ってください。",
585
+ "diff": [
586
+ "replace text[17:19] --> decoded_text[17:18] 'で' --> 'で'",
587
+ "replace text[23:25] --> decoded_text[22:23] 'づ' --> 'づ'",
588
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
589
+ "replace text[40:42] --> decoded_text[37:38] 'ず' --> 'ず'",
590
+ "replace text[48:50] --> decoded_text[44:45] 'だ' --> 'だ'"
591
+ ],
592
+ "n_oov_chars": 0,
593
+ "oov_ratio": 0.0,
594
+ "oov_charset": "[]"
595
+ },
596
+ {
597
+ "text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
598
+ "decoded_text": "実技が苦手だったので、学校に放課後も残って頑張りました。復習も必ずしました。この資格を仕事で活かせるように頑張りたいと思います。、これからも、まだまだ他の資格にも挑戦して行きます。",
599
+ "diff": [
600
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
601
+ "replace text[6:8] --> decoded_text[5:6] 'だ' --> 'だ'",
602
+ "replace text[11:13] --> decoded_text[9:10] 'で' --> 'で'",
603
+ "replace text[35:37] --> decoded_text[32:33] 'ず' --> 'ず'",
604
+ "replace text[49:51] --> decoded_text[45:46] 'で' --> 'で'",
605
+ "replace text[77:79] --> decoded_text[72:73] 'だ' --> 'だ'",
606
+ "replace text[80:82] --> decoded_text[74:75] 'だ' --> 'だ'"
607
+ ],
608
+ "n_oov_chars": 0,
609
+ "oov_ratio": 0.0,
610
+ "oov_charset": "[]"
611
+ },
612
+ {
613
+ "text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
614
+ "decoded_text": "自分の苦手なことで壁にぶつかっても、諦めずに頑張ってください。後悔だけはしないように、やるからには全力で挑んでください。",
615
+ "diff": [
616
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
617
+ "replace text[12:14] --> decoded_text[11:12] 'ぶ' --> 'ぶ'",
618
+ "replace text[22:24] --> decoded_text[20:21] 'ず' --> 'ず'",
619
+ "replace text[30:32] --> decoded_text[27:28] 'だ' --> 'だ'",
620
+ "replace text[37:39] --> decoded_text[33:34] 'だ' --> 'だ'",
621
+ "replace text[56:58] --> decoded_text[51:52] 'で' --> 'で'",
622
+ "replace text[60:62] --> decoded_text[54:55] 'で' --> 'で'",
623
+ "replace text[63:65] --> decoded_text[56:57] 'だ' --> 'だ'"
624
+ ],
625
+ "n_oov_chars": 0,
626
+ "oov_ratio": 0.0,
627
+ "oov_charset": "[]"
628
+ },
629
+ {
630
+ "text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
631
+ "decoded_text": "前回正解率の低かったアルゴリズムや表計算を重点的に復習しました。本番では諦めずに問題を読み続けました。大学編入しても、情報処理技術者試験の勉強は続けていき、次は応用情報技術者試験にもチャレンジしていきたいです。",
632
+ "diff": [
633
+ "replace text[12:14] --> decoded_text[12:13] 'ゴ' --> 'ゴ'",
634
+ "replace text[15:17] --> decoded_text[14:15] 'ズ' --> 'ズ'",
635
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'",
636
+ "replace text[41:43] --> decoded_text[38:39] 'ず' --> 'ず'",
637
+ "replace text[99:101] --> decoded_text[95:96] 'ジ' --> 'ジ'",
638
+ "replace text[107:109] --> decoded_text[102:103] 'で' --> 'で'"
639
+ ],
640
+ "n_oov_chars": 0,
641
+ "oov_ratio": 0.0,
642
+ "oov_charset": "[]"
643
+ },
644
+ {
645
+ "text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
646
+ "decoded_text": "普段の授業をしっかり聞くことと、試験中は諦めない気持ちがあれば大丈夫です。",
647
+ "diff": [
648
+ "replace text[27:29] --> decoded_text[27:28] 'が' --> 'が'",
649
+ "replace text[31:33] --> decoded_text[30:31] 'ば' --> 'ば'",
650
+ "replace text[36:38] --> decoded_text[34:35] 'で' --> 'で'"
651
+ ],
652
+ "n_oov_chars": 0,
653
+ "oov_ratio": 0.0,
654
+ "oov_charset": "[]"
655
+ },
656
+ {
657
+ "text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったて��す。",
658
+ "decoded_text": "この資格が関係する、舞台現場でアルバイトをしていました。結果にはあまり自信がなかったのですが、合格通知が届いた時は何回も見直し、とても嬉しかったです。",
659
+ "diff": [
660
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
661
+ "replace text[15:17] --> decoded_text[14:15] 'で' --> 'で'",
662
+ "replace text[19:21] --> decoded_text[17:18] 'バ' --> 'バ'",
663
+ "replace text[40:42] --> decoded_text[37:38] 'が' --> 'が'",
664
+ "replace text[47:49] --> decoded_text[43:44] 'で' --> 'で'",
665
+ "replace text[50:52] --> decoded_text[45:46] 'が' --> 'が'",
666
+ "replace text[57:59] --> decoded_text[51:52] 'が' --> 'が'",
667
+ "replace text[79:81] --> decoded_text[72:73] 'で' --> 'で'"
668
+ ],
669
+ "n_oov_chars": 0,
670
+ "oov_ratio": 0.0,
671
+ "oov_charset": "[]"
672
+ },
673
+ {
674
+ "text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
675
+ "decoded_text": "資格対策授業で分からないところは積極的に質問しました。また復習はかかさずしました。資格を取得したからといって、勉強したことを忘れたら意味がありませんので、資格に恥じないよう に今後も頑張りたいと思います。",
676
+ "diff": [
677
+ "replace text[6:8] --> decoded_text[6:7] 'で' --> 'で'",
678
+ "replace text[36:38] --> decoded_text[35:36] 'ず' --> 'ず'",
679
+ "replace text[70:72] --> decoded_text[68:69] 'が' --> 'が'",
680
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'",
681
+ "replace text[85:87] --> decoded_text[81:82] 'じ' --> 'じ'"
682
+ ],
683
+ "n_oov_chars": 0,
684
+ "oov_ratio": 0.0,
685
+ "oov_charset": "[]"
686
+ },
687
+ {
688
+ "text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
689
+ "decoded_text": "試験を想定して取り組みました。同じ試験を受けるクラスメイトに分からない所を聞きました。国家資格なので、持っていて損はないと思います。",
690
+ "diff": [
691
+ "replace text[16:18] --> decoded_text[16:17] 'じ' --> 'じ'",
692
+ "replace text[50:52] --> decoded_text[49:50] 'で' --> 'で'"
693
+ ],
694
+ "n_oov_chars": 0,
695
+ "oov_ratio": 0.0,
696
+ "oov_charset": "[]"
697
+ },
698
+ {
699
+ "text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
700
+ "decoded_text": "何度も、学科、実技、判断(旧要素)の対策をして合格を目指して頑張ってください。",
701
+ "diff": [
702
+ "replace text[35:37] --> decoded_text[35:36] 'だ' --> 'だ'"
703
+ ],
704
+ "n_oov_chars": 0,
705
+ "oov_ratio": 0.0,
706
+ "oov_charset": "[]"
707
+ },
708
+ {
709
+ "text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
710
+ "decoded_text": "自分の力を信じて落ち着いて望んでください。練習が実を結ぶはずです。",
711
+ "diff": [
712
+ "replace text[6:8] --> decoded_text[6:7] 'じ' --> 'じ'",
713
+ "replace text[16:18] --> decoded_text[15:16] 'で' --> 'で'",
714
+ "replace text[19:21] --> decoded_text[17:18] 'だ' --> 'だ'",
715
+ "replace text[26:28] --> decoded_text[23:24] 'が' --> 'が'",
716
+ "replace text[31:33] --> decoded_text[27:28] 'ぶ' --> 'ぶ'",
717
+ "replace text[34:38] --> decoded_text[29:31] 'ずで' --> 'ずで'"
718
+ ],
719
+ "n_oov_chars": 0,
720
+ "oov_ratio": 0.0,
721
+ "oov_charset": "[]"
722
+ },
723
+ {
724
+ "text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
725
+ "decoded_text": "分からない所は、先生に質問して勉強すれば大丈夫です。私は納得するまで解説してくださった先生に感謝しています。",
726
+ "diff": [
727
+ "replace text[19:21] --> decoded_text[19:20] 'ば' --> 'ば'",
728
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
729
+ "replace text[35:37] --> decoded_text[33:34] 'で' --> 'で'",
730
+ "replace text[42:44] --> decoded_text[39:40] 'だ' --> 'だ'"
731
+ ],
732
+ "n_oov_chars": 0,
733
+ "oov_ratio": 0.0,
734
+ "oov_charset": "[]"
735
+ },
736
+ {
737
+ "text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネ��トで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
738
+ "decoded_text": "授業で分からない所は先生や友達に聞きました。問題はまず自分で解いて分からない用語は、本やネットで調べました。試験には合格しましたが、まだ分からないことが多いので、資格で勉強した知識をもっと深めていきたいです。",
739
+ "diff": [
740
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
741
+ "replace text[27:29] --> decoded_text[26:27] 'ず' --> 'ず'",
742
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
743
+ "replace text[50:52] --> decoded_text[47:48] 'で' --> 'で'",
744
+ "replace text[53:55] --> decoded_text[49:50] 'べ' --> 'べ'",
745
+ "replace text[69:71] --> decoded_text[64:65] 'が' --> 'が'",
746
+ "replace text[73:75] --> decoded_text[67:68] 'だ' --> 'だ'",
747
+ "replace text[82:84] --> decoded_text[75:76] 'が' --> 'が'",
748
+ "replace text[87:89] --> decoded_text[79:80] 'で' --> 'で'",
749
+ "replace text[92:94] --> decoded_text[83:84] 'で' --> 'で'",
750
+ "replace text[111:113] --> decoded_text[101:102] 'で' --> 'で'"
751
+ ],
752
+ "n_oov_chars": 0,
753
+ "oov_ratio": 0.0,
754
+ "oov_charset": "[]"
755
+ },
756
+ {
757
+ "text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
758
+ "decoded_text": "私は勉強が苦手でしたが、毎日勉強してAランクを取得できました。諦めないでください。",
759
+ "diff": [
760
+ "replace text[4:6] --> decoded_text[4:5] 'が' --> 'が'",
761
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
762
+ "replace text[12:14] --> decoded_text[10:11] 'が' --> 'が'",
763
+ "replace text[38:40] --> decoded_text[35:36] 'で' --> 'で'",
764
+ "replace text[41:43] --> decoded_text[37:38] 'だ' --> 'だ'"
765
+ ],
766
+ "n_oov_chars": 0,
767
+ "oov_ratio": 0.0,
768
+ "oov_charset": "[]"
769
+ },
770
+ {
771
+ "text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
772
+ "decoded_text": "受かりたい気持ちがあれば、自然と頑張れます! 最後まで諦めずに頑張ってください!",
773
+ "diff": [
774
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
775
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
776
+ "replace text[28:30] --> decoded_text[26:27] 'で' --> 'で'",
777
+ "replace text[32:34] --> decoded_text[29:30] 'ず' --> 'ず'",
778
+ "replace text[40:42] --> decoded_text[36:37] 'だ' --> 'だ'"
779
+ ],
780
+ "n_oov_chars": 0,
781
+ "oov_ratio": 0.0,
782
+ "oov_charset": "[]"
783
+ },
784
+ {
785
+ "text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
786
+ "decoded_text": "対策授業を真面目に受けました。分からない所は、先生に質問し自分が納得するまで勉強しました。合格をいただいて、本当に嬉しかったです。",
787
+ "diff": [
788
+ "replace text[31:33] --> decoded_text[31:32] 'が' --> 'が'",
789
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
790
+ "replace text[52:54] --> decoded_text[50:51] 'だ' --> 'だ'",
791
+ "replace text[65:67] --> decoded_text[62:63] 'で' --> 'で'"
792
+ ],
793
+ "n_oov_chars": 0,
794
+ "oov_ratio": 0.0,
795
+ "oov_charset": "[]"
796
+ },
797
+ {
798
+ "text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
799
+ "decoded_text": "授業を真面目に聞いていたら、必ず合格できます! ここには専門の先生がいるので一人一人に丁寧に教えてくれますよ。",
800
+ "diff": [
801
+ "replace text[15:17] --> decoded_text[15:16] 'ず' --> 'ず'",
802
+ "replace text[19:21] --> decoded_text[18:19] 'で' --> 'で'",
803
+ "replace text[35:37] --> decoded_text[33:34] 'が' --> 'が'",
804
+ "replace text[40:42] --> decoded_text[37:38] 'で' --> 'で'"
805
+ ],
806
+ "n_oov_chars": 0,
807
+ "oov_ratio": 0.0,
808
+ "oov_charset": "[]"
809
+ },
810
+ {
811
+ "text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。この資格を就職でも活かしたいと思います。",
812
+ "decoded_text": "弱点を無くすために、間違えたところは、何回も復習をしました。合格して本当に嬉しかったです。���の資格を就職でも活かしたいと思います。",
813
+ "diff": [
814
+ "replace text[42:44] --> decoded_text[42:43] 'で' --> 'で'",
815
+ "replace text[53:55] --> decoded_text[52:53] 'で' --> 'で'"
816
+ ],
817
+ "n_oov_chars": 0,
818
+ "oov_ratio": 0.0,
819
+ "oov_charset": "[]"
820
+ },
821
+ {
822
+ "text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
823
+ "decoded_text": "受かりたい気持ちがあればきっと合格できます! 分からない所は、諦めずに先生に質問して克服してください!",
824
+ "diff": [
825
+ "replace text[8:10] --> decoded_text[8:9] 'が' --> 'が'",
826
+ "replace text[12:14] --> decoded_text[11:12] 'ば' --> 'ば'",
827
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
828
+ "replace text[36:38] --> decoded_text[33:34] 'ず' --> 'ず'",
829
+ "replace text[51:53] --> decoded_text[47:48] 'だ' --> 'だ'"
830
+ ],
831
+ "n_oov_chars": 0,
832
+ "oov_ratio": 0.0,
833
+ "oov_charset": "[]"
834
+ },
835
+ {
836
+ "text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
837
+ "decoded_text": "問題集を何回も解くことが一番大切です。また電車通学なので通学中にも勉強しました。資格を取得できたので、今後の就職活動に役立てたいと思います。また将来の夢のために、この資格を有効に活用したいと思います。",
838
+ "diff": [
839
+ "replace text[11:13] --> decoded_text[11:12] 'が' --> 'が'",
840
+ "replace text[17:19] --> decoded_text[16:17] 'で' --> 'で'",
841
+ "replace text[29:31] --> decoded_text[27:28] 'で' --> 'で'",
842
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'",
843
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
844
+ ],
845
+ "n_oov_chars": 0,
846
+ "oov_ratio": 0.0,
847
+ "oov_charset": "[]"
848
+ },
849
+ {
850
+ "text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
851
+ "decoded_text": "授業で手厚い資格対策をしてくださったので、それを元に復習しました。資格を取得することも、もちろんですが、その資格で勉強した事をきちんと身につけ、今後に役立てていきたいです。",
852
+ "diff": [
853
+ "replace text[2:4] --> decoded_text[2:3] 'で' --> 'で'",
854
+ "replace text[15:17] --> decoded_text[14:15] 'だ' --> 'だ'",
855
+ "replace text[21:23] --> decoded_text[19:20] 'で' --> 'で'",
856
+ "replace text[51:53] --> decoded_text[48:49] 'で' --> 'で'",
857
+ "replace text[54:56] --> decoded_text[50:51] 'が' --> 'が'",
858
+ "replace text[61:63] --> decoded_text[56:57] 'で' --> 'で'",
859
+ "replace text[89:91] --> decoded_text[83:84] 'で' --> 'で'"
860
+ ],
861
+ "n_oov_chars": 0,
862
+ "oov_ratio": 0.0,
863
+ "oov_charset": "[]"
864
+ },
865
+ {
866
+ "text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
867
+ "decoded_text": "自分が勉強をした分だけ結果はついてきます。自分の夢を後押ししてくれる資格は絶対持ってるべきです。自分の夢の為に頑張りましょう。",
868
+ "diff": [
869
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
870
+ "replace text[10:12] --> decoded_text[9:10] 'だ' --> 'だ'",
871
+ "replace text[45:47] --> decoded_text[43:44] 'べ' --> 'べ'",
872
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
873
+ ],
874
+ "n_oov_chars": 0,
875
+ "oov_ratio": 0.0,
876
+ "oov_charset": "[]"
877
+ },
878
+ {
879
+ "text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
880
+ "decoded_text": "対策授業には積極的に参加し、真面目に勉強しました。将来の事を考えたとき、この資格は絶対取得すべきだと思い、受験しました。資格試験の勉強は、自分にプラスになったと思います。",
881
+ "diff": [
882
+ "replace text[46:48] --> decoded_text[46:47] 'べ' --> 'べ'",
883
+ "replace text[49:51] --> decoded_text[48:49] 'だ' --> 'だ'",
884
+ "replace text[74:76] --> decoded_text[72:73] 'プ' --> 'プ'"
885
+ ],
886
+ "n_oov_chars": 0,
887
+ "oov_ratio": 0.0,
888
+ "oov_charset": "[]"
889
+ },
890
+ {
891
+ "text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
892
+ "decoded_text": "対策用の教科書を繰り返し解いて覚えました。合格をいただいて本当に嬉しかったです。頑張った結果だったので自分に自信がつきました。",
893
+ "diff": [
894
+ "replace text[26:28] --> decoded_text[26:27] 'だ' --> 'だ'",
895
+ "replace text[38:40] --> decoded_text[37:38] 'で' --> 'で'",
896
+ "replace text[48:50] --> decoded_text[46:47] 'だ' --> 'だ'",
897
+ "replace text[53:55] --> decoded_text[50:51] 'で' --> 'で'",
898
+ "replace text[60:62] --> decoded_text[56:57] 'が' --> 'が'"
899
+ ],
900
+ "n_oov_chars": 0,
901
+ "oov_ratio": 0.0,
902
+ "oov_charset": "[]"
903
+ },
904
+ {
905
+ "text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
906
+ "decoded_text": "この試験に限らず、どの資格を勉強するにもまず、繰り返し問題を解いて覚えることが大事です。そうする事で問題にも慣れ解けるようになります。",
907
+ "diff": [
908
+ "replace text[9:11] --> decoded_text[9:10] 'ど' --> 'ど'",
909
+ "replace text[22:24] --> decoded_text[21:22] 'ず' --> 'ず'",
910
+ "replace text[40:42] --> decoded_text[38:39] 'が' --> 'が'",
911
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
912
+ "replace text[53:55] --> decoded_text[49:50] 'で' --> 'で'"
913
+ ],
914
+ "n_oov_chars": 0,
915
+ "oov_ratio": 0.0,
916
+ "oov_charset": "[]"
917
+ },
918
+ {
919
+ "text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
920
+ "decoded_text": "練習で間違えた問題は2回、3回と繰り返し解きました。やっぱり一番の目的は就職です。就職する際に資格を持っていると有利になるので、合格して本当に良かったです。",
921
+ "diff": [
922
+ "replace text[28:30] --> decoded_text[28:29] 'ぱ' --> 'ぱ'",
923
+ "replace text[39:41] --> decoded_text[38:39] 'で' --> 'で'",
924
+ "replace text[64:66] --> decoded_text[62:63] 'で' --> 'で'",
925
+ "replace text[78:80] --> decoded_text[75:76] 'で' --> 'で'"
926
+ ],
927
+ "n_oov_chars": 0,
928
+ "oov_ratio": 0.0,
929
+ "oov_charset": "[]"
930
+ },
931
+ {
932
+ "text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
933
+ "decoded_text": "やはり資格がないと就職は難しいと思います。取得できるかどうか不安はあると思いますが、絶対受かっているという意思を持って頑張ってください。また、対策授業には積極的に参加してください。",
934
+ "diff": [
935
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
936
+ "replace text[24:26] --> decoded_text[23:24] 'で' --> 'で'",
937
+ "replace text[29:31] --> decoded_text[27:28] 'ど' --> 'ど'",
938
+ "replace text[67:69] --> decoded_text[64:65] 'だ' --> 'だ'",
939
+ "replace text[90:92] --> decoded_text[86:87] 'だ' --> 'だ'"
940
+ ],
941
+ "n_oov_chars": 0,
942
+ "oov_ratio": 0.0,
943
+ "oov_charset": "[]"
944
+ },
945
+ {
946
+ "text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
947
+ "decoded_text": "試験範囲は広いですが、出題は同じようなパターンが多いので、繰り返し過去問を解いていれば合格できますよ。",
948
+ "diff": [
949
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
950
+ "replace text[10:12] --> decoded_text[9:10] 'が' --> 'が'",
951
+ "replace text[44:46] --> decoded_text[42:43] 'ば' --> 'ば'",
952
+ "replace text[48:50] --> decoded_text[45:46] 'で' --> 'で'"
953
+ ],
954
+ "n_oov_chars": 0,
955
+ "oov_ratio": 0.0,
956
+ "oov_charset": "[]"
957
+ },
958
+ {
959
+ "text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも��く、無事合格できました。",
960
+ "decoded_text": "通学時の電車の中でひたすら参考書を読み解き、最後の最後まで一生懸命取り組みました。また今までの授業をしっかり聞いていたので、分からないところも無く、無事合格できました。",
961
+ "diff": [
962
+ "replace text[8:10] --> decoded_text[8:9] 'で' --> 'で'",
963
+ "replace text[29:31] --> decoded_text[28:29] 'で' --> 'で'",
964
+ "replace text[47:49] --> decoded_text[45:46] 'で' --> 'で'",
965
+ "replace text[63:65] --> decoded_text[60:61] 'で' --> 'で'",
966
+ "replace text[82:84] --> decoded_text[78:79] 'で' --> 'で'"
967
+ ],
968
+ "n_oov_chars": 0,
969
+ "oov_ratio": 0.0,
970
+ "oov_charset": "[]"
971
+ },
972
+ {
973
+ "text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
974
+ "decoded_text": "数多くの資格に挑戦し、合格した時の達成感を自分で感じ取ってもらえればと思います。",
975
+ "diff": [
976
+ "replace text[23:25] --> decoded_text[23:24] 'で' --> 'で'",
977
+ "replace text[26:28] --> decoded_text[25:26] 'じ' --> 'じ'",
978
+ "replace text[35:37] --> decoded_text[33:34] 'ば' --> 'ば'"
979
+ ],
980
+ "n_oov_chars": 0,
981
+ "oov_ratio": 0.0,
982
+ "oov_charset": "[]"
983
+ },
984
+ {
985
+ "text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
986
+ "decoded_text": "学校の授業だけではなく、家でもプリントや過去問を何度も解いて勉強しました。資格を取ったらそこで終わりではなく、就職してからも役に立つ知識を身につける事ができたので、今後も活かしていこうと思います。",
987
+ "diff": [
988
+ "replace text[5:7] --> decoded_text[5:6] 'だ' --> 'だ'",
989
+ "replace text[8:10] --> decoded_text[7:8] 'で' --> 'で'",
990
+ "replace text[15:17] --> decoded_text[13:14] 'で' --> 'で'",
991
+ "replace text[18:20] --> decoded_text[15:16] 'プ' --> 'プ'",
992
+ "replace text[50:52] --> decoded_text[46:47] 'で' --> 'で'",
993
+ "replace text[55:57] --> decoded_text[50:51] 'で' --> 'で'",
994
+ "replace text[81:85] --> decoded_text[75:77] 'がで' --> 'がで'",
995
+ "replace text[88:90] --> decoded_text[80:81] 'で' --> 'で'"
996
+ ],
997
+ "n_oov_chars": 0,
998
+ "oov_ratio": 0.0,
999
+ "oov_charset": "[]"
1000
+ },
1001
+ {
1002
+ "text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1003
+ "decoded_text": "頑張ったら合格できるので機会があれば、ぜひ資格はとっておくべきだと思います。",
1004
+ "diff": [
1005
+ "replace text[7:9] --> decoded_text[7:8] 'で' --> 'で'",
1006
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
1007
+ "replace text[16:18] --> decoded_text[14:15] 'が' --> 'が'",
1008
+ "replace text[20:22] --> decoded_text[17:18] 'ば' --> 'ば'",
1009
+ "replace text[23:25] --> decoded_text[19:20] 'ぜ' --> 'ぜ'",
1010
+ "replace text[34:36] --> decoded_text[29:30] 'べ' --> 'べ'",
1011
+ "replace text[37:39] --> decoded_text[31:32] 'だ' --> 'だ'"
1012
+ ],
1013
+ "n_oov_chars": 0,
1014
+ "oov_ratio": 0.0,
1015
+ "oov_charset": "[]"
1016
+ },
1017
+ {
1018
+ "text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1019
+ "decoded_text": "この資格は音響関係の仕事で、どこに行っても活かしていけるので取得しました。 過去問は大事です。たくさんの過去問を解き、数式も出てくるので暗記だけではなく、公式も覚えるようにしました。",
1020
+ "diff": [
1021
+ "replace text[12:14] --> decoded_text[12:13] 'で' --> 'で'",
1022
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
1023
+ "replace text[31:33] --> decoded_text[29:30] 'で' --> 'で'",
1024
+ "replace text[47:49] --> decoded_text[44:45] 'で' --> 'で'",
1025
+ "replace text[71:73] --> decoded_text[67:68] 'で' --> 'で'",
1026
+ "replace text[75:77] --> decoded_text[70:71] 'だ' --> 'だ'",
1027
+ "replace text[78:80] --> decoded_text[72:73] 'で' --> 'で'"
1028
+ ],
1029
+ "n_oov_chars": 0,
1030
+ "oov_ratio": 0.0,
1031
+ "oov_charset": "[]"
1032
+ },
1033
+ {
1034
+ "text": "資格を取りたいという気持ちがあれば��丈夫です。頑張ってください。",
1035
+ "decoded_text": "資格を取りたいという気持ちがあれば大丈夫です。頑張ってください。",
1036
+ "diff": [
1037
+ "replace text[13:15] --> decoded_text[13:14] 'が' --> 'が'",
1038
+ "replace text[17:19] --> decoded_text[16:17] 'ば' --> 'ば'",
1039
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
1040
+ "replace text[31:33] --> decoded_text[28:29] 'だ' --> 'だ'"
1041
+ ],
1042
+ "n_oov_chars": 0,
1043
+ "oov_ratio": 0.0,
1044
+ "oov_charset": "[]"
1045
+ }
1046
+ ]
stats/compression_rate/deepseek-ai.DeepSeek-R1-Distill-Qwen-1.5B @ cc100.ko.diff.json ADDED
@@ -0,0 +1,216 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
4
+ "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.006211180124223602,
10
+ "oov_charset": "[\"樂\"]"
11
+ },
12
+ {
13
+ "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
14
+ "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
15
+ "diff": [
16
+ "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'",
17
+ "replace text[401:402] --> decoded_text[401:402] '累' --> '累'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.004784688995215311,
21
+ "oov_charset": "[\"樂\", \"累\"]"
22
+ },
23
+ {
24
+ "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
25
+ "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
26
+ "diff": [
27
+ "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.007936507936507936,
31
+ "oov_charset": "[\"陸\"]"
32
+ },
33
+ {
34
+ "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
35
+ "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
36
+ "diff": [
37
+ "replace text[108:109] --> decoded_text[108:109] '良' --> '良'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.007692307692307693,
41
+ "oov_charset": "[\"良\"]"
42
+ },
43
+ {
44
+ "text": "▷주자:이(理)�� 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
45
+ "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
46
+ "diff": [
47
+ "replace text[6:7] --> decoded_text[6:7] '理' --> '理'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.013513513513513514,
51
+ "oov_charset": "[\"理\"]"
52
+ },
53
+ {
54
+ "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
55
+ "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
56
+ "diff": [
57
+ "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.004629629629629629,
61
+ "oov_charset": "[\"樂\"]"
62
+ },
63
+ {
64
+ "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
65
+ "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
66
+ "diff": [
67
+ "replace text[3:4] --> decoded_text[3:4] '立' --> '立'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.007874015748031496,
71
+ "oov_charset": "[\"立\"]"
72
+ },
73
+ {
74
+ "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
75
+ "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
76
+ "diff": [
77
+ "replace text[27:28] --> decoded_text[27:28] '金' --> '金'",
78
+ "replace text[63:64] --> decoded_text[63:64] '金' --> '金'",
79
+ "replace text[119:120] --> decoded_text[119:120] '金' --> '金'"
80
+ ],
81
+ "n_oov_chars": 3,
82
+ "oov_ratio": 0.023622047244094488,
83
+ "oov_charset": "[\"金\"]"
84
+ },
85
+ {
86
+ "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
87
+ "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
88
+ "diff": [
89
+ "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'"
90
+ ],
91
+ "n_oov_chars": 1,
92
+ "oov_ratio": 0.017543859649122806,
93
+ "oov_charset": "[\"梁\"]"
94
+ },
95
+ {
96
+ "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
97
+ "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
98
+ "diff": [
99
+ "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'"
100
+ ],
101
+ "n_oov_chars": 1,
102
+ "oov_ratio": 0.011363636363636364,
103
+ "oov_charset": "[\"樂\"]"
104
+ },
105
+ {
106
+ "text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
107
+ "decoded_text": "상제님이 진주공사에서 원래는 33명에게 새 세상 일꾼 기운을 붙여서 공사를 보시려고 했는데 12명이 변심을 해서 그 자리에서 빼 버렸다. 그래서 신경수 성도 집과 문공신 성도 집에 있던 21명의 성도들이 잡혀서 왔다. 지금 여기 다내(月乃)가 상제님이 수명소 공사 주인 신경수 성도 집에서 일본 경찰들한테 체포돼서 고부경찰서까지 잡혀 가는 40리 길의 딱 중간이야. 상제님이 오신 길이 그러면 어디냐? 정토칠봉의 끝자리 수금리水金里에서 배를 타고 정읍천을 건너서 이쪽 용두龍頭마을 방향으로 오신 거다. 여기 삼거리에 주막이 있었다. 여기서 상제님이 21명의 성도들과 순검들에게 “너희도 배가 고플 테니까 가져온 음식과 고기를 여기서 배불리 먹고 가자.” 하셨다. 그래서 상제님이 여기서 술 한 잔을 드시고 나서 갑자기 일어나셔서 외치셨다.",
108
+ "diff": [
109
+ "replace text[239:240] --> decoded_text[239:240] '金' --> '金'"
110
+ ],
111
+ "n_oov_chars": 1,
112
+ "oov_ratio": 0.002421307506053269,
113
+ "oov_charset": "[\"金\"]"
114
+ },
115
+ {
116
+ "text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
117
+ "decoded_text": "이광수의 조혼을 다룬 희곡 <규한>보다는 진일보를 보인 작품. 3)金祐鎭 ... ) 그러나, 희곡이 무대상연을 전제로 하는 문학이라면, <不孝天罰 ... 의미로서의 창작 희곡은 아님. -대부분의 작품이 일본 신파 연극을 번역",
118
+ "diff": [
119
+ "replace text[77:78] --> decoded_text[77:78] '不' --> '不'"
120
+ ],
121
+ "n_oov_chars": 1,
122
+ "oov_ratio": 0.008,
123
+ "oov_charset": "[\"不\"]"
124
+ },
125
+ {
126
+ "text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
127
+ "decoded_text": "{{ 중국의 고리대금업 { 중국(中國)의 고리대금업(高利貸金業) 차 ... 아니라, 국가에서 대출을 해주는 시스템도 존재하지 않았다. 고리대금업은 전통 ... 례 서론 본론 상인(商人)의 유래 대금업의 탄생 - 위진남북조 시대의",
128
+ "diff": [
129
+ "replace text[32:33] --> decoded_text[32:33] '金' --> '金'"
130
+ ],
131
+ "n_oov_chars": 1,
132
+ "oov_ratio": 0.007874015748031496,
133
+ "oov_charset": "[\"金\"]"
134
+ },
135
+ {
136
+ "text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
137
+ "decoded_text": "..PAGE:1 종교 속의 성차별 ..PAGE:2 목 차 카톨릭 속의 ... 성차별 토론 ..PAGE:3 대부분 종교가 사제직 '여성 不可' 한국천주교 ... 대한 부정적 시각 ..PAGE:4 카톨릭 속의 성차별 사제는 남성이어야",
138
+ "diff": [
139
+ "replace text[75:76] --> decoded_text[75:76] '不' --> '不'"
140
+ ],
141
+ "n_oov_chars": 1,
142
+ "oov_ratio": 0.0078125,
143
+ "oov_charset": "[\"不\"]"
144
+ },
145
+ {
146
+ "text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
147
+ "decoded_text": "不壞)의 몸이기 때문이다. 거기에 음독금련사는 더 했다. 그의 입에서 나오는 액은 모든 것을 녹아버리",
148
+ "diff": [
149
+ "replace text[0:1] --> decoded_text[0:1] '不' --> '不'"
150
+ ],
151
+ "n_oov_chars": 1,
152
+ "oov_ratio": 0.017857142857142856,
153
+ "oov_charset": "[\"不\"]"
154
+ },
155
+ {
156
+ "text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있었다. 그는 천황의 지시하는 일",
157
+ "decoded_text": "백리무극 옆에 서 있는 인물은 바로 그의 첫제자 용구찬(龍九燦)이 서 있���다. 그는 천황의 지시하는 일",
158
+ "diff": [
159
+ "replace text[31:32] --> decoded_text[31:32] '龍' --> '龍'"
160
+ ],
161
+ "n_oov_chars": 1,
162
+ "oov_ratio": 0.017543859649122806,
163
+ "oov_charset": "[\"龍\"]"
164
+ },
165
+ {
166
+ "text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
167
+ "decoded_text": "면 정액이 고갈(枯渴)되어 죽고 말았지만 지금 북리천과 유나영은 용(龍)의 내단을 먹어 삼일까지 이렇",
168
+ "diff": [
169
+ "replace text[38:39] --> decoded_text[38:39] '龍' --> '龍'"
170
+ ],
171
+ "n_oov_chars": 1,
172
+ "oov_ratio": 0.017857142857142856,
173
+ "oov_charset": "[\"龍\"]"
174
+ },
175
+ {
176
+ "text": "라 영약(靈藥)뿐이였다.",
177
+ "decoded_text": "라 영약(靈藥)뿐이였다.",
178
+ "diff": [
179
+ "replace text[5:6] --> decoded_text[5:6] '靈' --> '靈'"
180
+ ],
181
+ "n_oov_chars": 1,
182
+ "oov_ratio": 0.07692307692307693,
183
+ "oov_charset": "[\"靈\"]"
184
+ },
185
+ {
186
+ "text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
187
+ "decoded_text": "5 '선릉역 사건' 가해女, 피해女 만남 전 흉기 챙긴 이유는? 친구 데려온다는 말에",
188
+ "diff": [
189
+ "replace text[13:14] --> decoded_text[13:14] '女' --> '女'",
190
+ "replace text[18:19] --> decoded_text[18:19] '女' --> '女'"
191
+ ],
192
+ "n_oov_chars": 2,
193
+ "oov_ratio": 0.0425531914893617,
194
+ "oov_charset": "[\"女\"]"
195
+ },
196
+ {
197
+ "text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상대성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
198
+ "decoded_text": "알프레드 노스 화이트헤드(Alfred North Whitehead)는 20세기의 대표적인 철학자 가운데 한 사람이다. 영국 케임브리지의 트리니티 칼리지에서 수학을 전공하였고, 그 후에 동 대학의 특별연구원(Fellow)과 수석 강사(1885~1911), 런던대학의 임페리얼 칼리지 응용수학교수(1914~1924), 그리고 미국 하버드대학 철학교수(1924~1937)를 역임했다. 수학자였지만 고전에도 정통했으며, 새로운 물리학의 의미를 정확히 인식하고 있었을 뿐만 아니라 전통적인 철학을 오랫동안 깊이 연구해 왔다. 수제자 버트런드 러셀과의 공저 『수학 원리』(전 3권, 1910~1913)와 같은 수리논리학 분야에서 획기적인 업적을 남긴 수학자, 논리학자로서도 높이 평가된다. 또 한편으로는 특히 아인슈타인의 상���성 원리 등 현대 자연과학의 발전을 계기로, 현대 과학설을 철학에 도입시켜 철학 사상사에 새로운 국면을 전개한 과학철학자 그리고 “유기체 철학”(philosophy of organism)의 철학자로서도 높이 평가된다. 화이트헤드는 신중한 사람이었다. “진리를 그 가장 깊은 뿌리에서 부터 탐구”(본문 제2장 중에서) 하는 작업을 평생 멈추지 않았던 사상가였으며, 오랫동안 수학의 전문가였다. 그의 최초의 철학적 저작인 『과학과 근대세계』(1925)는 그가 63세 때, 대표작 『과정과 실재』(1929)는 68세 때에, 그로부터 4년 후에는 『관념의 모험』(1933)이 출간되었다. 그 당시 사람들은 사멸된 것으로 알았던 형이상학이 우주에 관한 상상적 사유라는 형태로 당당하게 부활하는 데 놀랐다. 그의 형이상학 체계는 사물의 유동(流動)을 둘러싸고 전개되는 체계라는 형태의 우주론으로서, 어디까지나 개방된 체계였다. 형이상학을 싫어했던 존 듀이도 화이트헤드의 “유기체 철학”에 대하여 “철학에의 혁명적 공헌” 이라는 찬사를 보냈으며, 영국의 시인이자 문학평론가·철학자였던 허버트 리드는 화이트헤드를 “20세기의 데카르트”라 평하기도 했다. 현대 프랑스의 포스트모더니즘 철학의 기수로 불리는 질 들뢰즈 같은 이는 화이트헤드를 가리켜 “영미권의 마지막 위대한 철학자”로 평하였다. 지은 책으로는 『화이트헤드의 수학이란 무엇인가』『교육의 목적』『화이트헤드와의 대화』등이 있다.",
199
+ "diff": [
200
+ "replace text[809:810] --> decoded_text[809:810] '流' --> '流'"
201
+ ],
202
+ "n_oov_chars": 1,
203
+ "oov_ratio": 0.0009000900090009,
204
+ "oov_charset": "[\"流\"]"
205
+ },
206
+ {
207
+ "text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
208
+ "decoded_text": "<부가설명> 오늘 청지기의 표지(標識, 표식은 잘못된 읽기이다.) 열거한, 신실함, 신뢰할 만하다는 말은 전부 헬라어 ‘피스티스, 피스토스, 피스튜오’에서 나온 말이다. 깨끗한 양심과 순종만이 다른 단어이다. 청지기는 믿을 수 있는 인격이어야 한다는 말이다. 그런 사람은 깨끗한 양심으로 하나님의 말씀을 수행하는 지체들이 된다는 것을 나타낸다. 순종이라는 단어는 ‘휘포쿠오’ ‘휘포탓소’등인데 ‘휘포’라는 말은 ‘…아래’라는 뜻이다. 순종은 누군가가 순종하는 사람 위에 있다는 것을 나타낸다. 위에서 시키는 사람의 말을 듣는 것이 ‘휘포쿠오’이고 위에서 시키는 대로 정돈하는 것이 ‘휘포탓소’이다. 청지기는 위에 주인이 계신다. 주인이 시키는 말을 잘 듣고 시키는 말대로 하는 것이고, 시킨 대로 정돈하는 것이다. 그리스도인 청지기는 예수께서 주인이시기 때문에 예수님의 말씀을 잘 듣고 그대로 수행해야 하고 그대로 정리해야 한다. 그렇게 할 때 주인의 신임을 얻고 하늘나라를 상속받게 된다. 하나님이 주신 것을 하나님의 뜻대로 관리하지 못할 것을 아시면 하나님께서 관리할 것을 맡기겠는가?",
209
+ "diff": [
210
+ "replace text[19:20] --> decoded_text[19:20] '識' --> '識'"
211
+ ],
212
+ "n_oov_chars": 1,
213
+ "oov_ratio": 0.0018083182640144665,
214
+ "oov_charset": "[\"識\"]"
215
+ }
216
+ ]
vocab.py CHANGED
@@ -334,6 +334,9 @@ _all_tokenizer_config = [
334
  link="https://github.com/openai/tiktoken", ),
335
  TokenizerConfig("openai/gpt-4o", impl=TokenizerImpl.TikToken, org="OpenAI",
336
  link="https://github.com/openai/tiktoken", ),
 
 
 
337
  TokenizerConfig("Qwen/Qwen-7B-Chat", name_display="Qwen/Qwen", impl=TokenizerImpl.TikToken, org="Alibaba",
338
  init_kwargs={"revision": "refs/pr/56"},
339
  meta="在gpt4词典基础上,删除了100个多数字token,增加10000中文词token;并优化了special_token的分词"),
@@ -381,6 +384,8 @@ _all_tokenizer_config = [
381
  TokenizerConfig("deepseek-ai/DeepSeek-R1", org="DeepSeek"), # 在llama3的词典上,增加了一些中文token,删掉了一部分token
382
  TokenizerConfig("deepseek-ai/DeepSeek-R1-Zero", org="DeepSeek"),
383
  TokenizerConfig("deepseek-ai/DeepSeek-R1-Distill-Llama-70B", org="DeepSeek"),
 
 
384
 
385
 
386
  TokenizerConfig("google/gemma-7b", org="Google"),
@@ -391,6 +396,13 @@ _all_tokenizer_config = [
391
  TokenizerConfig("databricks/dbrx-instruct", org="Databricks"),
392
  TokenizerConfig("MiniMaxAI/MiniMax-Text-01", org="MiniMax"),
393
 
 
 
 
 
 
 
 
394
 
395
  # TokenizerConfig("nvidia/Nemotron-4-340B-Instruct", org="Nvidia"),
396
 
 
334
  link="https://github.com/openai/tiktoken", ),
335
  TokenizerConfig("openai/gpt-4o", impl=TokenizerImpl.TikToken, org="OpenAI",
336
  link="https://github.com/openai/tiktoken", ),
337
+
338
+
339
+
340
  TokenizerConfig("Qwen/Qwen-7B-Chat", name_display="Qwen/Qwen", impl=TokenizerImpl.TikToken, org="Alibaba",
341
  init_kwargs={"revision": "refs/pr/56"},
342
  meta="在gpt4词典基础上,删除了100个多数字token,增加10000中文词token;并优化了special_token的分词"),
 
384
  TokenizerConfig("deepseek-ai/DeepSeek-R1", org="DeepSeek"), # 在llama3的词典上,增加了一些中文token,删掉了一部分token
385
  TokenizerConfig("deepseek-ai/DeepSeek-R1-Zero", org="DeepSeek"),
386
  TokenizerConfig("deepseek-ai/DeepSeek-R1-Distill-Llama-70B", org="DeepSeek"),
387
+ TokenizerConfig("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", org="DeepSeek"),
388
+ TokenizerConfig("deepseek-ai/Janus-Pro-1B", org="DeepSeek"),
389
 
390
 
391
  TokenizerConfig("google/gemma-7b", org="Google"),
 
396
  TokenizerConfig("databricks/dbrx-instruct", org="Databricks"),
397
  TokenizerConfig("MiniMaxAI/MiniMax-Text-01", org="MiniMax"),
398
 
399
+ TokenizerConfig("openai/gpt-oss-20b", org="OpenAI"),
400
+ TokenizerConfig("openai/gpt-oss-120b", org="OpenAI"),
401
+ TokenizerConfig("Qwen/Qwen3-235B-A22B-Thinking-2507", org="Alibaba"),
402
+ TokenizerConfig("Qwen/Qwen3-30B-A3B-Thinking-2507", org="Alibaba"),
403
+
404
+
405
+
406
 
407
  # TokenizerConfig("nvidia/Nemotron-4-340B-Instruct", org="Nvidia"),
408