Spaces:

tomg-group-umd
/

lm-watermarking

Running on A10G

jwkirchenbauer commited on Feb 17, 2023

Commit

fa826da

1 Parent(s): f98590c

refactor markov_1 to simple_1

Files changed (4) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ __pycache__

app.py CHANGED Viewed

@@ -31,7 +31,7 @@ arg_dict = {
     'n_beams': 1,
     'sampling_temp': 0.7,
     'use_gpu': True,
-    'seeding_scheme': 'markov_1',
     'gamma': 0.25,
     'delta': 2.0,
     'normalizers': '',

     'n_beams': 1,
     'sampling_temp': 0.7,
     'use_gpu': True,
+    'seeding_scheme': 'simple_1',
     'gamma': 0.25,
     'delta': 2.0,
     'normalizers': '',

demo_watermark.py CHANGED Viewed

@@ -109,7 +109,7 @@ def parse_args():
     parser.add_argument(
         "--seeding_scheme",
         type=str,
-        default="markov_1",
         help="Seeding scheme to use to generate the greenlists at each generation and verification step.",
     )
     parser.add_argument(

     parser.add_argument(
         "--seeding_scheme",
         type=str,
+        default="simple_1",
         help="Seeding scheme to use to generate the greenlists at each generation and verification step.",
     )
     parser.add_argument(

watermark_processor.py CHANGED Viewed

@@ -35,7 +35,7 @@ class WatermarkBase:
         vocab: list[int] = None,
         gamma: float = 0.5,
         delta: float = 2.0,
-        seeding_scheme: str = "markov_1",  # mostly unused/always default
         hash_key: int = 15485863,  # just a large prime number to create a rng seed with sufficient bit width
         select_green_tokens: bool = True,
     ):
@@ -56,7 +56,7 @@ class WatermarkBase:
         if seeding_scheme is None:
             seeding_scheme = self.seeding_scheme
-        if seeding_scheme == "markov_1":
             assert input_ids.shape[-1] >= 1, f"seeding_scheme={seeding_scheme} requires at least a 1 token prefix sequence to seed rng"
             prev_token = input_ids[-1].item()
             self.rng.manual_seed(self.hash_key * prev_token)
@@ -138,7 +138,7 @@ class WatermarkDetector(WatermarkBase):
         self.z_threshold = z_threshold
         self.rng = torch.Generator(device=self.device)
-        if self.seeding_scheme == "markov_1":
             self.min_prefix_len = 1
         else:
             raise NotImplementedError(f"Unexpected seeding_scheme: {self.seeding_scheme}")
@@ -149,7 +149,7 @@ class WatermarkDetector(WatermarkBase):
         self.ignore_repeated_bigrams = ignore_repeated_bigrams
         if self.ignore_repeated_bigrams:
-            assert self.seeding_scheme == "markov_1", "No repeated bigram credit variant assumes the single token seeding scheme."
     def _compute_z_score(self, observed_count, T):

         vocab: list[int] = None,
         gamma: float = 0.5,
         delta: float = 2.0,
+        seeding_scheme: str = "simple_1",  # mostly unused/always default
         hash_key: int = 15485863,  # just a large prime number to create a rng seed with sufficient bit width
         select_green_tokens: bool = True,
     ):
         if seeding_scheme is None:
             seeding_scheme = self.seeding_scheme
+        if seeding_scheme == "simple_1":
             assert input_ids.shape[-1] >= 1, f"seeding_scheme={seeding_scheme} requires at least a 1 token prefix sequence to seed rng"
             prev_token = input_ids[-1].item()
             self.rng.manual_seed(self.hash_key * prev_token)
         self.z_threshold = z_threshold
         self.rng = torch.Generator(device=self.device)
+        if self.seeding_scheme == "simple_1":
             self.min_prefix_len = 1
         else:
             raise NotImplementedError(f"Unexpected seeding_scheme: {self.seeding_scheme}")
         self.ignore_repeated_bigrams = ignore_repeated_bigrams
         if self.ignore_repeated_bigrams:
+            assert self.seeding_scheme == "simple_1", "No repeated bigram credit variant assumes the single token seeding scheme."
     def _compute_z_score(self, observed_count, T):