Spaces:

bvd757
/

checked

Sleeping

File size: 10,060 Bytes

import openai
from openai import OpenAI
import difflib

prompt_fix_text_gpt = """
Исправь ошибки в данном тексте. Жаргонизмы считаются ошибками, приемлим только официальный стиль.
Исправляй грамматические, пунктуационные и орфоргафические ошибки.
Логические, лексические, стилистические ошибки, а также ошибки форматирования (напрмер неправильные переносы строки) ошибками не считаются!!! Их исправлять не надо
Буква "е" вместо буквы "ё" не считается ошибкой.
Не исправляй ошибки форматрирования!!! В текст заранее удалены все ненужны переносы, это сделано осознанно!
Верни только текст, никаких комментариев от себя не оставляй.

### Пример 1:
input text:
Это все мое, чашки вилки и ложи

Твой ответ:
Это все мое: чашки, вилки и ложки


Теперь твоя очередь:
input text:
{}
"""

prompt_compare_get_comment = """
Ты должен писать комментарий об ошибке в тексте.
Тебе дан кусок текст, в котором есть одна или несколько ошибок и этот же кусок текста с исправленными ошибками. 
Твоя задача - кратко описать все ошибки, которые есть в тексте.
Пиши кратко, не больше одного-двух предложений. Отвечай на русском языке.


### Пример 1:
original text:
"кросивую, сабаку"

corrected text: 
"красивую собаку"

Твой ответ: 
Орфографические ошибки: "кросивую" -> "красивую", "сабаку" -> "собаку", лишняя запятая после "красивую".


### Пример 2:
original:
"я решил  пойти, в"

corrected text: 
"я решил пойти в"

Твой ответ: 
Опечатка: повтор пробела, лишняя запятая после слова "пойти".


Теперь твоя очередь:
original:
"{}"

corrected text: 
"{}"
"""

prompt = """
Ты должен писать комментарии об ошибках в тексте.
Тебе дан кусок текст, в котором есть ошибка, контекст, в котором стоит это слово и сообщение об ошибке. Твоя задача - кратко описать суть ошибки и, если необходимо, исправить её. 
Исправляй только ту ошибку, на которую указывает сообщение. Отвечай на русском языке.

### Пример 1:
Кусок текста:
"кросивую"

Сообщение об ошибке: 
"Возможно найдена орфографическая ошибка."

Текст: 
"...т! Сегодня я был в парке и встретил там кросивую собаку. Она повиляла хвостом и побежа..."

Твой ответ: 
Орфографическая ошибка в слове "кросивую" - правильно "красивую".

### Пример 2:
Кусок текста:
"  "

Сообщение об ошибке: 
"Повтор пробела."

Текст: 
"...ретил там кросивую собаку.  Она повиляла  хвостом и побежала к речке. Я решил что ..."

Твой ответ: 
Обнаружен повтор пробела между словами.

Теперь твоя очередь:
Кусок текста:
"{}"

Сообщение об ошибке: 
"{}"

Текст: 
"{}"
"""


def get_gpt_response_openai(inp):
    response = openai.ChatCompletion.create(
        model="openai/gpt-4.1-mini",
        messages=[
            {"role": "user", "content": inp}
        ]
    )
    return response.choices[0].message['content']


def get_gpt_response_vsegpt(inp):
    client = OpenAI(
        api_key='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',
        base_url='https://openrouter.ai/api/v1'
    )
    response = client.chat.completions.create(
        model="openai/gpt-4.1-mini",
        messages=[{"role": "user", "content": inp}]
    ).choices[0].message.content

    return response


def get_gpt_response(inp, client_name):
    if client_name == "openai":
        return get_gpt_response_openai(inp)
    elif client_name == "vsegpt":
        return get_gpt_response_vsegpt(inp)
    else:
        raise ValueError(f"Unsupported client: {client_name}")
    

def find_corrected_positions(original, corrected):
    matcher = difflib.SequenceMatcher(None, original, corrected)
    changes = []
    
    for opcode in matcher.get_opcodes():
        tag, i1, i2, j1, j2 = opcode
        if tag != 'equal':
            changes.append({
                'original': (i1, i2),
                'corrected': (j1, j2),
                'operation': tag
            })
    
    return changes


def get_piece_of_text_bounds(s, start, end):
    if start != 0: start -= 1
    while start != 0 and s[start] not in [' ', "\n", '\t']:
        start -= 1
    if s[start] in [' ', "\n", '\t']: start += 1

    if end < len(s) - 1: end += 1
    while end < len(s) - 1 and s[end] not in [' ', "\n", '\t']:
        end += 1
    if end == len(s) - 1: end += 1
    return start, end


def add_comments_to_text(text, errors, add_errors=False):
    errors = sorted(errors, key=lambda x: x['end'])

    shift = 0
    for i, error in enumerate(errors, 1):
        error['start'] += shift
        error['end'] += shift
        inp = f"({i})"
        if add_errors:
            inp = inp[:-1] + ' - ' + error['message'] + ')'
        text = text[:error['end']] + inp + text[error['end']:]
        error["end"] += len(inp)
        shift += len(inp)

    return text.replace("\n", " ")


def check_text(text, tool, mode="chat_gpt", highlight_mode=False, add_errors=False):
    if mode == "tool":
        return check_text_with_tool(text, tool, add_errors=add_errors)
    else:
        if highlight_mode:
            return check_text_chat_gpt_highlight_mode(text, add_errors=add_errors)
        else:
            return check_text_chat_gpt(text, add_errors=add_errors)


def check_text_chat_gpt(text, fixed_text=None, add_errors=False, *args, **kwargs):
    if fixed_text is None:
        fixed_text = get_gpt_response(prompt_fix_text_gpt.format(text), "vsegpt")
    changes = find_corrected_positions(text, fixed_text)
    errors = []

    for change in changes:
        start_orig, end_orig = get_piece_of_text_bounds(text, change['original'][0], change['original'][1])
        start_corr, end_corr = get_piece_of_text_bounds(fixed_text, change['corrected'][0], change['corrected'][1])
        inp = prompt_compare_get_comment.format(text[start_orig:end_orig], fixed_text[start_corr:end_corr])
        errors.append({
            'start': start_orig,
            'end': end_orig,
            'message': get_gpt_response(inp, client_name="vsegpt"),
        })

    text_with_comments = add_comments_to_text(text, errors, add_errors=add_errors)
    return text_with_comments, errors


def check_text_chat_gpt_highlight_mode(text, fixed_text=None, add_errors=False, *args, **kwargs):
    if fixed_text is None:
        fixed_text = get_gpt_response(prompt_fix_text_gpt.format(text), "vsegpt")
    changes = find_corrected_positions(text, fixed_text)
    bounds_init = []
    for change in changes:
        start_orig, end_orig = get_piece_of_text_bounds(text, change['original'][0], change['original'][1])
        start_corr, end_corr = get_piece_of_text_bounds(fixed_text, change['corrected'][0], change['corrected'][1])
        bounds_init.append({"start_orig": start_orig,
                        "end_orig": end_orig,
                        "start_corr": start_corr,
                        "end_corr": end_corr})
    
    bounds_init = sorted(bounds_init, key=lambda x: x["start_orig"])
    bounds_result = [bounds_init[0]] if len(bounds_init) > 0 else []
    for bound in bounds_init[1:]:
        if bounds_result[-1]["end_orig"] >= bound["start_orig"]:
            bounds_result[-1]["end_orig"] = max(bounds_result[-1]["end_orig"], bound["end_orig"])
            bounds_result[-1]["end_corr"] = max(bounds_result[-1]["end_corr"], bound["end_corr"])
        else:
            bounds_result.append(bound.copy())

    errors = []
    for bound in bounds_result:
        inp = prompt_compare_get_comment.format(text[bound["start_orig"]:bound["end_orig"]], 
                                                fixed_text[bound["start_corr"]:bound["end_corr"]])
        errors.append({
            'start': bound["start_orig"],
            'end': bound["end_orig"],
            'message': get_gpt_response(inp, client_name="vsegpt"),
        })

    text_with_comments = add_comments_to_text(text, errors, add_errors=add_errors)
    return text_with_comments, errors


def check_text_with_tool(text, tool, add_errors=False):
    matches = tool.check(text)
    errors = []
    for match in matches:
        inp = prompt.format(text[match.offset:match.offset + match.errorLength], 
                            match.message, match.context)
        error_info = {
            'start': match.offset,
            'end': match.offset + match.errorLength,
            'message': get_gpt_response(inp, client_name="vsegpt"),
        }
        errors.append(error_info)
    
    text_with_comments = add_comments_to_text(text, errors, add_errors=add_errors)
    return text_with_comments, errors