Spaces:

ybchen928
/

oncall-guide-ai

Sleeping

App Files Files Community

oncall-guide-ai / evaluation

Commit History

Add comprehensive evaluation reports and execution time breakdown for Hospital Customization System

24f6a16

YanBoChen commited on Aug 6, 2025

Update query file references for full evaluation and correct typo in pre_user_query_evaluate.txt for pre-test.

e84171b

YanBoChen commited on Aug 6, 2025

Merge branch 'newbranchYB-newest' into Merged20250805

abbc1cd

YanBoChen commited on Aug 5, 2025

Add adaptive relevance thresholds for query complexity in PrecisionMRRAnalyzer; fix typo in condition mapping for postpartum hemorrhage

7620d26

YanBoChen commited on Aug 5, 2025

Update threshold values in latency evaluator and coverage chart generator; enhance precision and MRR analysis with corrected thresholds and new chart generator for detailed metrics visualization.

5d4792a

YanBoChen commited on Aug 5, 2025

Refactor relevance calculation and update thresholds in latency evaluator; enhance precision and MRR analyzer with angular distance metrics; increase timeout for primary generation in fallback configuration.

b0f56ec

YanBoChen commited on Aug 5, 2025

Enhance Direct LLM Evaluator and Judge Evaluator:

40d39ed

YanBoChen commited on Aug 5, 2025

feat(evaluation): add visualization generators for generating png files

6ccdca1

VanKee commited on Aug 5, 2025

feat(evaluation): add comprehensive hospital customization evaluation system

550df1b

VanKee commited on Aug 5, 2025

Add multi-system evaluation support for clinical actionability and evidence quality metrics

16a2990

YanBoChen commited on Aug 5, 2025

Before Run the 1st Evalation: Add Precision & MRR Chart Generator and a sample test query

a2aaea2

YanBoChen commited on Aug 5, 2025

feat: Add Extraction, LLM Judge, and Relevance Chart Generators

17613c8

YanBoChen commited on Aug 5, 2025

Add extraction and relevance evaluators for condition extraction and retrieval relevance analysis

88e76fd

YanBoChen commited on Aug 5, 2025

Add latency and relevance evaluators for medical query analysis (evaluatoin)

3e2ffcb

YanBoChen commited on Aug 4, 2025

feat(evaluation): add seventh evaluation metric for multi-level fallback efficiency and early interception rate

9e4c1bc

YanBoChen commited on Aug 4, 2025

fix(evaluation): improve evaluation instructions and add structured assessment phases

5f9dffa

YanBoChen commited on Aug 4, 2025

fix(mild bug): enhance user query prompts (more robust dealing process with .txt or .json) and add postpartum hemorrhage condition mapping

253609b

YanBoChen commited on Aug 4, 2025

Add evaluation instructions and user query prompts for clinical model assessment

16ee1e5

YanBoChen commited on Aug 4, 2025

Commit History

Add comprehensive evaluation reports and execution time breakdown for Hospital Customization System 24f6a16

Update query file references for full evaluation and correct typo in pre_user_query_evaluate.txt for pre-test. e84171b

Merge branch 'newbranchYB-newest' into Merged20250805 abbc1cd

Add adaptive relevance thresholds for query complexity in PrecisionMRRAnalyzer; fix typo in condition mapping for postpartum hemorrhage 7620d26

Update threshold values in latency evaluator and coverage chart generator; enhance precision and MRR analysis with corrected thresholds and new chart generator for detailed metrics visualization. 5d4792a

Refactor relevance calculation and update thresholds in latency evaluator; enhance precision and MRR analyzer with angular distance metrics; increase timeout for primary generation in fallback configuration. b0f56ec

Enhance Direct LLM Evaluator and Judge Evaluator: 40d39ed

feat(evaluation): add visualization generators for generating png files 6ccdca1

feat(evaluation): add comprehensive hospital customization evaluation system 550df1b

Add multi-system evaluation support for clinical actionability and evidence quality metrics 16a2990

Before Run the 1st Evalation: Add Precision & MRR Chart Generator and a sample test query a2aaea2

feat: Add Extraction, LLM Judge, and Relevance Chart Generators 17613c8

Add extraction and relevance evaluators for condition extraction and retrieval relevance analysis 88e76fd

Add latency and relevance evaluators for medical query analysis (evaluatoin) 3e2ffcb

feat(evaluation): add seventh evaluation metric for multi-level fallback efficiency and early interception rate 9e4c1bc

fix(evaluation): improve evaluation instructions and add structured assessment phases 5f9dffa

fix(mild bug): enhance user query prompts (more robust dealing process with .txt or .json) and add postpartum hemorrhage condition mapping 253609b

Add evaluation instructions and user query prompts for clinical model assessment 16ee1e5

Add comprehensive evaluation reports and execution time breakdown for Hospital Customization System

24f6a16

Update query file references for full evaluation and correct typo in pre_user_query_evaluate.txt for pre-test.

e84171b

Merge branch 'newbranchYB-newest' into Merged20250805

abbc1cd

Add adaptive relevance thresholds for query complexity in PrecisionMRRAnalyzer; fix typo in condition mapping for postpartum hemorrhage

7620d26

Update threshold values in latency evaluator and coverage chart generator; enhance precision and MRR analysis with corrected thresholds and new chart generator for detailed metrics visualization.

5d4792a

Refactor relevance calculation and update thresholds in latency evaluator; enhance precision and MRR analyzer with angular distance metrics; increase timeout for primary generation in fallback configuration.

b0f56ec

Enhance Direct LLM Evaluator and Judge Evaluator:

40d39ed

feat(evaluation): add visualization generators for generating png files

6ccdca1

feat(evaluation): add comprehensive hospital customization evaluation system

550df1b

Add multi-system evaluation support for clinical actionability and evidence quality metrics

16a2990

Before Run the 1st Evalation: Add Precision & MRR Chart Generator and a sample test query

a2aaea2

feat: Add Extraction, LLM Judge, and Relevance Chart Generators

17613c8

Add extraction and relevance evaluators for condition extraction and retrieval relevance analysis

88e76fd

Add latency and relevance evaluators for medical query analysis (evaluatoin)

3e2ffcb

feat(evaluation): add seventh evaluation metric for multi-level fallback efficiency and early interception rate

9e4c1bc

fix(evaluation): improve evaluation instructions and add structured assessment phases

5f9dffa

fix(mild bug): enhance user query prompts (more robust dealing process with .txt or .json) and add postpartum hemorrhage condition mapping

253609b

Add evaluation instructions and user query prompts for clinical model assessment

16ee1e5