import streamlit as st st.set_page_config(page_title="HAERAE Open Research Questions", layout="wide") # Title (always in English) st.title("HAERAE Open Research Questions") # Language selection below the title lang = st.radio("Language / 언어", ["English", "한국어"]) # Content in both languages content = { "English": { "intro": """ HAERAE is a non-profit research lab focused on the interpretability and evaluation of Korean language models. Our mission is to advance the field with insightful benchmarks and tools. We've been doing most of our projects internally, but for those that have been unsolvable, we are planning to open them to get help from the open-source community. """, "challenge_title": "HAERAE-Math Challenge", "challenge_desc": """ Today we are introducing our first challenge: HAERAE-Math. We've created high-quality instructions on math but don't have an idea on how to generate high-quality answers for them. We are looking for solutions that use open-source models with openly available licenses. We have created a total of 20,000 instructions already and are generating more. We've opened up a preview of 50 of them in this link: [HAERAE-Math Samples](https://huggingface.co/datasets/HAERAE-HUB/HAERAE-Math-samples) For those who generate answers for the 50 and share the methodology/results with us, we'll share the remaining instructions and credit for the resulting dataset. """, "example_title": "Example Question", "how_to_title": "How to Participate", "how_to": """ 1. Access the 50 sample questions from the provided Hugging Face dataset link. 2. Generate high-quality answers for these questions using open-source models. 3. Document your methodology and results. 4. Share your findings with us through [contact information or submission form]. 5. If your approach is promising, we'll provide access to the full dataset of 20,000 instructions. """, "why_title": "Why Participate?", "why": """ - Contribute to advancing Korean language model research - Gain access to a large, high-quality dataset of math instructions - Collaborate with HAERAE researchers - Potential for co-authorship on related publications """, "contact_title": "Contact Us", "contact": """ For more information or to submit your results, please contact us at: [spthsrbwls123@yonsei.ac.kr](spthsrbwls123@yonsei.ac.kr) """, "sidebar_title": "About HAERAE", "sidebar_content": """ HAERAE is a non-profit research lab dedicated to advancing the field of Korean language model interpretability and evaluation. Our work focuses on creating insightful benchmarks and tools to push the boundaries of NLP research. """ }, "한국어": { "intro": """ HAERAE는 한국어 언어 모델의 해석과 평가의 연구를 위해 설립된 비영리 연구팀입니다. 저희는 다양한 벤치마크와 연구를 통해 한국어 자연어 처리 연구를 발전시키기 위해 노력하고 있습니다. 기존에는 대부분의 프로젝트를 내부적으로 수행해 왔지만, 내부적으로 해결하기 어려운 문제들에 대해서는 오픈 소스 커뮤니티의 도움을 받고자 Open-Research-Question 프로그램을 운영하게 되었습니다. """, "challenge_title": "HAERAE-Math Challenge", "challenge_desc": """ 저희 팀은 [QARV-Instruct](https://huggingface.co/datasets/HAERAE-HUB/qarv-instruct-ko) 부터 시작해서 고품질의 한국어 지시문 데이터를 만들기 위해 노력 중에 있습니다. 이 과정에서 매우 높은 수준의 수학 지시문을 제작하였으나, 해당 지시문에 대해 적절한 답변을 만들지 못하고 있습니다. 저희는 이번 챌린지를 통해 오픈소스 LLM을 사용하여 해당 문제들에 대한 답을 제작할 수 있는 솔루션을 찾고 있습니다. 현재는 총 20,000개의 지시문을 이미 만들었으며 추가적으로 생성하는 과정 중에 있습니다. 생성된 지시문 중 랜덤으로 샘플링된 50개의 질문을 다음 링크에서 보실 수 있습니다. [HAERAE-Math 샘플](https://huggingface.co/datasets/HAERAE-HUB/HAERAE-Math-samples) 50개에 대한 답변을 생성하고 방법론/결과를 저희에게 공유해주시는 분들꼐 저희가 생성한 전체 지시문과 최종 데이터셋에 대한 기여도를 인정해드릴 예정입니다. (결과에 따라 논문화도 고민 중에 있습니다.) """, "example_title": "예시 질문", "how_to_title": "참여 방법", "how_to": """ 1. 제공된 Hugging Face 데이터셋 링크에서 50개의 샘플 질문을 확인합니다. 2. 오픈 소스 모델을 사용하여 이 질문들에 대한 고품질 답변을 생성합니다. 3. 방법론과 결과를 문서화합니다. 4. [연락처 정보 또는 제출 양식]을 통해 귀하의 결과를 저희와 공유합니다. 5. 귀하의 접근 방식이 유의미 하다고 판단 된다면, 나머지 지시문 데이터셋에 대한 접근 권한을 제공해 드립니다. """, "why_title": "왜 참여해야 하나요?", "why": """ - 한국어 언어 모델 연구 발전에 기여 - 대규모의 고품질 수학 지시문 데이터셋에 접근 - HAERAE 연구원들과 협력 - 관련 출판물의 공동 저자가 될 가능성 """, "contact_title": "연락처", "contact": """ 더 많은 정보를 원하시거나 결과를 제출하려면 다음 연락처로 문의해 주세요: [spthsrbwls123@yonsei.ac.kr](spthsrbwls123@yonsei.ac.kr) """, "sidebar_title": "HAERAE 소개", "sidebar_content": """ HAERAE는 한국어 언어 모델의 해석과 평가의 연구를 위해 설립된 비영리 연구팀입니다. 저희는 다양한 벤치마크와 연구를 통해 한국어 자연어 처리 연구를 발전시키기 위해 노력하고 있습니다. """ } } # Main content st.write(content[lang]["intro"]) st.header(content[lang]["challenge_title"]) st.write(content[lang]["challenge_desc"]) st.subheader(content[lang]["example_title"]) example_question = """ 한국의 보안 전문가가 고도화된 데이터 보호 시스템을 개발하고 있습니다. 이 시스템은 3차원 기하학적 잠금 메커니즘을 사용하는데, 잠금 장치는 원뿔 모양으로 되어 있고, 밑면의 반지름은 6cm, 높이는 8cm입니다. 이 원뿔 모양의 잠금 장치에는 원통 모양의 열쇠가 딱 맞게 들어가게 설계되어 있습니다. 보안 전문가는 더 높은 수준의 보안을 위해 원통 모양의 열쇠 안에 구 모양의 잠금 장치를 추가하려고 합니다. 이 구는 원통 안에 딱 들어가도록 설계되어 있습니다. 다음의 질문들을 해결하시기 바랍니다: 1. 원뿔 안에 딱 들어가게 설계된 원통의 반지름은 얼마인가요? 2. 원통 안에 딱 들어가게 설계된 구의 부피는 얼마인가요? 3. 원뿔, 원통, 구가 모두 같은 중심축을 공유하고 있으며 원뿔의 꼭대기점과 원통, 구의 중심점이 동일하다고 가정하면, 원뿔에서 원통이 차지하는 비율을 구하시오. 4. 이제 원뿔의 높이를 2배로 늘리자. 원뿔의 높이가 16cm가 되었을 때, 원통과 구의 크기와 부피는 어떻게 변하나요? 5. 원뿔의 높이와 밑면의 반지름을 각각 h와 r이라고 할 때, 원통과 구의 최대 부피를 r과 h로 표현하시오. 원뿔, 원통, 구의 부피 공식을 사용하여 문제를 해결하시기 바랍니다: 원뿔의 부피: V = 1/3πr²h 원통의 부피: V = πr²h 구의 부피: V = 4/3πr³ """ st.code(example_question, language="markdown") st.header(content[lang]["how_to_title"]) st.write(content[lang]["how_to"]) st.header(content[lang]["why_title"]) st.write(content[lang]["why"]) st.header(content[lang]["contact_title"]) st.write(content[lang]["contact"]) st.sidebar.title(content[lang]["sidebar_title"]) st.sidebar.info(content[lang]["sidebar_content"])