Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nhóm và cộng tác viên của tôi đã phát triển nhiều điểm chuẩn phổ biến trong những năm qua, ví dụ: MMLU, MATH, APPS--- thực sự hào hứng với điểm chuẩn mới nhất của chúng tôi OMEGA Ω:
🔍LLM có thể thực sự suy nghĩ vượt trội trong toán học?
Một điểm chuẩn mới thăm dò 3 trục tổng quát hóa:
1️⃣ Khám phá
2️⃣ Thành phần
3️⃣ Biến đổi
cho thấy những hạn chế của AI biên giới ngày nay và đào tạo RL trong các khía cạnh tổng quát hóa này.
Lấy cảm hứng từ kiểu sáng tạo của Boden, OMEGA vượt xa các tiêu chuẩn trước đó với bộ dữ liệu được tạo theo chương trình kết hợp kiểm soát chính xác với sự đa dạng phong phú. Trải dài trên một loạt các lĩnh vực toán học, nó được thiết kế rõ ràng để đánh giá các trục riêng biệt của khái quát hóa và lý luận sáng tạo.
Bằng cách cô lập và định lượng các chế độ lỗi chi tiết, OMEGA cung cấp nền tảng để thúc đẩy LLM hướng tới sự sáng tạo toán học thực sự — vượt ra ngoài trình độ cơ học.
Rất cảm ơn @YiyouSun @UCBerkeley sau tiến sĩ của tôi đã dẫn dắt dự án và các cộng tác viên tuyệt vời @nouhadziri @HannaHajishirzi @allen_ai và các đồng tác giả khác!
Hàng đầu
Thứ hạng
Yêu thích