Publications

International Conferences

Sangwhan Moon, Daisuke Oba, Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Beyond Perplexity: UTF-8 Validity in Byte-aware Language Models. In Forty-Third International Conference on Machine Learning (ICML), pages (to appear), Seoul, South Korea, July 2026.
Youmi Ma and Naoaki Okazaki. From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models. In Findings of the Association for Computational Linguistics: ACL 2026 (ACL), pages (to appear), San Diego, California, United States, July 2026.
Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, and Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. In The Fourteenth International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, April 2026.
Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. In Second Conference on Language Modeling (COLM), Montreal, Canada, October 2025.
Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, and Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs. In The 1st Workshop on Multilingual and Equitable Language Technologies (MELT), 24 pages, Montreal, Canada, October 2025 (Spotlight).
Masahiro Kaneko*, Youmi Ma*, Yuki Wata, and Naoaki Okazaki. Sampling-based Pseudo-Likelihood for Membership Inference Attacks. In Findings of the Association for Computational Linguistics: ACL 2025 (ACL), pages (8894–8907), Vienna, Austria, July 2025 (*equal contribution).
Youmi Ma, An Wang, and Naoaki Okazaki. Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), pages 2567–2579, Torino, Italia, May 2024.
Youmi Ma, Bhushan Kotnis, Carolin Lawrance, Goran Glavaš, and Naoaki Okazaki. Improving Cross-Lingual Transfer for Open Information Extraction with Linguistic Feature Projection. In Proceedings of the 3rd Workshop on Multi-lingual Representation Learning (MRL), pages 125–138, Singapore, December 2023.
An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, and Naoaki Okazaki. Generative Data Augmentation for Aspect Sentiment Quad Prediction. In Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (*SEM), pages 128–140, Toronto, Canada, July 2023.
Youmi Ma, An Wang, and Naoaki Okazaki. DREEAM: Guiding Attention with Evidence for Improving Document-Level Relation Extraction. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume (EACL), pages 1971–1983, Dubrovnik, Croatia, May 2023.
Hsuan-Yu Kuo, Youmi Ma, and Naoaki Okazaki. Annotating Entity and Causal Relationships on Japanese Vehicle Recall Information. In Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation (PACLIC), pages 783–791, Manila, Philippines, October 2022.
Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Joint Entity and Relation Extraction Based on Table Labeling Using Convolutional Neural Networks. In Proceedings of the Sixth Workshop on Structured Prediction for NLP (SPNLP), pages 11–21, Dublin, Ireland, May 2022.
Zixia Jia, Youmi Ma, Jiong Cai, and Kewei Tu. Semi-Supervised Semantic Dependency Parsing Using CRF Autoencoders. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), pages 6795–6805, Online, July 2020.

Journal

An Wang, Huidong Jiang, Youmi Ma, Junfeng Jiang, Ao Liu, and Naoaki Okazaki. Improving Implicit Sentiments Analysis via Explanations of Multiple Perspectives. In IEEE Access, pages 61136 - 61148, 2025.
An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, and Naoaki Okazaki. Generative Data Augmentation for Aspect Sentiment Quad Prediction. 自然言語処理, 31(4):to appear, December 2024.
Youmi Ma, An Wang, and 岡崎直観. 文書レベル関係抽出における根拠認識の統合. 自然言語処理, 31(1):105–133, March 2024.
Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Named Entity Recognition and Relation Extraction Using Enhanced Table Filling by Contextualized Representations. 自然言語処理, 29(1):187–223, March 2022. (doi: 10.5715/jnlp.29.187)

Domestic Conferences

Youmi Ma, 岡崎直観. 検索ヘッドに基づく大規模言語モデルの長文脈処理の改善. 言語処理学会第32回年次大会 (NLP2026), A9, B6-10, pp. 2561–2566, 2026年3月.
一瀬達矢, Youmi Ma, 大井聖也, 小池隆斗, 岡崎直観. 対照的デコーディングを用いた指示学習データの合成. 言語処理学会第32回年次大会 (NLP2026), C7-12, pp. 3196–3201, 2026年3月.
水木栄, 藤井一喜, 川村政貴, Tien Dung Nguyen, 片山結太, 齋藤幸史郎, 一瀬達矢, 宮本空, 松下直矢, 大井聖也, Youmi Ma, 太田晋, 大葉大輔, 高村大也, 横田理央, 岡崎直観. 蒸留による日英推論型大規模言語モデル構築戦略の探索. 言語処理学会第32回年次大会 (NLP2026), C8-11, pp. 3675–3680, 2026年3月.
松下直矢, 馬尤咪, 大葉大輔, 水木栄, 岡崎直観. 多段階プロンプトを用いた推論過程の改善による大規模言語モデルの翻訳性能の向上. 情報処理学会第267回自然言語処理研究会研究報告 (2026-NL-267), 4, pp. 1–13, 2026年3月.
松下直矢, 馬尤咪, 岡崎直観. 言語ニューロンの制御による大規模言語モデルの言語横断的対話性能の改善. 第20回YANSシンポジウム (YANS2025), S4-P43, 2025年9月.
一瀬達矢, 馬尤咪, 大井聖也, 小池隆斗, 岡崎直観. 対照的デコーディングを用いた指示学習データの合成. 第20回YANSシンポジウム (YANS2025), S1-P34, 2025年9月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 塩谷泰平, 植田快, 新妻巧朗, 川畑輝, 田森秀明, Youmi Ma, 前田航希, 大井聖也, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 新聞記事からつくる時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), C10-1, pp. 3948–3953, 2025年3月.
Youmi Ma, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 島田比奈理, 塩谷泰平, 齋藤幸史郎, 前田航希, 服部翔, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), Q8-21, pp. 3446–3451, 2025年3月.
高橋侑成, Youmi Ma, 金子正弘, 岡崎直観. 大規模言語モデルはデータ漏洩を隠蔽できるのか. 言語処理学会第31回年次大会 (NLP2025), A3-1, pp. 887–892, 2025年3月.
服部翔, 岡崎直観, 水木栄, 藤井一喜, 中村泰士, 大井聖也, 塩谷泰平, 齋藤幸史郎, Youmi Ma, 前田航希, 岡本拓己, 石田茂樹, 横田理央, 高村大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99, 2025年3月.
高橋侑成, Ma Youmi, 金子正弘, 岡崎直観. 大規模言語モデルに対する漏洩検出への敵対的なデータ隠蔽. 第19回YANSシンポジウム (YANS2024), S4-P22, 2024年9月.
服部翔, 水木栄, 藤井一喜, 中村泰士, 大井聖也, Ma Youmi, 前田航希, 塩谷泰平, 齋藤幸史郎, 岡本拓己, 石田茂樹, 横田理央, 高村大也, 岡崎直観. 小規模で高性能なLLMのための高品質事前学習Webコーパスの構築. 第19回YANSシンポジウム (YANS2024), S3-P33, 2024年9月.
齋藤幸史郎, 水木栄, 大井聖也, 中村泰士, 塩谷泰平, 前田航希, Ma Youmi, 服部翔, 藤井一喜, 岡本拓己, 石田茂樹, 高村大也, 横田理央, 岡崎直観. LLMに日本語テキストを学習させる意義. 情報処理学会第261回自然言語処理研究会研究報告 (2024-NL-261), 12, pp. 1–15, 2024年9月.
綿祐貴, 金子正弘, Youmi Ma, 岡崎直観. 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃. 言語処理学会第30回年次大会 (NLP2024), A11-3, pp. 3015–3020, 2024年3月.
Youmi Ma, An Wang, 岡崎直観. 言語横断ラベル射影を用いた日本語文書レベル関係抽出データセットの構築. 言語処理学会第30回年次大会 (NLP2024), P3-4, pp. 783–788, 2024年3月.
Youmi Ma, An Wang, 岡崎直観. 日本語文書レベル関係抽出コーパスの構築. 第18回NLP若手の会シンポジウム, S5-P19, 2023年8月.
服部翔, Youmi Ma, 岡崎直観. クエリ指向要約におけるクエリと要約の統合的な生成. 言語処理学会第29回年次大会 (NLP2023), H5-2, pp. 1244–1249, 2023年3月.
Youmi Ma, An Wang, 岡崎直観. 文書レベル関係抽出における根拠認識の統合. 言語処理学会第29回年次大会 (NLP2023), B3-3, pp. 605–610, 2023年3月.
Youmi Ma, 平岡達也, 岡崎直観. 畳み込みニューラルネットワークを用いた表ラベリングによる固有表現認識と関係抽出 . 言語処理学会第28回年次大会 (NLP2022), pp. 1197–1202, 2022年3月.
Youmi Ma, 平岡達也, 岡崎直観. BERTを用いたTable-Fillingによる固有表現抽出と関係抽出. 言語処理学会第27回年次大会 (NLP2021), pp. 1274–1279, 2021年3月.

Preprints

Youmi Ma and Naoaki Okazaki. From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models. arXiv:2601.11020.
Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. arXiv:2505.02881. 2025.
Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. arXiv:2503.23714. 2025.
Masahiro Kaneko, Youmi Ma, Yuki Wata, and Naoaki Okazaki. Sampling-based Pseudo-Likelihood for Membership Inference Attacks. arXiv:2404.11262. 2024.
Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Named Entity Recognition and Relation Extraction using Enhanced Table Filling by Contextualized Representations. arXiv:2010.07522. 2020.

Collaborate Research

Apr. 2022 - Dec. 2022 | NEC Laboratories Europe GmbH
- Collaborate Research
- Theme: Cross-Lingual Open Information Extraction
- Group: Human-Centric AI Research Group
Jan. 2022 - Mar. 2022 | NTT Laboratories
- Internship
- Theme: Query-Focused Summarization
- Group: NTT Human Informatics Laboratories

International Conferences

Journal

Domestic Conferences

Preprints

Collaborate Research

Templates (for web app):

Error