Publications

International Conferences

  • Youmi Ma and Naoaki Okazaki. From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models. In Findings of the Association for Computational Linguistics: ACL 2026 (ACL), pages (to appear), San Diego, California, United States, July 2026.
  • Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Masaki Kawamura, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Oi, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Jun Sakuma, and Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. In The Fourteenth International Conference on Learning Representations (ICLR), Rio de Janeiro, Brazil, April 2026.
  • Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. In Second Conference on Language Modeling (COLM), Montreal, Canada, October 2025.
  • Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, and Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs. In The 1st Workshop on Multilingual and Equitable Language Technologies (MELT), 24 pages, Montreal, Canada, October 2025 (Spotlight).
  • Masahiro Kaneko*, Youmi Ma*, Yuki Wata, and Naoaki Okazaki. Sampling-based Pseudo-Likelihood for Membership Inference Attacks. In Findings of the Association for Computational Linguistics: ACL 2025 (ACL), pages (8894–8907), Vienna, Austria, July 2025 (*equal contribution).
  • Youmi Ma, An Wang, and Naoaki Okazaki. Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING), pages 2567–2579, Torino, Italia, May 2024.
  • Youmi Ma, Bhushan Kotnis, Carolin Lawrance, Goran Glavaš, and Naoaki Okazaki. Improving Cross-Lingual Transfer for Open Information Extraction with Linguistic Feature Projection. In Proceedings of the 3rd Workshop on Multi-lingual Representation Learning (MRL), pages 125–138, Singapore, December 2023.
  • An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, and Naoaki Okazaki. Generative Data Augmentation for Aspect Sentiment Quad Prediction. In Proceedings of the 12th Joint Conference on Lexical and Computational Semantics (*SEM), pages 128–140, Toronto, Canada, July 2023.
  • Youmi Ma, An Wang, and Naoaki Okazaki. DREEAM: Guiding Attention with Evidence for Improving Document-Level Relation Extraction. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume (EACL), pages 1971–1983, Dubrovnik, Croatia, May 2023.
  • Hsuan-Yu Kuo, Youmi Ma, and Naoaki Okazaki. Annotating Entity and Causal Relationships on Japanese Vehicle Recall Information. In Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation (PACLIC), pages 783–791, Manila, Philippines, October 2022.
  • Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Joint Entity and Relation Extraction Based on Table Labeling Using Convolutional Neural Networks. In Proceedings of the Sixth Workshop on Structured Prediction for NLP (SPNLP), pages 11–21, Dublin, Ireland, May 2022.
  • Zixia Jia, Youmi Ma, Jiong Cai, and Kewei Tu. Semi-Supervised Semantic Dependency Parsing Using CRF Autoencoders. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), pages 6795–6805, Online, July 2020.

Journal

  • An Wang, Huidong Jiang, Youmi Ma, Junfeng Jiang, Ao Liu, and Naoaki Okazaki. Improving Implicit Sentiments Analysis via Explanations of Multiple Perspectives. In IEEE Access, pages 61136 - 61148, 2025.
  • An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, and Naoaki Okazaki. Generative Data Augmentation for Aspect Sentiment Quad Prediction. 自然言語処理, 31(4):to appear, December 2024.
  • Youmi Ma, An Wang, and 岡崎 直観. 文書レベル関係抽出における根拠認識の統合. 自然言語処理, 31(1):105–133, March 2024.
  • Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Named Entity Recognition and Relation Extraction Using Enhanced Table Filling by Contextualized Representations. 自然言語処理, 29(1):187–223, March 2022. (doi: 10.5715/jnlp.29.187)

Domestic Conferences

  • Youmi Ma, 岡崎 直観. 検索ヘッドに基づく大規模言語モデルの長文脈処理の改善. 言語処理学会第32回年次大会 (NLP2026), A9, B6-10, pp. 2561–2566, 2026年3月.
  • 一瀬 達矢, Youmi Ma, 大井 聖也, 小池 隆斗, 岡崎 直観. 対照的デコーディングを用いた指示学習データの合成. 言語処理学会第32回年次大会 (NLP2026), C7-12, pp. 3196–3201, 2026年3月.
  • 水木 栄, 藤井 一喜, 川村 政貴, Tien Dung Nguyen, 片山 結太, 齋藤 幸史郎, 一瀬 達矢, 宮本 空, 松下 直矢, 大井 聖也, Youmi Ma, 太田 晋, 大葉 大輔, 高村 大也, 横田 理央, 岡崎 直観. 蒸留による日英推論型大規模言語モデル構築戦略の探索. 言語処理学会第32回年次大会 (NLP2026), C8-11, pp. 3675–3680, 2026年3月.
  • 松下 直矢, 馬 尤咪, 大葉 大輔, 水木 栄, 岡崎 直観. 多段階プロンプトを用いた推論過程の改善による大規模言語モデルの翻訳性能の向上. 情報処理学会 第267回自然言語処理研究会 研究報告 (2026-NL-267), 4, pp. 1–13, 2026年3月.
  • 松下 直矢, 馬 尤咪, 岡崎 直観. 言語ニューロンの制御による大規模言語モデルの言語横断的対話性能の改善. 第20回YANSシンポジウム (YANS2025), S4-P43, 2025年9月.
  • 一瀬 達矢, 馬 尤咪, 大井 聖也, 小池 隆斗, 岡崎 直観. 対照的デコーディングを用いた指示学習データの合成. 第20回YANSシンポジウム (YANS2025), S1-P34, 2025年9月.
  • 服部 翔, 水木 栄, 藤井 一喜, 中村 泰士, 塩谷 泰平, 植田 快, 新妻 巧朗, 川畑 輝, 田森 秀明, Youmi Ma, 前田 航希, 大井 聖也, 齋藤 幸史郎, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 新聞記事からつくる 時事と社会に強い日本語LLM. 言語処理学会第31回年次大会 (NLP2025), C10-1, pp. 3948–3953, 2025年3月.
  • Youmi Ma, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 島田 比奈理, 塩谷 泰平, 齋藤 幸史郎, 前田 航希, 服部 翔, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 模倣学習による大規模言語モデルの指示チューニング. 言語処理学会第31回年次大会 (NLP2025), Q8-21, pp. 3446–3451, 2025年3月.
  • 高橋 侑成, Youmi Ma, 金子 正弘, 岡崎 直観. 大規模言語モデルはデータ漏洩を隠蔽できるのか. 言語処理学会第31回年次大会 (NLP2025), A3-1, pp. 887–892, 2025年3月.
  • 服部 翔, 岡崎 直観, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 塩谷 泰平, 齋藤 幸史郎, Youmi Ma, 前田 航希, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築. 言語処理学会第31回年次大会 (NLP2025), C1-5, pp. 94–99, 2025年3月.
  • 高橋 侑成, Ma Youmi, 金子 正弘, 岡崎 直観. 大規模言語モデルに対する漏洩検出への敵対的なデータ隠蔽. 第19回YANSシンポジウム (YANS2024), S4-P22, 2024年9月.
  • 服部 翔, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, Ma Youmi, 前田 航希, 塩谷 泰平, 齋藤 幸史郎, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 小規模で高性能なLLMのための高品質事前学習Webコーパスの構築. 第19回YANSシンポジウム (YANS2024), S3-P33, 2024年9月.
  • 齋藤 幸史郎, 水木 栄, 大井 聖也, 中村 泰士, 塩谷 泰平, 前田 航希, Ma Youmi, 服部 翔, 藤井 一喜, 岡本 拓己, 石田 茂樹, 高村 大也, 横田 理央, 岡崎 直観. LLMに日本語テキストを学習させる意義. 情報処理学会 第261回自然言語処理研究会 研究報告 (2024-NL-261), 12, pp. 1–15, 2024年9月.
  • 綿 祐貴, 金子 正弘, Youmi Ma, 岡崎 直観. 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃. 言語処理学会第30回年次大会 (NLP2024), A11-3, pp. 3015–3020, 2024年3月.
  • Youmi Ma, An Wang, 岡崎 直観. 言語横断ラベル射影を用いた日本語文書レベル関係抽出データセットの構築. 言語処理学会第30回年次大会 (NLP2024), P3-4, pp. 783–788, 2024年3月.
  • Youmi Ma, An Wang, 岡崎 直観. 日本語文書レベル関係抽出コーパスの構築. 第18回NLP若手の会シンポジウム, S5-P19, 2023年8月.
  • 服部 翔, Youmi Ma, 岡崎 直観. クエリ指向要約におけるクエリと要約の統合的な生成. 言語処理学会第29回年次大会 (NLP2023), H5-2, pp. 1244–1249, 2023年3月.
  • Youmi Ma, An Wang, 岡崎 直観. 文書レベル関係抽出における根拠認識の統合. 言語処理学会第29回年次大会 (NLP2023), B3-3, pp. 605–610, 2023年3月.
  • Youmi Ma, 平岡 達也, 岡崎 直観. 畳み込みニューラルネットワークを用いた表ラベリングによる固有表現認識と関係抽出 . 言語処理学会第28回年次大会 (NLP2022), pp. 1197–1202, 2022年3月.
  • Youmi Ma, 平岡 達也, 岡崎 直観. BERTを用いたTable-Fillingによる固有表現抽出と関係抽出. 言語処理学会第27回年次大会 (NLP2021), pp. 1274–1279, 2021年3月.

Preprints

  • Youmi Ma and Naoaki Okazaki. From Interpretability to Performance: Optimizing Retrieval Heads for Long-Context Language Models. arXiv:2601.11020.
  • Kazuki Fujii, Yukito Tajima, Sakae Mizuki, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Masanari Ohi, Masaki Kawamura, Taishi Nakamura, Takumi Okamoto, Shigeki Ishida, Kakeru Hattori, Youmi Ma, Hiroya Takamura, Rio Yokota, Naoaki Okazaki. Rewriting Pre-Training Data Boosts LLM Performance in Math and Code. arXiv:2505.02881. 2025.
  • Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models. arXiv:2503.23714. 2025.
  • Masahiro Kaneko, Youmi Ma, Yuki Wata, and Naoaki Okazaki. Sampling-based Pseudo-Likelihood for Membership Inference Attacks. arXiv:2404.11262. 2024.
  • Youmi Ma, Tatsuya Hiraoka, and Naoaki Okazaki. Named Entity Recognition and Relation Extraction using Enhanced Table Filling by Contextualized Representations. arXiv:2010.07522. 2020.

Collaborate Research