ニュース

Interspeech 2025 (2025/8) で以下の論文発表を行います。

  • Zaid Sheikh, Shuichiro Shimizu, Siddhant Arora, Jiatong Shi, Samuele Cornell, Xinjian Li, Shinji Watanabe:
    Scalable Spontaneous Speech Dataset (SSSD): Crowdsourcing Data Collection to Promote Dialogue Research.
  • Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero:
    CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset.

ACL 2025 (2025/7-8)で以下の論文発表を行います。

  • Zhen Wan, Chao-Han Huck Yang, Yahan Yu, Jinchuan Tian, Sheng Li, Ke Hu, Zhehuai Chen, Shinji Watanabe, Fei Cheng, Chenhui Chu, Sadao Kurohashi:
    SIQ: Exterminating Speech Intelligence Quotient Cross Cognitive Levels in Voice Understanding Large Language Models
  • Zhengdong Yang, Sheng Li, Chenhui Chu:
    Generative Error Correction for Emotion-aware Speech-to-text Translation (Findings)
  • Zhengdong Yang, Shuichiro Shimizu, Yahan Yu, Chenhui Chu:
    When Large Language Models Meet Speech: A Survey on Integration Approaches (Findings)
  • Chengzhi Zhong, Qianying Liu, Fei Cheng, Junfeng Jiang, Zhen Wan, Chenhui Chu, Yugo Murawaki, Sadao Kurohashi:
    What Language Do Non-English-Centric Large Language Models Think in? (Findings)
  • Yahan Yu, Duzhen Zhang, Yong Ren, Xuanle Zhao, Xiuyi Chen, Chenhui Chu:
    Progressive LoRA for Multimodal Continual Instruction Tuning (Findings)
  • Qianying Liu, Katrina Qiyao Wang, Fei Cheng, Sadao Kurohashi:
    7 Points to Tsinghua but 10 Points to 清华? Assessing Large Language Models in Agentic Multilingual National Bias (Findings)
  • Yen-Ting Lin, Zhehuai Chen, Piotr Zelasko, Zhen Wan, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Ke Hu, Szu-Wei Fu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Chao-Han Huck Yang:
    NeKo: Cross-Modality Post-Recognition Error Correction with Tasks-Guided Mixture-of-Experts Language Model (Industry)

以下の発表が第13回AAMTセミナー AAMT若手翻訳研究会最優秀賞を受賞しました。

  • 鐘承志、程飛、劉倩瑩、江俊锋、万振、褚晨翚、村脇有吾、黒橋禎夫:
    What language do Japanese-specialized large language models think in? 

入試説明会後に研究室紹介を行います (2025/5/10 (土))

  • 5月10日(土)に開催される知能情報学コースの入試説明会で、全体説明会のあとに研究室でオープンラボ・個別説明会を行います。15:00頃開始と16:00頃開始の2セッションを予定しています。

NAACL 2025 (2025/4-5) で以下の論文発表を行います。

  • Siddhant Arora, Yifan Peng, Jiatong Shi, Jinchuan Tian, William Chen, Shikhar Bharadwaj, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Shuichiro Shimizu, Vaibhav Srivastav, Shinji Watanabe:
    ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems (System Demonstrations)
  • Shiho Matta, Yin Jou Huang, Fei Cheng, Hirokazu Kiyomaru, Yugo Murawaki:
    Optimizing Cost-Efficiency with LLM-Generated Training Data for Conversational Semantic Frame Analysis (Joint SIGHUM Workshop, LaTeCH-CLfL2025)

電気B3向けの研究室見学 (2/20) を行います。

  • 日時: 2025/02/20 (木) 14:00-, 15:00-, 16:00 の3回
  • 場所: 総合研究9号館南棟S-212

Jivnesh Sandhan特定研究員が着任しました。 (2024/12/1)

大文字山に登りました。(11/27)

daimonzi_20241127.jpg

EMNLP 2024 (2024/11)で以下の論文発表を行います。

  • Yin Jou Huang, Rafik Hadfi:
    How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models (Findings)
  • Junfeng Jiang, Fei Cheng, Akiko Aizawa:
    Improving Referring Ability for Biomedical Language Models (Findings)

昨年度博士後期課程卒業の毛卓遠君の以下の博士論文がAAMT長尾賞 学生奨励賞を受賞しました(2024/5)。

  • Breaking Language Barriers: Enhancing Multilingual Representation for Sentence Alignment and Translation

研究の概要

本研究室では,言語の仕組み,それを用いたコミュニケーションの仕組みを計算機が扱える正確さで解明するという理論的研究と,それによって情報検索,自動翻訳,マンマシンインタフェース等をより高度化して人間の活動を支援するという工学的研究を行っています.(→詳細)

知識に基づく構造的言語処理の確立と知識インフラの構築

TSUBAKI.png

テキストは,専門家によるデータの分析結果や解釈,ステークホルダーの批判・意見,種々の手続きやノウハウなどが表出されたものであり,人間の知識表現の根幹をなすものです.知識に基づく頑健で高精度な構造的言語処理を実現するとともに,これによって様々なテキストの横断的な関連付け,検索,比較を可能とする知識インフラの構築を目指しています.また,注釈付与コーパス,辞書,言語解析システムの公開によって研究コミュニティによる一層の研究の加速を実現するとともに,これらの研究成果を企業のカスタマーセンター業務等に適用する実験を始めています.このようなテーマで,2013年10月から5.5年間のCRESTプロジェクトを推進しています.

自動翻訳の高度化に関する研究

EBMT.png

計算機による自動翻訳をより人間的な翻訳に近づけるために,言葉の理解・パラフレーズを通した翻訳や,大量の用例を利用した次世代翻訳方式の研究を行っています.JSTと協力し、日中科学技術文献の自動翻訳実用化プロジェクトに取り組むとともに,クラウドソーシングなどを利用した対訳コーパスの構築、自動翻訳の利用による多言語ブログからの意見集約などの研究を展開しています.

言語理解の基礎的研究

計算機による言語理解を実現するためには,計算機に常識・世界知識を与える必要があります.10年前にはこれは非常に難しい問題でしたが,近年の計算機パワー,計算機ネットワークの飛躍的進展によって計算機が超大規模テキストを取り扱えるようになり,そこから常識を自動獲得することが少しずつ可能になってきました.我々の研究室でも,クラスタ計算機を使ってWebから収集した100億文超の大規模テキストを処理することにより,同義語・類義語知識、述語項構造パターン、事態間関係知識等の自動学習を行っています.さらに,このような知識を利用することにより,計算機による文章理解,すなわち文章中の語/句/文間の関係性の解析について研究を進めています.

外部からの学生の受け入れのポリシー

黒橋教授は新規の学生の研究指導を行っていません。村脇准教授またはChu特定准教授が研究指導を行う体制です。

修士課程

博士課程

アクセス

  • 住所/場所
    • 〒606-8501 京都市左京区吉田本町
    • 京都大学 吉田本部キャンパス 総合研究9号館(旧工学部3号館) 南棟 2階 S208
  • 連絡先
    • Tel/Fax:(075)753-5962
    • Email: contact あっと nlp.ist.i.kyoto-u.ac.jp

関連サイト